1ère MIAI Distinguished lecture le 30 septembre de 16h30 à 17h30
Le 30 septembre 2021
Nous sommes heureux de vous annoncer le premier séminaire inaugural de cette série le 30 septembre, avec le Prof. Kristen Grauman (UT Austin / Facebook AI Research) qui donnera une conférence de prestige.
VUES, SONS ET ESPACE :
APPRENTISSAGE AUDIO-VISUEL DANS DES ENVIRONNEMENTS 3D
Kristen Grauman est professeure au département d'informatique de l'université du Texas à Austin et directrice de recherche chez Facebook AI Research (FAIR). Ses recherches en vision artificielle et en apprentissage automatique portent sur la reconnaissance visuelle, la vidéo et la perception incarnée. Avant de rejoindre UT-Austin en 2007, elle a obtenu son doctorat au MIT. Elle est membre de l'IEEE, membre de l'AAAI, Sloan Fellow et lauréate du prix Computers and Thought 2013. Ses collaborateurs et elle ont été récompensés par plusieurs prix du meilleur article en vision artificielle, dont un prix Marr en 2011 et un prix Helmholtz en 2017 (prix de l'épreuve du temps). Elle a été rédactrice en chef associée de PAMI et présidente du programme de CVPR 2015 et de NeurIPS 2018.
RÉSUMÉ
Se déplacer dans le monde est naturellement une expérience multisensorielle, mais les agents incarnés d'aujourd'hui sont sourds et se limitent uniquement à leur perception visuelle de l'environnement. Nous explorons l'apprentissage audio-visuel dans des environnements 3D complexes, acoustiquement et visuellement réalistes. En voyant et en entendant, l'agent doit apprendre à naviguer vers un objet sonore, à utiliser l'écholocation pour anticiper son environnement 3D et à découvrir le lien entre ses entrées visuelles et le son spatial.
Pour soutenir cet objectif, nous présentons SoundSpaces : une plateforme de rendu audio basée sur des simulations acoustiques géométriques pour deux ensembles d'environnements 3D accessibles au public (Matterport3D et Replica). SoundSpaces permet d'insérer des sources sonores arbitraires dans un éventail d'environnements numérisés du monde réel. En nous appuyant sur cette plateforme, nous poursuivons une série de tâches d'apprentissage spatial audio-visuel. Plus précisément, dans la navigation audio-visuelle, l'agent est chargé de se rendre à une cible sonore dans un environnement inconnu (par exemple, aller au téléphone qui sonne). Dans la reconstruction de plans d'étage audio-visuels, une courte vidéo avec audio est convertie en une carte de toute la maison, où l'audio permet au système de « voir » derrière la caméra et derrière les murs. Pour l'apprentissage de caractéristiques auto-supervisé, nous explorons comment les échos observés pendant l'entraînement peuvent enrichir un encodeur RGB pour les tâches spatiales en aval, notamment l'estimation de la profondeur monoculaire. Nos résultats suggèrent comment l'audio peut améliorer la compréhension visuelle des espaces 3D, et nos recherches jettent les bases de nouvelles recherches en IA incarnée avec la perception audio-visuelle.
VOIR LA REDIFFUSION
Publié le 2 novembre 2023
Mis à jour le 2 novembre 2023
Partager le lienCopierCopiéFermer la fenêtre modalePartager l'URL de cette pageJe recommande :Consultable à cette adresse :La page sera alors accessible depuis votre menu "Mes favoris".Arrêter la vidéoLire la vidéoCouper le sonLire l'audioChat : Une question ?Chatbot Robo FabricaStatistiques de trafic MatomoX (anciennement Twitter)