Le projet DevAI&Speech vise à améliorer l'IA conversationnelle en s'inspirant de l'acquisition du langage humain. Il se concentre sur les SpeechLM, des modèles génératifs de la parole qui apprennent sans étiquette textuelle, reflétant la façon dont les enfants acquièrent la parole avant d'apprendre à lire et à écrire. Le projet explorera comment les interactions sensori-motrices, physiques et sociales façonnent l'apprentissage du langage et peuvent améliorer l'efficacité des SpeechLMs. Les principaux objectifs sont l'intégration de la biomécanique de la parole, le traitement multimodal des entrées, l'intégration d'un SpeechLM dans des robots humanoïdes et l'entraînement par le biais d'interactions naturelles avec des humains. La conception du modèle et les données d'entraînement s'appuieront sur les résultats expérimentaux d'études d'interaction entre parents, enfants et robots menées dans un Babylab. En faisant le lien entre l'IA et la science du développement, le projet vise à améliorer l'IA conversationnelle et à approfondir les connaissances sur l'acquisition du langage.
ACTIVITÉS
Poste de doctorat à pourvoir : Mise en place d'un modèle multimodal de langage vocal par le biais d'une interaction physique et sociale - Plus d'informations ici : Positions de doctorat - MIAI Cluster IA
Georges, M-A, Lavechin, M, Schwartz, J-L, Hueber, T, (2024) "Decode, move and speak ! Self-supervised learning of speech units, gestures, and sounds relationships using vocal imitation", Computational Linguistics, https://doi.org/10.1162/coli_a_00532
Ortiz, A., Schatz, T., Hueber, T., Dupoux, E., "Simulating articulatory trajectories with phonological feature interpolation", Proc. of Interspeech, 2024, pp. 3595-3599
X. Lin, L. Girin et X. Alameda-Pineda, "Mixture of dynamical variational autoencoders for multi-source trajectory modeling and separation," Transactions on Machine Learning Research, Published online at https ://jmlr.org/tmlr/papers, 2023.
Birulés, J., Goupil, L., Josse, J., Fort, M. The role of talking faces in infant language learning : Mind the gap between screen-based settings and real-life communicative interactions (2023). Brain Sciences, 13(8), 1167. https://doi.org/10.3390/brainsci13081167
Fort M., Lammertink, I., Guevara-Rukoz, A., Peperkamp, S., Fikert, P., Tsuji. S., (2018). Symbouki : une méta-analyse sur l'émergence du symbolisme sonore dans l'acquisition précoce du langage. Science du développement. https://doi.org/10.1111/desc.12659
M. Lenglet, O. Perrotin, G. Bailly (2024) FastLips : an End-to-End Audiovisual Text-to-Speech System with Lip Features Prediction for Virtual Avatars, Proceedings of Interspeech, Kos, Greece, September 1-5, pp. 3450-3454.
M. Jacquelin, M. Garnier, L. Girin, R. Vincent, O. Perrotin (2024), Exploring the Multidimensional Representation of Unidimensional Speech Acoustic Parameters Extracted by Deep Unsupervised Models, Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing Workshops (ICASSPW), Seoul, Korea, April 15, pp. 858-862.
Rakotomalala, T., Baraduc, P., Perrier, P. (2022) Trajectoires prédites par un contrôle optimal de la motricité vocale à l'aide de réseaux LSTM. Proc. Interspeech 2022, 630-634, doi : 10.21437/Interspeech.2022-10604
PRÉSENTATION DE LA PRÉSIDENCE
Licence :
Sauf indication contraire, tous les documents sont partagés sous la licence Creative Commons BY-NC-ND 4.0.
Vous pouvez les consulter et les partager à des fins non commerciales, sans les modifier et en mentionnant les auteurs.
Publié le 20 août 2025 Mis à jour le 21 août 2025
Membres principaux
Thomas Hueber
Mathilde Fort
Laurent Girin
Olivier Perrotin (GIPSA-lab)
Pierre Baraduc (GIPSA-lab)
Pr. Okko Räsänen (Univ. Tampere, Finlande)
Membres associés
Maxime Calka (GIPSA-lab)
Pascal Perrier (GIPSA-lab)
Maëva Garnier (GIPSA-lab)
Leticia Schiavon Kolberg (GIPSA-lab)
Martin Lenglet (ATOS Inno'Labs)
Brice Varini (ATOS Inno'Labs)
Lea Haefflingher (ATOS Inno'Labs)
Stéphane Lathuilière (Centre INRIA UGA)
Xavier Alameda-Pineda (Centre INRIA UGA)
Emmanuel Dupoux (EHESS/ENS/Meta)
Angelo Ortiz (équipe CoML, ENS)
Thèmes de recherche
Fondement sensorimoteur et social de l'IA conversationnelle, LLM multimodal, IA pour l'étude de l'acquisition de la parole et du langage chez l'enfant, robotique sociale
Partager le lienCopierCopiéFermer la fenêtre modalePartager l'URL de cette pageJe recommande :Consultable à cette adresse :La page sera alors accessible depuis votre menu "Mes favoris".Arrêter la vidéoLire la vidéoCouper le sonLire l'audioChat : Une question ?Chatbot Robo FabricaStatistiques de trafic MatomoX (anciennement Twitter)