IA développementale pour l'apprentissage de la parole et du langage 

Logo DevAI

Thomas Hueber
Thomas HUEBER,

Directeur de recherche au CNRS, chercheur au GIPSA-lab,
thomas.hueber@grenoble-inp.fr




Mathilde Fort

Mathilde FORT,
Chercheur au LPNC/Université Grenoble Alpes, activités d'enseignement à l'INSPE Université Lyon 1),
Directeur de recherche IRD,
Mathilde.Fort@univ-grenoble-alpes.fr


Laurent GIRIN,
Professeur à Grenoble-INP UGA, chercheur au GIPSA-lab,
Laurent.Girin@gipsa-lab.grenoble-inp.fr




DESCRIPTION

Le projet DevAI&Speech vise à améliorer l'IA conversationnelle en s'inspirant de l'acquisition du langage humain. Il se concentre sur les SpeechLM, des modèles génératifs de la parole qui apprennent sans étiquette textuelle, reflétant la façon dont les enfants acquièrent la parole avant d'apprendre à lire et à écrire. Le projet explorera comment les interactions sensori-motrices, physiques et sociales façonnent l'apprentissage du langage et peuvent améliorer l'efficacité des SpeechLMs. Les principaux objectifs sont l'intégration de la biomécanique de la parole, le traitement multimodal des entrées, l'intégration d'un SpeechLM dans des robots humanoïdes et l'entraînement par le biais d'interactions naturelles avec des humains. La conception du modèle et les données d'entraînement s'appuieront sur les résultats expérimentaux d'études d'interaction entre parents, enfants et robots menées dans un Babylab. En faisant le lien entre l'IA et la science du développement, le projet vise à améliorer l'IA conversationnelle et à approfondir les connaissances sur l'acquisition du langage.

ACTIVITÉS

Poste de doctorat à pourvoir : Mise en place d'un modèle multimodal de langage vocal par le biais d'une interaction physique et sociale - Plus d'informations ici : Positions de doctorat - MIAI Cluster IA  

ÉVÉNEMENTS DE LA PRÉSIDENCE

Réunion de lancement - 2025, 16 juillet, GIPSA-lab / LPNC (Grenoble)
Réunion de lancement - 2025, 16 juillet, GIPSA-lab / LPNC (Grenoble)
 

LISTE SÉLECTIVE DE PUBLICATIONS

  • Georges, M-A, Lavechin, M, Schwartz, J-L, Hueber, T, (2024) "Decode, move and speak ! Self-supervised learning of speech units, gestures, and sounds relationships using vocal imitation", Computational Linguistics, https://doi.org/10.1162/coli_a_00532
  • Ortiz, A., Schatz, T., Hueber, T., Dupoux, E., "Simulating articulatory trajectories with phonological feature interpolation", Proc. of Interspeech, 2024, pp. 3595-3599
  • Girin L., Leglaive S., Bie X, Diard J., Hueber T., Alameda-Pineda X. (2021), "Dynamical Variational Autoencoders : A Comprehensive Review", Foundations and Trends in Machine Learning, Vol. 15, No. 1-2, pp 1-175
  • X. Lin, L. Girin et X. Alameda-Pineda, "Mixture of dynamical variational autoencoders for multi-source trajectory modeling and separation," Transactions on Machine Learning Research, Published online at https ://jmlr.org/tmlr/papers, 2023.
  • Birulés, J., Goupil, L., Josse, J., Fort, M. The role of talking faces in infant language learning : Mind the gap between screen-based settings and real-life communicative interactions (2023). Brain Sciences, 13(8), 1167. https://doi.org/10.3390/brainsci13081167
  • Fort M., Lammertink, I., Guevara-Rukoz, A., Peperkamp, S., Fikert, P., Tsuji. S., (2018). Symbouki : une méta-analyse sur l'émergence du symbolisme sonore dans l'acquisition précoce du langage. Science du développement. https://doi.org/10.1111/desc.12659
  • M. Lenglet, O. Perrotin, G. Bailly (2024) FastLips : an End-to-End Audiovisual Text-to-Speech System with Lip Features Prediction for Virtual Avatars, Proceedings of Interspeech, Kos, Greece, September 1-5, pp. 3450-3454.
  • M. Jacquelin, M. Garnier, L. Girin, R. Vincent, O. Perrotin (2024), Exploring the Multidimensional Representation of Unidimensional Speech Acoustic Parameters Extracted by Deep Unsupervised Models, Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing Workshops (ICASSPW), Seoul, Korea, April 15, pp. 858-862.
  • Rakotomalala, T., Baraduc, P., Perrier, P. (2022) Trajectoires prédites par un contrôle optimal de la motricité vocale à l'aide de réseaux LSTM. Proc. Interspeech 2022, 630-634, doi : 10.21437/Interspeech.2022-10604

PRÉSENTATION DE LA PRÉSIDENCE

Présentation de la chaire Dev AI & Speech

Licence :
Sauf indication contraire, tous les documents sont partagés sous la licence Creative Commons BY-NC-ND 4.0.
Vous pouvez les consulter et les partager à des fins non commerciales, sans les modifier et en mentionnant les auteurs.

Publié le 20 août 2025
Mis à jour le 21 août 2025