DESCRIPTION
chaire « Cognition bayésienne et apprentissage automatique pour la communication vocale », rattachée à l'institut MIAI de Grenoble, rassemble des chercheurs spécialisés dans les domaines de la communication vocale, de la cognition, de l'apprentissage automatique et de la modélisation probabiliste des systèmes sensorimoteurs. Les membres de l'équipe proviennent du Gipsa-lab (UMR CNRS 5216) et du LPNC (UMR CNRS 5105), deux laboratoires de l'UGA et de Grenoble INP-UGA. L'objectif de la chaire de construire un modèle computationnel global de la production et de la perception de la parole, c'est-à-dire un système capable d'apprendre à parler et à percevoir la parole à partir d'exemples fournis par l'environnement. À cette fin, une approche originale est proposée, qui associe le cadre algorithmique et mathématique du Deep Learning basé sur les données et de la modélisation probabiliste guidée par des hypothèses. Cette approche a été développée afin de concevoir des modèles plus interprétables et donc plus explicables et transférables, avec des implémentations plus rapides et plus économiques, ainsi qu’une plus grande robustesse et polyvalence. Notre objectif est de construire des modèles de communication vocale qui atteignent les performances de pointe des systèmes actuels basés sur l'apprentissage profond tout en limitant considérablement la quantité de données d'entraînement.
APPROCHE SCIENTIFIQUE
Figure 1- Processus et variables inclus dans le modèle conjoint de la parole et de la perception de la parole
Modéliser conjointement les processus de production et de perception de la parole revient à concevoir des modèles des relations entre les différentes variables impliquées dans ces processus, à savoir les variables motrices/de contrôle, les variables multisensorielles et les variables linguistiques/phonologiques (Figure 1). Au fil des ans, les membres du groupe ont exploré deux approches complémentaires pour y parvenir. Premièrement, une approche de programmation probabiliste fondée sur des hypothèses (Tenenbaum et al., 2011 ; Bessière et al., 2013) a été utilisée pour concevoir explicitement un ensemble de fonctions probabilistes multidimensionnelles reliant les variables. Ces modèles probabilistes sont définis à partir d’hypothèses théoriques sur les mécanismes physiques, le traitement neurocognitif et les représentations de la production et de la perception de la parole chez l’être humain. Cela a conduit à un certain nombre de résultats significatifs concernant la perception de la parole dans des conditions défavorables (Moulin-Frier et al., 2012 ; Laurent et al., 2015), la variabilité et la robustesse de la production de la parole (Patri et al., 2015, 2018), les représentations de la parole dans le cerveau (Barnaud et al., 2018) et l’émergence de systèmes sonores dans une société d’agents communicants (Moulin-Frier et al., 2015 ; Schwartz et al., 2016). Deuxièmement, les cadres algorithmiques et mathématiques d’apprentissage profond basés sur les données, tels que les réseaux neuronaux profonds artificiels, permettent d’établir une correspondance directe, c’est-à-dire une régression déterministe, entre des sous-ensembles de variables. Cette approche a servi de base au développement de systèmes efficaces pour le traitement de la parole, la conversion vocale, la réduction du bruit, l’extraction de caractéristiques, l’inversion acoustico-articulatoire, la synthèse vocale et les interfaces cerveau-ordinateur (Hueber et al., 2015 ; Hueber & Bailly, 2016 ; Bocquelet et al., 2016 ; Fabre et al., 2017 ; Girin et al., 2017 ; Schultz et al., 2017). Le défi computationnel abordé dans le programme de la chaire à tirer le meilleur parti de ces deux approches complémentaires pour élaborer un système computationnel capable d’apprendre à produire et à percevoir la parole à partir d’exemples fournis par l’environnement. Ces deux approches ont récemment commencé à se recouper avec l’émergence de modèles génératifs profonds, tels que les auto-encodeurs variationnels (VAE) ou les réseaux antagonistes génératifs (GAN). Fondamentalement, les paramètres caractérisant les distributions de probabilité des données sont encodés/mappés au sein de réseaux neuronaux profonds. Ces modèles peuvent être utilisés comme a priori probabilistes supervisés dans un modèle (probabiliste) plus général. Ils fournissent des moyens efficaces d’extraire/modéliser/manipuler l’espace latent de faible dimension qui représente la structure des données de haute dimension.
PROGRAMME DE RECHERCHE
Figure 2 - Composantes du programme de recherche
Dans ce contexte, il est crucial de clarifier la manière dont les relations probabilistes multidimensionnelles complexes entre les variables de production et de perception de la parole peuvent être apprises, et de rendre cet apprentissage plus efficace. Une exploration systématique des nombreux espaces multidimensionnels impliqués dans ces processus est irréalisable. C'est pourquoi une approche de la programmation probabiliste basée sur la cognition est privilégiée, car elle fournit une structure pour le développement des modèles informatiques et des processus d'apprentissage en relation avec les connaissances existantes en physique (aéroacoustique, biomécanique) et en neurosciences/psychologie (contrôle sensori-moteur de la parole, représentations du langage dans le cerveau, calendrier de développement de la parole et de l'acquisition du langage dans la petite enfance et l'enfance). Le programme général du projet consiste à associer la formalisation du modèle de communication vocale rendue possible par le cadre de la programmation probabiliste et les capacités d'apprentissage des méthodes avancées d'apprentissage automatique pour aborder ces questions d'apprentissage, élaborer de nouveaux modèles d'apprentissage et les évaluer (Figure 2).
Plus précisément, au cours des quatre prochaines années, la recherche s'articulera autour de trois thèmes principaux :
- Développer un agent informatique capable d'apprendre des représentations vocales à partir de données vocales brutes dans un scénario faiblement supervisé. Cet agent contiendra un modèle articulatoire du conduit vocal humain, un système de synthèse articulatoire-acoustique et une architecture d'apprentissage combinant des algorithmes d'apprentissage profond et des principes de développement inspirés des sciences cognitives. La première étape consistera à concevoir, implémenter et tester une version " profonde " d'un modèle computationnel bayésien de la communication vocale appelé COSMO (Moulin-Frier et al., 2012, 2015 ; Laurent et al., 2017 ; Barnaud et al., 2019), dans lequel certaines des distributions de probabilité sont implémentées par des modèles neuronaux génératifs (e.g., VAE, GAN). La deuxième étape consistera à réimplémenter entièrement l'agent de communication vocale dans une architecture neuronale de bout en bout. Projet de doctorat de Marc-Antoine Georges.
- Élaboration d'une méthodologie générale pour la cartographie incrémentale de séquence à séquence. Cela nécessitera le développement de modèles neuronaux de classification et de régression de bout en bout, capables de fournir des segments de données de sortie à la volée, à partir d'une observation partielle seulement des données d'entrée. Les approches possibles comprennent : (1) la prédiction en ligne de « l'avenir » de la séquence de sortie à partir du « passé et du présent » de la séquence d'entrée, avec une tolérance acceptable aux erreurs possibles, ou (2) l'apprentissage automatique, à partir des données, d'une « politique d'attente » optimale qui empêche le modèle de produire des données lorsque l'incertitude est trop élevée. Cette approche sera appliquée pour résoudre deux problèmes de traitement de la parole : la synthèse incrémentale texte-parole, dans laquelle la parole est synthétisée pendant que l'utilisateur tape le texte, et l'amélioration incrémentale de la parole, dans laquelle les parties inintelligibles du signal vocal sont remplacées à la volée par des parties reconstruites. Ces travaux sont menés en étroite collaboration avec la chaire MIAI chaire Intelligence chaire et langage » dirigée par Laurent Besacier. Projet de doctorat de Brooke Stephenson.
- Développer un modèle de production de la parole qui incorpore un traitement en ligne des informations de rétroaction en étendant notre modèle bayésien actuel pour la planification motrice de la parole appelé Bayesian GEPPETO (Patri et al., 2015). Cela implique d'abord l'apprentissage d'un "modèle interne dynamique" de l'appareil de production de la parole, qui prédit les mouvements articulatoires et les propriétés acoustiques spectro-temporelles de la production de la parole à partir de commandes motrices variables dans le temps, et prédit avec un retard minimal la probabilité d'atteindre les objectifs sensoriels prévus de la production de la parole avec le timing approprié. Cet apprentissage repose sur des simulations d'un modèle biomécanique du conduit vocal, qui génère des mouvements articulatoires à partir de commandes motrices et dont la complexité informatique sera réduite en utilisant des méthodes de réduction de l'ordre des modèles basées sur l'apprentissage automatique (projet de doctorat de Maxime Calka). Ensuite, en supposant que le cerveau fonctionne comme un contrôleur/estimateur optimal, la recherche se concentrera sur la manière dont le retour sensoriel et la prédiction interne du signal de parole guident simultanément la production de la parole, permettent la correction d'erreurs en ligne et façonnent la perception de la parole (projet de doctorat à venir).
Ces travaux s'inscrivent également dans le cadre d'un projet international mené par des membres de la chaire collaboration avec Anne-Lise Giraud et Itsaso Olasagasti du groupe « Neurosciences de l'audition, de la parole et du langage » de l'UNIGE (Université de Genève, Suisse), et financé par l'IDEX « Université Grenoble Alpes Université de l'Innovation » (projet Bio-Bayes - IDEX ISP19). Dans le cadre de ce projet, des modèles bayésiens hiérarchiques et prédictifs de la communication vocale seront développés afin de rendre compte des observations des systèmes oscillatoires neuronaux dans le cerveau (projet de doctorat de Mamady Nabé).
L'évaluation de l'impact de ce programme de recherche sur le développement des technologies de la parole se fera en termes de rapidité et d'exhaustivité de l'apprentissage ainsi qu'en termes de quantité de données nécessaires pour atteindre un niveau d'apprentissage satisfaisant. En outre, dans le contexte de l'apprentissage profond, l'analyse des représentations apprises par les réseaux neuronaux artificiels profonds à partir de données articulatoires, acoustiques et linguistiques brutes pourrait fournir des informations importantes sur les représentations sensori-motrices potentiellement encodées dans le cerveau humain.
LISTE SÉLECTIVE DE PUBLICATIONS
- Marc-Antoine Georges, Laurent Girin, Jean-Luc Schwartz, Thomas Hueber. Apprentissage d'une représentation robuste de la parole avec un autoencodeur variationnel régularisé par l'articulation. Interspeech 2021 - 22nd Annual Conference of the International Speech Communication Association, août 2021, Brno, République tchèque.
- Brooke Stephenson, Thomas Hueber, Laurent Girin, Laurent Besacier. Alternate Endings : Improving Prosody for Incremental Neural TTS with Predicted Future Text Input. Interspeech 2021 - 22e conférence annuelle de l'International Speech Communication Association, août 2021, Brno, République tchèque. pp.3865-3869.
- Xiaoyu Bie, Laurent Girin, Simon Leglaive, Thomas Hueber, Xavier Alameda-Pineda. A Benchmark of Dynamical Variational Autoencoders applied to Speech Spectrogram Modeling. Interspeech 2021 - 22nd Annual Conference of the International Speech Communication Association, Aug 2021, Brno, Czech Republic. pp.1-5.
- Pierre Baraduc, Tsiky Rakatomalala, Pascal Perrier. Contrôle moteur de la langue : dériver les trajectoires de l'articulateur et les modèles d'activation musculaire à partir d'un principe d'optimisation. Neural Control of Movement 2021 (Conférence virtuelle). Résumé. Avril 2021
- Pascal Perrier, Ny-Tsiky Rakotomalala, Pierre Baraduc. Quelques réflexions sur la formation des trajectoires dans la production de la parole. Neural bases of speech production, 2021, UCSF, San Francisco, Virtual Symposium, Invited Conference, May 2021.
- Mamady Nabé, Jean-Luc Schwartz, Julien Diard. COSMO-Onset : Un modèle informatique de reconnaissance de mots parlés inspiré par les neurones, combinant la prédiction descendante et la détection ascendante d'ensembles syllabiques. Frontiers in Systems Neuroscience, Frontiers, 2021, 15, pp.653975.
- Girin, L., Leglaive, S., Bie, X., Diard, J., Hueber, T. et Alameda-Pineda, X. (2021). Autoencodeurs variationnels dynamiques : A Comprehensive Review. Foundations and Trends in Machine Learning. En attente de publication en décembre.
- Georges, M.-A., Badin, P., Diard, J., Girin, L., Schwartz, J.-L., Hueber, T. (2020). Vers un vocodeur neuronal piloté par l'articulation pour la synthèse de la parole. ISSP 2020 - 12th International Seminar on Speech Production, Dec 2020, Providence (virtual), United States.
- Baraduc, P., Perrier, P. (2020). Stabilité du contrôle moteur de la langue : intégration du feedback, de la représentation interne dynamique et de la planification optimale. ISSP 2020 - 12th International Seminar on Speech Production, Dec 2020, Providence (virtual), United States.
- Calka, M., Perrier, P., Ohayon, J., Grivot Boichon, C. Rochette, Payan, Y. (2020). Simulations en temps réel des mouvements de la langue humaine avec un modèle d'ordre réduit d'un modèle biomécanique dynamique non linéaire. Computer Methods in Biomechanics and Biomedical Engineering, Taylor & Francis, 2020, 23 (sup1), pp.S55-S57.
- Stephensen, B., Besacier, L., Girin, L., Hueber, T. (2020). What the Future Brings : Investigating the Impact of Lookahead for Incremental Neural TTS. Actes d'Interspeech 2020 (pp. 215-219). 25-29 octobre 2020, Shanghai, Chine.
- Girin, L., Leglaive, S., Bie, X., Diard, J., Hueber, T. et Alameda-Pineda, X. (2020). Autoencodeurs variationnels dynamiques : A Comprehensive Review. ArXiv preprint arXiv:2008.12595.
- Calka, M., Perrier, P., Ohayon, J., Grivot-Boichon, C., Rochette, M., Payan, Y. (2021).
- Réduction de l'ordre des modèles basée sur l'apprentissage automatique d'un modèle biomécanique de la langue humaine. Computer Methods and Programs in Biomedicine, Vol. 198, 105786.
- Hueber, T., Tatulli, E., Girin, L. et Schwartz, J-L. (2020). Évaluation du gain potentiel du codage prédictif de la parole auditive et audiovisuelle à l'aide de l'apprentissage profond. Neural Computation, vol. 32(3), 596-625. https://doi.org/10.1162/neco_a_01264.
- Patri, J. F., Ostry, D. J., Diard, J., Schwartz, J. L., Trudeau-Fisette, P., Savariaux, C., & Perrier, P. (2020). Les locuteurs sont capables de catégoriser les voyelles sur la base de la somatosensation de la langue. Proceedings of the National Academy of Sciences, 117(11), 6255-6263.
- Patri, J.F., Diard, J., & Perrier, P. (2019). Modélisation de la préférence sensorielle dans la planification motrice de la parole : un cadre de modélisation bayésien. Frontiers in Psychology, 10, article 2339.
RÉSULTATS ATTENDUS
Le programme de recherche, qui associe la plausibilité cognitive et l'alignement sur des données réelles, devrait permettre une amélioration significative dans trois domaines fondamentaux :
- "Plus explicable et transférable": Le fait de relier les approches d'apprentissage automatique pilotées par les données aux hypothèses cognitives et développementales devrait rendre les caractéristiques et structures émergentes plus explicables et interprétables. Cela devrait faciliter l'évaluation des limites de leur applicabilité, prédire leurs erreurs et suggérer des moyens d'améliorer leur comportement.
- "Plus rapide et plus économique": La mise en œuvre de séquences développementales et de hiérarchies plausibles dans la structuration du modèle devrait favoriser le transfert d'apprentissage, assurer un apprentissage plus rapide et une convergence plus rapide. Cela devrait permettre aux modèles d'apprendre avec des ensembles réduits de données et favoriser un traitement matériel économique (en exploitant des mécanismes tels que le codage prédictif, le filtrage attentionnel ou le codage multiplex).
- "Plus robuste et plus polyvalent": La nature générative des modèles mis en œuvre et l'adéquation des calendriers de développement exploités devraient permettre aux modèles de traiter une parole atypique ou bruyante grâce à des sorties générées en interne et, inversement, d'adapter leurs propres productions vocales en réponse à des perturbations. Cela devrait conduire à une variabilité naturelle et cohérente, contrainte et structurée par les propriétés du système modélisé.
PARTENAIRES INDUSTRIELS
- ProBayes, 38330 Montbonnot
- ANSYS France, 69100 Villeurbanne
COLLABORATIONS NATIONALES ET INTERNATIONALES
-
UNIGE, Genève, Suisse : Anne-Lise Giraud, traitement auditif et modélisation neurophysiologique (Bourse IDEX "Université Grenoble Alpes Université de l'Innovation")
-
TIMC-IMAG, UGA : Yohan Payan, Model Order Reduction of biomechanical models of speech articulators (bourse doctorale CIFRE d'ANSYS France et de l'ANRT)