Les systèmes modernes de traitement du langage naturel (NLP) dépendent excessivement de la disponibilité de ressources annotées (dépendance aux données), ce qui (1) creuse le fossé numérique entre les langues ou dialectes riches en ressources et ceux qui en manquent, et (2) accroît le risque de biais algorithmiques, les modèles formés sur des données empiriques reproduisant des inégalités sociétales controversées telles que les préjugés liés au genre ou à l'origine ethnique, etc. Parallèlement, l'amélioration des algorithmes d'analyse automatique du texte et de la parole crée de nouvelles opportunités pour la recherche fondamentale et appliquée en sciences du langage (par exemple, la linguistique descriptive et théorique, la sociolinguistique, l'étude du développement du langage), mais ces algorithmes doivent être capables d'apprendre à partir d'un nombre limité d'exemples, car les corpus collectés par les linguistes sont de taille restreinte. À partir de ces observations, l'objectif de la chaire de rendre le TALN moins dépendant des données (et donc plus équitable) ainsi que de contribuer à un tournant méthodologique dans la recherche en sciences sociales liée au langage en tirant parti de l'apprentissage automatique et des techniques modernes de traitement du langage naturel.
OBJECTIFS
Nous visons à construire des modèles qui 1/ peuvent apprendre à traiter le langage à partir d'aussi peu de données qu'un enfant apprenant et 2/ sont exempts des biais sociaux inclus dans les données. Pour ce faire, l'étiquetage humain est remplacé par des signaux plus faibles sous la forme d'informations multimodales, de connaissances préalables, de biais inductifs, de similitudes entre les langues (ou les tâches), de contexte.
PISTES DE RECHERCHE
En raison du coût de l'annotation des données, la conception de méthodes d'apprentissage économes en données (généralisation à partir de quelques exemples) et capables d'exploiter divers types de connaissances est une question ouverte dans le domaine du NLP. Dans ce contexte, nous proposons d'utiliser :
la modélisation basée sur les mêmes informations partagées entre les langues ou les tâches (par exemple, l'apprentissage multilingue ou multitâche) ;
les méthodes "zero-shot" qui ne nécessitent pas de données annotées (par exemple, mais qui utilisent des représentations apprises à partir de la parole ou du texte sans supervision) ;
les connaissances d'experts dans les systèmes empiriques (inclure des antécédents dans les modèles bayésiens ou neuronaux, utiliser des caractéristiques typologiques) ;
données multimodales pour la supervision sémantique (modèles de discours et de langage fondés sur la vision) ;
des modèles parcimonieux (connus pour avoir un meilleur pouvoir explicatif et prédictif) ;
les biais inductifs (issus des travaux psycholinguistiques sur l'acquisition des langues) ;
des méthodologies innovantes de collecte de données linguistiques (via le crowdsourcing, les applications mobiles).
ACTIVITÉS
2 doctorats ont commencé en janvier 2020 :
Brooke Stephenson : TTS incrémental (faible latence) (co-supervision avec le chaire P. Perrier)
Lorenzo Lupo : Traduction automatique neuronale au niveau du document
2 M2R ont été supervisés :
Analyse de la parole de bout en bout (Ousama Gasmi)
Analyse des fonctions lexicales des modèles linguistiques contextualisés (Vincent Bellue)
Travail collaboratif sur l'apprentissage auto-supervisé de la représentation des textes - Publication de FlauBERT (modèle de langue pour le français, entraîné avec le supercalculateur Jean Zay) : https://github.com/getalp/Flaubert
chaire
Organisation de l'école d'hiver ALPS (Advanced Language Processing School) qui aura lieu (virtuellement)
du dimanche 17 janvier au vendredi 22 2021 - http://lig-alps.imag.fr
LISTE SÉLECTIVE DE PUBLICATIONS
Erica Shimomoto, François Portet, Kazuhiro Fukui. Classification de textes basée sur la représentation du sous-espace des mots. Pattern Analysis and Applications, Springer Verlag, 2021.
Maha Elbayad, Laurent Besacier, Jakob Verbeek Joint Source-Target Encoding with Pervasive Attention. Machine Translation, Springer Verlag, 2021.
Hang Le, Juan Miguel Pino, Changhan Wang, Jiatao Gu, Didier Schwab, Laurent Besacier : Adaptation légère pour la traduction multilingue de la parole. ACL/IJCNLP (2) 2021 : 817-824.
Zae Myung Kim, Laurent Besacier, Vassilina Nikoulina, Didier Schwab : Les modèles de traduction automatique neuronale multilingue contiennent-ils des têtes d'attention spécifiques aux paires de langues ? ACL/IJCNLP (Résultats) 2021 : 2832-2841.
Ahmet Üstün, Alexandre Berard, Laurent Besacier, Matthias Gallé : Traduction automatique neuronale multilingue non supervisée avec adaptateurs de débruitage. EMNLP (1) 2021 : 6650-6662
Ha Nguyen, Yannick Estève, Laurent Besacier : An Empirical Study of End-To-End Simultaneous Speech Translation Decoding Strategies.ICASSP 2021 : 7528-7532
Ha Nguyen, Yannick Estève, Laurent Besacier : Impact des stratégies de codage et de segmentation sur la traduction simultanée de bout en bout. 22e conférence annuelle de l'International Speech Communication Association, août 2021, Brno, République tchèque.
Louise Tarrade, Jean-Pierre Chevrot, Jean-Philippe Magué. Buzz ou changement : Comment la structure du réseau social conditionne le destin des innovations lexicales sur Twitter. 8e conférence sur les corpus CMC et médias sociaux pour les sciences humaines (CMC-Corpora 2021), octobre 2021, Nijmegen, Université Radboud, Pays-Bas.
Jean-Pierre Chevrot. Peut-on prédire les caractéristiques sociodémographiques des utilisateurs de Twitter à partir de leurs tweets ? L'apport des données massives et de l'intelligence artificielle. Variation linguistique dans les langues européennes - Nouvelles perspectives sur la variation diasystémique à l'occasion du centenaire de la naissance de Coseriu (1921-2021), Nov 2021, Copenhague, Danemark.
Evain, Manh Ha Nguyen, Hang Le, Marcely Zanon Boito, Salima Mdhaffar, Sina Alisamir, Ziyi Tong, Natalia Tomashenko, Marco Dinarelli, Titouan Parcollet, Alexandre Allauzen, Yannick Estève, Benjamin Lecouteux, François Portet, Solange Rossato, Fabien Ringeval, Didier Schwab, Laurent Besacier. Task Agnostic and Task Specific Self-Supervised Learning from Speech with LeBenchmarkThirty-fifth Conference on Neural Information Processing Systems ( NeurIPS 2021), Dec 2021, on-line, United States.
Brooke Stephenson, Thomas Hueber, Laurent Girin, Laurent Besacier Alternate Endings : Improving Prosody for Incremental Neural TTS with Predicted Future Text Input Interspeech 2021 - 22nd Annual Conference of the International Speech Communication Association, Aug 2021, Brno, Czech Republic. pp.3865-3869.
Solène Evain, Ha Nguyen, Hang Le, Marcely Zanon Boito, Salima Mdhaffar, Sina Alisamir, Ziyi Tong, Natalia Tomashenko, Marco Dinarelli, Titouan Parcollet, Alexandre Allauzen, Yannick Estève, Benjamin Lecouteux, François Portet, Solange Rossato, Fabien Ringeval, Didier Schwab, Laurent Besacier LeBenchmark : Un cadre reproductible pour évaluer l'apprentissage de représentation auto-supervisé à partir de la parole INTERSPEECH 2021 : Conference of the International Speech Communication Association, août 2021, Brno, République tchèque.
Maximin Coavoux. Structures syntaxiques à l'épreuve de BERT : Investigating Errors in Discontinuous Constituency Parsing Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (ACL-IJCNLP 2021), Association for Computational Linguistics, Aug 2021, Online, France. pp.3259-3272.
Hady Elsahar, Maximin Coavoux, Jos Rozen, Matthias Gallé Self-Supervised and Controlled Multi-Document Opinion Summarization Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics : Main Volume, Apr 2021, Online, Unknown Region. pp.1646-1662.
Ali Can Kocabiyikoglu, Jean-Marc Babouchkine, François Portet, Raheel Qader Neural Medication Extraction : A Comparison of Recent Models in Supervised and Semi-supervised Learning Settings ICHI 2021 : IEEE International Conference on Healthcare Informatics, Sep 2021, Victoria, Canada.
Sannara Ek, François Portet, Philippe Lalanda, German Vega A Federated Learning Aggregation Algorithm for Pervasive Computing : Evaluation and Comparison19th IEEE International Conference on Pervasive Computing and Communications PerCom 2021, Mar 2021, Kassel (virtual), Germany.
Anastasiia Usmanova, François Portet, Philippe Lalanda, German Vega A distillation-based approach integrating continual learning and federated learning for pervasive services 3rd Workshop on Continual and Multimodal Learning for Internet of Things -- Co-located with IJCAI 2021, Aug 2021, Montreal, Canada.
Odette Scharenborg, Laurent Besacier, Alan Black, Mark Hasegawa-Johnson, Florian Metze, Graham Neubig, Sebastian Stuker, Pierre Godard, Markus M¨uller, Lucas Ondel, Shruti Palaskar, Philip Arthur, Francesco Ciannella, Mingxing Du, Elin Larsen, Danny Merkx, Rachid Riad, Liming Wang et Emmanuel Dupoux. Technologie vocale pour les langues non écrites. IEEE/ACM Transactions on Audio, Speech and Language Processing, février 2020.
Eric Le Ferrand, Steven Bird et Laurent Besacier. Permettre la transcription interactive dans une communauté indigène. In COLING 2020 (short paper), Virtual, Espagne, décembre 2020.
Vaishali Pal, Manish Shrivastava, et Laurent Besacier. ConfNet2Seq : Full Length Answer Generation from Spoken Questions.In Text, Speech and Dialogue (TSD) 2020, Brno, Czech Republic, September 2020b.
Maha Elbayad, Ha Nguyen, Fethi Bougares, Natalia Tomashenko, Antoine Caubri`ere, Benjamin Lecouteux, Yannick Est`eve, et Laurent Besacier. Consortium ON-TRAC pour les défis de traduction de bout en bout et de traduction simultanée de la parole à l'IWSLT 2020. In The International Conference on Spoken Language Translation ACL - 17th IWSLT, Seattle, WA, États-Unis, juillet 2020b.
Maha Elbayad, Laurent Besacier, et Jakob Verbeek. Modèles Wait-k efficaces pour la traduction automatique simultanée. In Interspeech 2020, Shangai (Virtual Conf), Chine, octobre 2020a
Brooke Stephenson, Laurent Besacier, Laurent Girin et Thomas Hueber. Ce que l'avenir nous réserve : Investigating the Impact of Lookahead for Incremental Neural TTS. Interspeech 2020, Shangai (Virtual Conf), Chine, octobre 2020.
Vaishali Pal, Fabien Guillot, Manish Shrivastava, Jean-Michel Renders et Laurent Besacier. Modélisation de l'ambiguïté ASR pour le suivi neuronal de l'état du dialogue. Interspeech 2020, Shangai (Virtual Conf), Chine, octobre 2020a.
Ha Nguyen, Fethi Bougares, Natalia Tomashenko, Yannick Est`eve, et Laurent Besacier. Investigating Self-supervised Pre-training for End-to-end Speech Translation. Interspeech 2020, Shangai (Virtual Conf), Chine, octobre 2020.
Ewan Dunbar, Julien Karadayi, Mathieu Bernard, Xuan-Nga Cao, Robin Algayres, Lucas Ondel, Laurent Besacier, Sakriani Sakti et Emmanuel Dupoux. Le défi "Zero Resource Speech Challenge 2020" : Découverte d'unités discrètes de sous-mots et de mots. Interspeech 2020, Shangai (Virtual Conf), Chine, octobre 2020.
Loïc Vial, Benjamin Lecouteux, Didier Schwab, Hang Le, Laurent Besacier. Le système LIG pour la tâche de traduction de textes anglais-tchèque de l'IWSLT 2019. IWSLT (16th International Workshop on Spoken Language Translation), 2019, Hong-Kong, Chine. Ewan Dunbar, Robin Algayres, Julien Karadayi, Mathieu Bernard, Juan Benjumea, et al.
The Zero Resource Speech Challenge 2019 : TTS without T. Interspeech 2019 - 20th Annual Conference of the International Speech Communication Association, Sep 2019, Graz, Austria.
Laurent Besacier, Elodie Gauthier, Sylvie Voisin. LEÇONS APPRISES APRÈS LE DÉVELOPPEMENT ET L'UTILISATION D'UNE APPLICATION DE COLLECTE DE DONNÉES POUR LA DOCUMENTATION LINGUISTIQUE (LIG-AIKUMA). Congrès international des sciences phonétiques ICPhS 2019, août 2019, Melbourne, Australie.
Marcely Zanon Boito, Aline Villavicencio, Laurent Besacier. Évaluation empirique des modèles séquence à séquence pour la découverte de mots dans des contextes à faibles ressources. Interspeech 2019, Sep 2019, Graz, Autriche.
Pierre Godard, Laurent Besacier, François Yvon. Contrôle de la longueur de l'énoncé dans la segmentation des mots basée sur la NMT avec attention. International Workshop on Spoken Language Translation, Nov 2019, Hong-Kong, Chine
Manh Ha Nguyen, Natalia Tomashenko, Marcely Zanon Boito, Antoine Caubrière, Fethi Bougares, et al. Systèmes de traduction vocale de bout en bout du consortium ON-TRAC pour la tâche partagée IWSLT 2019. 16e atelier international sur la traduction du langage parlé 2019, Nov 2019, Hong Kong, Chine.
William Havard, Jean-Pierre Chevrot, Laurent Besacier. Les modèles de signaux vocaux à base visuelle prêtent attention aux noms : A Bilingual Experiment on English and Japanese. International Conference on Acoustics, Speech and Signal Processing (ICASSP), mai 2019, Brighton, Royaume-Uni. pp.8618-8622.
Mahault Garnerin, Solange Rossato, Laurent Besacier. Gender Representation in French Broadcast Corpora and Its Impact on ASR Performance. the 1st International Workshop, Oct 2019, Nice, France. pp.3-9
William Havard, Jean-Pierre Chevrot, Laurent Besacier. Reconnaissance, compétition et activation des mots dans un modèle de parole à base visuelle. Actes de la 23e conférence sur l'apprentissage automatique des langues naturelles (CoNLL), Nov 2019, Hong Kong, Chine. pp.339-348
Publié le 11 janvier 2024 Mis à jour le 11 janvier 2024
Traitement du langage naturel (NLP)
Traduction automatique neuronale
Traduction de la parole à la parole
NLP pour les langues à faibles ressources
Documentation linguistique informatique
Acquisition informatique des langues
Sociolinguistique informatique
Modélisation linguistique
Partager le lienCopierCopiéFermer la fenêtre modalePartager l'URL de cette pageJe recommande :Consultable à cette adresse :La page sera alors accessible depuis votre menu "Mes favoris".Arrêter la vidéoLire la vidéoCouper le sonLire l'audioChat : Une question ?Chatbot Robo FabricaStatistiques de trafic MatomoX (anciennement Twitter)