Séminaire MIAI Deeptails du 5 novembre - 10h CET - En présentiel ou en ligne
Le 5 novembre 2024
Modèles génératifs comme amorces de données pour l'amélioration de la parole
RÉSUMÉ
Les modèles génératifs ont récemment démontré des capacités remarquables dans divers domaines, y compris la génération de textes, d'images, de vidéos et de sons, avec des applications très variées. Dans le domaine du traitement de la parole, ces modèles ont été activement explorés pour résoudre des problèmes inverses tels que l'amélioration, la séparation et la déréverbération de la parole. Deux approches principales sont utilisées pour exploiter la puissance des modèles génératifs pour ces tâches. La première approche consiste à affiner un modèle génératif pré-entraîné en utilisant des données appariées (parole propre et parole corrompue) de manière supervisée pour la tâche spécifique. La seconde approche, qui sera au centre de cet exposé, exploite les modèles génératifs en tant qu'antécédents guidés par les données de manière non supervisée. Cette approche présente plusieurs avantages : avec un seul modèle génératif entraîné sur de la parole propre, de multiples problèmes inverses peuvent être traités sans nécessiter d'entraînement supplémentaire spécifique à la tâche. De plus, cette approche tend à mieux se généraliser à travers différentes tâches. Dans cet exposé, je passerai en revue l'application des autoencodeurs variationnels et des modèles de diffusion en tant qu'antécédents de la parole pour résoudre le problème de l'amélioration de la parole, en présentant quelques-uns de nos travaux récents dans ce domaine.
Mostafa Sadeghi
est chercheur au sein de l'équipe Multispeech à l'Inria, Nancy - Grand Est, France. Il a obtenu son doctorat à l'Université de technologie Sharif, Téhéran, Iran, en avril 2018. Il a été chercheur invité au département des sciences de l'information et de l'ingénierie, KTH, Stockholm, Suède, de 2016 à 2017, puis ingénieur de recherche au département du contrôle automatique. D'août 2018 à octobre 2020, il a été chercheur postdoctoral au sein de l'équipe Perception de l'Inria, Grenoble, en collaboration avec Radu Horaud et Xavier Alameda-Pineda. Ses recherches actuelles portent sur le traitement robuste de la parole audiovisuelle, en particulier l'amélioration et la séparation de la parole, en exploitant la synergie entre les réseaux de neurones profonds et les approches d'apprentissage automatique probabiliste.
Partager le lienCopierCopiéFermer la fenêtre modalePartager l'URL de cette pageJe recommande :Consultable à cette adresse :La page sera alors accessible depuis votre menu "Mes favoris".Arrêter la vidéoLire la vidéoCouper le sonLire l'audioChat : Une question ?Chatbot Robo FabricaStatistiques de trafic MatomoX (anciennement Twitter)