Séminaire MIAI Deeptails du 5 novembre - 10h CET - En présentiel ou en ligne

Le 5 novembre 2024

Modèles génératifs comme amorces de données pour l'amélioration de la parole

RÉSUMÉ

Les modèles génératifs ont récemment démontré des capacités remarquables dans divers domaines, y compris la génération de textes, d'images, de vidéos et de sons, avec des applications très variées. Dans le domaine du traitement de la parole, ces modèles ont été activement explorés pour résoudre des problèmes inverses tels que l'amélioration, la séparation et la déréverbération de la parole. Deux approches principales sont utilisées pour exploiter la puissance des modèles génératifs pour ces tâches. La première approche consiste à affiner un modèle génératif pré-entraîné en utilisant des données appariées (parole propre et parole corrompue) de manière supervisée pour la tâche spécifique. La seconde approche, qui sera au centre de cet exposé, exploite les modèles génératifs en tant qu'antécédents guidés par les données de manière non supervisée. Cette approche présente plusieurs avantages : avec un seul modèle génératif entraîné sur de la parole propre, de multiples problèmes inverses peuvent être traités sans nécessiter d'entraînement supplémentaire spécifique à la tâche. De plus, cette approche tend à mieux se généraliser à travers différentes tâches. Dans cet exposé, je passerai en revue l'application des autoencodeurs variationnels et des modèles de diffusion en tant qu'antécédents de la parole pour résoudre le problème de l'amélioration de la parole, en présentant quelques-uns de nos travaux récents dans ce domaine.

Mostafa Sadeghi

est chercheur au sein de l'équipe Multispeech à l'Inria, Nancy - Grand Est, France. Il a obtenu son doctorat à l'Université de technologie Sharif, Téhéran, Iran, en avril 2018. Il a été chercheur invité au département des sciences de l'information et de l'ingénierie, KTH, Stockholm, Suède, de 2016 à 2017, puis ingénieur de recherche au département du contrôle automatique. D'août 2018 à octobre 2020, il a été chercheur postdoctoral au sein de l'équipe Perception de l'Inria, Grenoble, en collaboration avec Radu Horaud et Xavier Alameda-Pineda. Ses recherches actuelles portent sur le traitement robuste de la parole audiovisuelle, en particulier l'amélioration et la séparation de la parole, en exploitant la synergie entre les réseaux de neurones profonds et les approches d'apprentissage automatique probabiliste.

Lien vers le site web

Revoir le séminaire
 

Publié le 28 octobre 2024
Mise à jour le 9 avril 2025