Thèse soutenue

Auto-Encodeurs Variationnels Dynamiques pour le Traitement Multimédia

FR  |  
EN
Auteur / Autrice : Xiaoyu Bie
Direction : Laurent GirinXavier Alameda-Pineda
Type : Thèse de doctorat
Discipline(s) : Signal, image, paroles, télécoms
Date : Soutenance le 20/10/2023
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale électronique, électrotechnique, automatique, traitement du signal (Grenoble ; 199.-....)
Partenaire(s) de recherche : Laboratoire : Institut national de recherche en informatique et en automatique (France ; 1979-....). Centre de recherche de l'université Grenoble Alpes (1992-....)
Jury : Président / Présidente : François Portet
Examinateurs / Examinatrices : Yingzhen Li, Antoine Deleforge
Rapporteurs / Rapporteuses : Roland Badeau, Yu Tsao

Résumé

FR  |  
EN

Le domaine de la modélisation des données séquentielles, telles que les signaux de parole, a connu des progrès remarquables grâce aux récents développements dans l'apprentissage profond. Parmi la myriade d'approches, les modèles génératifs profonds, en particulier ceux ayant des définitions explicites de fonctions de densité de probabilité comme les Variational AutoEncoders (VAEs), ont attiré une attention significative en raison de leurs avantages uniques dans trois domaines cruciaux. Premièrement, ils opèrent dans un cadre d'apprentissage non supervisé, éliminant ainsi le besoin d'étiquetage intensif en main-d'œuvre. Deuxièmement, ils acquièrent des représentations latentes expressives, ce qui leur permet d'être utilisés dans une large gamme de tâches ultérieures. Enfin, ces modèles sont probabilistes par nature, ce qui les rend facilement intégrables dans les algorithmes existants basés sur un cadre de modélisation bayésienne. Néanmoins, le VAE vanille d'origine traite chaque vecteur de données indépendamment en raison de l'hypothèse d'indépendance et d'identiquement distribuée (i.i.d.). Cette approche est sous-optimale pour modéliser avec précision les séquences corrélées (temporelles). Par conséquent, trouver une adaptation appropriée du VAE vanille à la modélisation de données séquentielles reste un défi passionnant.Dans cette thèse, nous apportons les contributions suivantes : 1) nous passons en revue en détail les avancées récentes dans l'extension du modèle VAE pour prendre en compte les données séquentielles et les regroupons dans une classe générale de modèles appelés dynamical VAEs (DVAEs), en fournissant une définition générale de leurs modèles génératifs et d'inférence, ainsi que de l'objectif d'optimisation ; (FTML'21) 2) nous réalisons une étude quantitative comparative des modèles DVAE existants pour évaluer leurs performances dans la modélisation de données séquentielles avec différentes architectures (FTML'21, Interspeech'21) ; 3) nous proposons un nouveau modèle DVAE qui intègre un espace latent hiérarchique et exploite l'architecture Transformer pour la modélisation de séquences (ICASSP'23) ; 4) nous développons un algorithme basé sur l'optimisation variationnelle de l'Expectation-Maximization (VEM), en utilisant des modèles DVAE pour l'amélioration non supervisée de la parole (TASLP'22). Pour favoriser la recherche future, nous mettons tout notre code à disposition du public.