Nouveaux points de vue sur la classification hiérarchique et normalisation linguistique pour la segmentation et le regroupement en locuteurs

Simon Bozonnet

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Simon Bozonnet
Direction :	Nicholas W. D. Evans, Bernard Merialdo
Type :	Thèse de doctorat
Discipline(s) :	Signal et Images
Date :	Soutenance le 02/05/2012
Etablissement(s) :	Paris, ENST
Ecole(s) doctorale(s) :	École doctorale Informatique, télécommunications et électronique de Paris
Partenaire(s) de recherche :	Laboratoire : Laboratoire Traitement et Communication de l'Information (Paris) / LTCI
Jury :	Président / Présidente : John S. D. Mason
	Examinateurs / Examinatrices : Xavier Anguera
	Rapporteurs / Rapporteuses : Laurent Besacier, Jean-François Bonastre

Mots clés

FR |

EN

Mots clés contrôlés

Multimédias

Analyse linguistique

Traitement automatique de la parole

Mots clés libres

Partitionnement des données

Segmentation

Résumé

FR |

EN

Face au volume croissant de données audio et multimédia, les technologies liées à l'indexation de données et à l'analyse de contenu ont suscité beaucoup d'intérêt dans la communauté scientifique. Parmi celles-ci, la segmentation et le regroupement en locuteurs, répondant ainsi à la question 'Qui parle quand ?' a émergé comme une technique de pointe dans la communauté de traitement de la parole. D'importants progrès ont été réalisés dans le domaine ces dernières années principalement menés par les évaluations internationales du NIST. Tout au long de ces évaluations, deux approches se sont démarquées : l'une est bottom-up et l'autre top-down. L'ensemble des systèmes les plus performants ces dernières années furent essentiellement des systèmes types bottom-up, cependant nous expliquons dans cette thèse que l'approche top-down comporte elle aussi certains avantages. En effet, dans un premier temps, nous montrons qu'après avoir introduit une nouvelle composante de purification des clusters dans l'approche top-down, nous obtenons des performances comparables à celles de l'approche bottom-up. De plus, en étudiant en détails les deux types d'approches nous montrons que celles-ci se comportent différemment face à la discrimination des locuteurs et la robustesse face à la composante lexicale. Ces différences sont alors exploitées au travers d'un nouveau système combinant les deux approches. Enfin, nous présentons une nouvelle technologie capable de limiter l'influence de la composante lexicale, source potentielle d'artefacts dans le regroupement et la segmentation en locuteurs. Notre nouvelle approche se nomme Phone Adaptive Training par analogie au Speaker Adaptive Training

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Nouveaux points de vue sur la classification hiérarchique et normalisation linguistique pour la segmentation et le regroupement en locuteurs

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Nouveaux points de vue sur la classification hiérarchique et normalisation linguistique pour la segmentation et le regroupement en locuteurs

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses