Prédiction structurée pour le regroupement en locuteurs

par Ruiqing Yin

Projet de thèse en Informatique

Sous la direction de Claude Barras et de Hervé Bredin.

Thèses en préparation à Paris Saclay , dans le cadre de Sciences et Technologies de l'Information et de la Communication , en partenariat avec LIMSI - Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (laboratoire) , TLP - Traitement du Langage Parlé (equipe de recherche) et de Université Paris-Sud (établissement de préparation de la thèse) depuis le 01-10-2016 .


  • Résumé

    L'objectif en reconnaissance automatique du locuteur est d'authentifier ou d'identifier une personne par l'intermédiaire du signal de parole. La structuration en tours de parole est un processus non supervisé servant à identifier chaque locuteur dans le flux audio et à déterminer les intervalles temporels pendant lesquels chaque locuteur parole. Le but général de cette thèse est de faire progresser l'état de l'art en reconnaissance du locuteur et en structuration en tours de parole, en explorant plus particulièrement des techniques de prédiction structurée. Habituellement, les conversations entre plusieurs locuteurs sont en effet fortement structurées et les tours de parole d'un locuteur donné ne sont pas répartis uniformément dans le temps. Ainsi, le fait de savoir qu'une personne parle à un instant apporte beaucoup d'information sur la probabilité qu'il/elle reprenne la parole quelques secondes plus tard. Cependant, les approches à l'état de l'art prennent rarement en compte cette structure intrinsèque. Le but du travail sera donc de démontrer que les techniques de prédiction structurée (telles que les modèles graphiques ou SVMstruct) peuvent être appliquées en structuration des tours de parole.

  • Titre traduit

    Structured prediction for speaker diarization


  • Résumé

    Broadly, the goal of an automatic speaker recognition system is to authenticate or to identify a person through speech signal. Speaker diarization is an unsupervised process that aims at identifying each speaker within an audio stream and determining the intervals during which each speaker is active. The overall goal of the PhD is to advance the state-of-the-art in speaker recognition and diarization. Specifically, the research will explore the use of structured prediction techniques for speaker diarization. Conversations between several speakers are usually highly structured and speech turns of a given person are not uniformly distributed over time. Hence, knowing that someone is speaking at a particular time t tells us a lot about the probability that (s)he is also going to speak a few seconds later. However, state-of-the-art approaches seldom takes this intrinsic structure into account. The goal of this task is to demonstrate that structured prediction techniques (such as graphical models or SVMstruct) can be applied to speaker diarization.