Méthodes d'apprentissage pour la structuration automatique de conversations orales

par Léo Galmant

Projet de thèse en Informatique

Sous la direction de Anne-Laure Ligozat, Hervé Bredin et de Camille Guinaudeau.

Thèses en préparation à université Paris-Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication , en partenariat avec Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (laboratoire) , TLP - Traitement du Langage Parlé (equipe de recherche) et de Faculté des sciences d'Orsay (référent) depuis le 01-10-2018 .


  • Résumé

    L'objectif général de ce projet doctoral est de proposer des nouvelles approches automatiques non- ou faiblement supervisées visant à caractériser une conversation orale à partir de son enregistrement audio et sa transcription (automatique ou manuelle quand elle est disponible). Dans un premier temps, on s'intéressera à l'identification nommée des différents locuteurs. Sans aucune connaissance a priori sur la qualité et le nombre des participants à la conversation, ce problème peut se découper en deux sous-problèmes : la constitution automatique de la liste des participants à la conversation (grâce à des outils de détection d'entités nommées et d'entity linking, par exemple) suivi de l'attribution automatique de leurs tours de parole respectives (en combinant compréhension de dialogue et reconnaissance du locuteur, par exemple). Dans un second temps, on s'interessera à la caractérisation des conversations selon une typologie permettant d'identifier la nature des échanges (argumentation, débat, altercation, etc.). Cette caractérisation pourra se faire en utilisant des techniques de traitement automatique des langues enrichies d'informations acoustiques (informations prosodiques par exemple) afin d'améliorer les performances. Ces nouvelles approches seront appliquées sur un corpus composé de films (Anna et ses soeurs, les films Harry Potter) et de séries télévisées de différente nature (Lost, Friends, The Big Bang Theory, Game of Thrones, etc.). Un effort d'annotation a, en effet, déjà été effectué sur ces données au sein de l'équipe TLP, notamment en terme d'identification du locuteur, dans le cadre du projet franco-allemand PLUMCOT (2017-2020).

  • Titre traduit

    Machine learning for the automatic structuring of spoken conversations


  • Résumé

    The main objective of the project is to investigate novel unsupervised or weakly supervised machine learning techniques for the automatic structuring of spoken conversations, given its audio recording and (manual or automatic) speech transcription. First, one will focus on named speaker diarization. Without any prior knowledge on the speakers involved in the conversation, this task can be divided into two subtasks: gathering the names of all speakers (thanks to named entity recognition and entity linking, for instance) followed by the attribution of each speech turns to the corresponding speaker (using natural language understanding and speaker recognition, for instance). Then, one will address the problem of classifying conversations according to the content of the exchanges (are speakers arguing, fighting, small-talking?). To that end, one could enrich natural language processing techniques with acoustic cues (prosody, rythm, etc.). The proposed approaches will be applied to movies or TV series, for which a significant amount of annotations are already available.