Production de paraphrases pour les systèmes vocaux humain-machine

par Jonathan Chevelu

Thèse de doctorat en Informatique et applications

Sous la direction de Yves Lepage.

Soutenue en 2011

à Caen .


  • Résumé

    Cette thèse s’intéresse au lien entre ce qui est prononcé et le système vocal humaine-machine qui le prononce. Plutôt que de proposer des systèmes capables de tout vocaliser, nous envisageons le message comme une variable qui peut être modifiée. L’élément primordial d’un message est son sens. Il est donc possible de changer les mots utilisés si cela conserve le sens du message et améliore les systèmes vocaux. Cette modification s’appelle « production de paraphrases ». Dans cette thèse, nous proposons une étude de la production statistique de paraphrases pour les systèmes vocaux humain-machine. Pour ce faire, nous présentons la conception d’un système de référence et d’une plateforme d’évaluation en ligne. Nous mettons en lumière les différentes limites de l’approche classique et nous proposons un autre modèle fondé sur l’application de règles de transformation. Nous montrons qu’il est nécessaire de prendre en compte l’utilisation souhaitée des paraphrases lors de leur production et de leurs évaluations, pas uniquement du critère de conservation du sens. Enfin, nous proposons et étudions un nouvel algorithme pour produire des paraphrases, fondé sur l’échantillonnage de Monte-Carlo et l’apprentissage par renforcement. Cet algorithme permet de s’affranchir des contraintes habituelles de l’algorithme de Viterbi et donc de proposer librement de nouveaux modèles pour la paraphrase.

  • Titre traduit

    Paraphrase generation for human-machine voice interaction systems


  • Résumé

    This thesis focuses on the relationships between what is uttered and human-machine spoken dialogue systems that utter it. Instead of relying on all-purpose speech-synthesis engines, we consider that a message to synthesize is a variable that can be modified. As the primary characteristic of a message is its meaning, changing words so as to improve speech quality is allowable, provided that meaning is preserved. Performing such modifications is "paraphrase generation". This PhD thesis presents a study of statistical paraphrase generation for human-machine spoken dialogue systems. We first introduce to the design of a state-of-the-art paraphrase generator and an online evaluation platform. We then shed some light on some limitations of standard approaches to paraphrase generation and put forward an alternative model based on transformation rules. We show that usages of paraphrases must be taken into account during generation and evaluation, along with the meaning preservation criterion. At last, we introduce a new algorithm for paraphrase generation based on Monte-Carlo sampling and reinforcement learning. Studies of its behavior are reported. This algorithm overcomes some usual limitations of the Viterbi algorithm and paves the way for new paraphrase generation models.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (160 p.)
  • Annexes : Bibliogr.p.149-160

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Caen Normandie. Bibliothèque Rosalind Franklin (Sciences-STAPS).
  • Non disponible pour le PEB
  • Cote : TCAS-2011-10

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université de Lille. Service commun de la documentation. Bibliothèque universitaire de Sciences Humaines et Sociales.
  • Non disponible pour le PEB
  • Cote : 2011CAEN2010
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.