Construction de la semantique a partir de corpus de dialogue oral homme-machine de la description categorielle a la modelisation stochastique

par Wolfgang Minker

Thèse de doctorat en Sciences appliquées

Sous la direction de Joseph Mariani.

Soutenue en 1998

à Paris 11 .

    mots clés mots clés


  • Résumé

    Cette these traite du probleme de la comprehension automatique de la parole spontanee. L'objectif est de concevoir et d'etudier une methode stochastique pour l'analyse semantique et de la comparer avec une methode conventionnelle d'analyse par regles. Dans une application bien definie et dans une langue specifique, les implementations conventionnelles d'inference de regles fournissent de bonnes performances. Neanmoins, le developpement manuel d'un tel analyseur semantique explicite est couteux, car chaque application et chaque langue necessitent soit une adaptation, soit, dans le cas le plus extreme, une nouvelle implementation. Les techniques de modelisation stochastique generales et adaptables a d'autres applications et langues, peuvent se substituer aux methodes par regles (categorielles) afin de produire une representation semantique a partir des phrases transcrites par le module de reconnaissance. Les modeles stochastiques resultent de l'analyse automatique d'un grand nombre de phrases provenant d'utilisateurs pseudo-reels. Une methode stochastique a ete developpee puis validee dans differentes applications et langues, dont atis (air travel information services) en anglais, mask (multimodal-multimedia automated service kiosk) et arise (automatic railway system for europe) en francais. Les applications se situent dans le domaine de la communication homme-machine et concernent la demande d'informations sur les transports aeriens et ferroviaires. Pour atis, un systeme initial, en francais, utilisant une methode par regles a ete realise au laboratoire d'informatique pour la mecanique et les sciences de l'ingenieur (france) et porte en langue anglaise, dans le cadre de cette these. Ce dernier systeme a permis d'etiqueter semantiquement un corpus de phrases transcrites qui ensuite a ete utilise pour entrainer le module stochastique. Pour les applications mask et arise, les corpus semantiques ont ete etablis a l'aide de l'analyseur stochastique en utilisant une methode d'etiquetage iterative avec correction manuelle. L'apport essentiel du travail presente dans cette these est de montrer que pour des applications limitees, une methode stochastique pour la comprehension de la parole spontanee est plus robuste. Lors d'une comparaison directe, cette methode fournit de meilleurs resultats par rapport a une methode d'analyse par regles qui utilise une description categorielle de la semantique. De plus, l'analyseur stochastique est reutilisable et peut etre porte facilement vers d'autres applications, domaines et/ou langues. L'avantage reside dans le fait que l'effort humain se limite a la definition de la representation semantique et a l'etiquetage des donnees, qui sont ensuite utilisees lors de l'apprentissage des parametres du modele stochastique. Cela est plus aise que la conception, la maintenance et l'extension des regles de grammaire.

  • Titre traduit

    Constructing semantics using corpora of oral human-machine dialogs from a categorial description to stochastic modeling


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 235 P.
  • Annexes : 114 REF.

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paris-Saclay. DIBISO. BU Orsay.
  • Disponible pour le PEB
  • Bibliothèque : Centre Technique du Livre de l'Enseignement supérieur (Marne-la-Vallée, Seine-et-Marne).
  • Disponible pour le PEB
  • Cote : TH2014-013986

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université Grenoble Alpes (Saint-Martin d'Hères, Isère). Bibliothèque et Appui à la Science Ouverte. Bibliothèque universitaire Joseph-Fourier.
  • Non disponible pour le PEB
  • Cote : MF-1998-MIN
  • Bibliothèque : Université Paris-Est Créteil Val de Marne. Service commun de la documentation. Section multidisciplinaire.
  • PEB soumis à condition
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.