Composition sémantique pour la langue orale

par Frédéric Duvert

Thèse de doctorat en Informatique

Sous la direction de Renato De Mori et de Frédéric Béchet.

Soutenue le 10-11-2010

à Avignon , dans le cadre de École doctorale 536 « Sciences et agrosciences » (Avignon) , en partenariat avec Laboratoire informatique d'Avignon (laboratoire) .

Le président du jury était Marc El-Bèze.

Le jury était composé de Géraldine Damnati.

Les rapporteurs étaient Stefano Alessandro Cerri, Denis Jouvet.


  • Résumé

    La thèse présentée ici a pour but de proposer des systèmes de détection, de composition de constituants sémantiques et d’interprétation dans la compréhension de la langue naturelle parlée. Cette compréhension se base sur un système de reconnaissance automatique de la parole qui traduit les signaux oraux en énoncés utilisables par la machine. Le signal de la parole, ainsi transcrit, comporte un ensemble d’erreurs liées aux erreurs de reconnaissance (bruits, parasites, mauvaise prononciation...). L’interprétation de cet énoncé est d’autant plus difficile qu’il est issu d’un discours parlé, soumis à la disfluence du discours, aux auto-corrections... L’énoncé est de plus agrammatical, car le discours parlé lui-même est agrammatical. L’application de méthodes d’analyses grammaticales ne produit pas de bons résultats d’interprétation, sur des textes issus de transcriptions de la parole. L’utilisation de méthodes d’analyses syntaxiques profondes est à éviter. De ce fait, une analyse superficielle est envisagée. Un des premiers objectifs est de proposer une représentation du sens. Il s’agit de considérer des ontologies afin de conceptualiser le monde que l’on décrit. On peut exprimer les composants sémantiques en logique du premier ordre avec des prédicats. Dans les travaux décrits ici, nous représentons les éléments sémantiques par des frames (FrameNet ). Les structures de frames sont hiérarchisées, et sont des fragments de connaissances auxquels on peut insérer, fusionner ou inférer d’autres fragments de connaissances. Les structures de frames sont dérivables en formules logiques. Nous proposons un système de compréhension de la parole à partir de règles logiques avec le support d’une ontologie, afin de pouvoir créer des liens à partir de composants sémantiques. Puis, nous avons mené une étude sur la découverte des supports syntaxiques des relations sémantiques. Nous proposons une expérience de composition sémantique afin d’enrichir les composants sémantiques de base. Enfin, nous présentons un système de détection de lambda-expression pour mettre en hypothèse les relations à trouver à travers le discours

  • Titre traduit

    Semantic composition for spoken language understanding


  • Résumé

    The thesis presented here is intended to provide detection systems, composition of components and semantic interpretation in the natural spoken language understanding. This understanding is based on an automatic speech recognition system that translates the signals into oral statements used by the machine. The transcribed speech signal, contains a series of errors related to recognition errors (noise, poor pronunciation...). The interpretation of this statement is difficult because it is derived from a spoken discourse, subject to the disfluency of speech, forself-correction... The statement is more ungrammatical, because the spoken discourse itself is ungrammatical. The application of grammatical analysis methods do not produce good results interpretation, on the outcome of speech transcription. The use of deep syntactic analysis methods should be avoided. Thus, a superficial analysis is considered. A primary objective is to provide a representation of meaning. It is considered ontologies to conceptualize the world we describe. We can express the semantic components in first order logic with predicates. In the work described here, we represent the semantic elements by frames (FrameNet ). The frames are hierarchical structures, and are fragments of knowledge which can be inserted, merge or infer other fragments of knowledge. The frames are differentiable structures in logical formulas. We propose a system for speech understanding from logical rules with the support of an ontology in order to create links from semantic components. Then, we conducted a study on the discovery supports syntactic semantic relationships. We propose a compositional semantics experience to enrich the basic semantic components. Finally, we present a detection system for lambda-expression hypothesis to find the relationship through discourse


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université d'Avignon et des Pays de Vaucluse. Service commun de la documentation. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.