Extraction d'information et modélisation de connaissances à partir de notes de communication orale

par Fabrice Even

Thèse de doctorat en Informatique

Sous la direction de Noureddine Mouaddib et de Chantal Enguehard.

Soutenue en 2005

à Nantes .


  • Résumé

    Le travail présenté dans cette thèse porte sur l'Extraction d'Informations à partir de textes non-standards. Les textes non-standards sont des textes qui divergent syntaxiquement et lexicalement des normes usuelles de la langue (petites-annonces, comptes-rendus de conversations orales, etc. ) et possèdent souvent un contenu informatif très important (textes généralement issus d'entreprises). Néanmoins les systèmes traditionnels d'Extraction d'Information s'avèrent quasi-inopérants sur de tels textes. L'absence d'intérêt pour ces textes et la non prise en compte de leurs spécificités dans les recherches en TAL est à l'origine de l'inefficacité des systèmes actuels d'Extraction d'Information. Ces constats nous ont incités à nous pencher sur de tels documents du point de vue de l'extraction d'informations. Nous proposons la méthode MeGET (Méthode Générique d'Extraction d'informations à partir de Textes), une solution fondée sur une modélisation les connaissances contenues dans les textes et intéressantes du point de vue des informations à extraire. Le modèle (ontologie d'extraction) est construit en unifiant une ontologie des besoins décrivant les informations à extraire avec une ontologie des termes conceptualisant les termes du corpus en relation avec les informations recherchées. Le modèle est représenté par des règles de grammaire au formalisme simple et facilement exploitable par un système automatique. L'extraction des informations à partir du texte est réalisé via le système d'extraction SyGET (Système Générique d'Extraction d'informations à partir de Textes) qui procède à un étiquetage marquant dans les textes les instances des éléments de l'ontologie. Ces balises permettent de repérer les informations recherchées.


  • Résumé

    This work focuses on information extraction from non-standard texts. Non-standard texts are textual documents that do not respect usual formatting rules (syntactical or lexical rules). These texts have often a rich informational content. However, usual natural language or knowledge extraction techniques do not give satisfactory results on them, because the lack of interest from Natural Language researches for this type of texts. This reality leads our interest for the problem of extracting information from this type of texts. We present MeGET, an information extraction method based on a knowledge model constructed in function of the information to be extracted. The model (extraction ontology) is obtained by unification of a needs ontology describing information to extract with a terms ontology modelling corpus terms related to the information to extract. This model is formalized into a grammar with a formalism that can be easily used in a automatic process. Information extraction is proceeding by the SyGET system that puts tag from each ontology elements instances found in the texts. The information is then extracted by using the tags.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (229 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliographie p. 193-212

Où se trouve cette thèse ?

  • Bibliothèque : Université de Nantes. Service commun de la documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 2005 NANT 2134
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.