Extraction et recherche d'information en langage naturel dans les documents semi-structurés

par Xavier Tannier

Thèse de doctorat en Informatique

Sous la direction de Jean-Jacques Girardot.

Soutenue en 2006

à Saint-Etienne, EMSE .


  • Résumé

    La recherche d'information (RI) dans des documents semi-structurés (écrits en XML en pratique) combine des aspects de la RI traditionnelle et ceux de l'interrogation de bases de données. La structure a une importance primordiale, mais le besoin d'information reste vague. L'unité de recherche est variable (un paragraphe, une figure, un article complet…). Par ailleurs, la flexibilité du langage XML autorise des manipulations du contenu qui provoquent parfois des ruptures arbitraires dans le flot naturel du texte. Les problèmes posés par ces caractéristiques sont nombreux, que ce soit au niveau du pré-traitement des documents ou de leur interrogation. Face à ces problèmes, nous avons étudié les solutions spécifiques que pouvait apporter le traitement automatique de la langue (TAL). Nous avons ainsi proposé un cadre théorique et une approche pratique pour permettre l'utilisation des techniques d'analyse textuelle en faisant abstraction de la structure. Nous avons également conçu une interface d'interrogation en langage naturel pour la RI dans les documents XML, et proposé des méthodes tirant profit de la structure pour améliorer la recherche des éléments pertinents.

  • Titre traduit

    Information extraction and retrieval in natural language in semi-structured documents.


  • Résumé

    Information retrieval in semi-structured (practically written in XML) mixes aspects of traditional information retrieval and of database querying. The structure is very important, but the information need is vague. The retrieval unit can have different sizes (a paragraph, a figure, an entire article…). Furthermore, XML flexibility may create some breaks in the natural flow of the text. Problems raised at this level are many, notably for document content analysis and querying. We studied the specific solutions that could bring the natural language processing (NLP) techniques. We proposed a theoretical frame and a practical approach to allow the use of traditional textual analysis techniques in XML documents, disregarding the structure. We also conceived an interface for querying XML documents in natural language, and proposed methods using the structure in order to improve the retrieval of relevant elements.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol (XII-248 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr.

Où se trouve cette thèse ?

  • Bibliothèque : Ecole nationale supérieure des mines. Centre de documentation et d'information.
  • Disponible pour le PEB
  • Cote : 005.741 TAN
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.