Un système de recherche d'information adapté aux données incertaines : adaptation du modèle de langue

par Caroline Tambellini

Thèse de doctorat en Informatique

Sous la direction de Catherine Berrut.

Soutenue en 2007

à l'Université Joseph Fourier (Grenoble) .


  • Résumé

    Tout système de recherche d’information développe une méthodologie formelle ou opérationnelle pour affirmer si les termes de chaque document correspondent à ceux de la requête. La plupart de ces systèmes s’appuie sur l’hypothèse que les termes extraits des documents ont été parfaitement reconnus ou identifiés, et de fait leur fonction de correspondance repose sur une capacité à disposer d'une relation d'égalité entre terme du document et terme de la requête. Notre travail se positionne dans le cas où les données ne s'avèrent pas parfaitement reconnues et donc qualifiées d'incertaines. Dans ce contexte, l'égalité entre termes du document et termes de la requête est remise en cause pour laisser place à la notion de ‘presque égalité'. Nous proposons un système de recherche d'informations adapté aux données incertaines et basé sur le modèle de langue. Nous introduisons la notion d'appariement qui mesure la ‘presque égalité' entre deux termes par le biais de la concordance et de l'intersection. L'appariement s'intègre à la fonction de correspondance. De plus, la valeur de certitude d'extraction des termes fournie par un système d'interprétation s'insère dans la fonction de pondération. Préalablement à la mise en place d'un tel modèle, nous vérifions l'applicabilité des hypothèses de base de la recherche d'information, à savoir la loi de Zipf et la conjecture de Luhn, à des données issues de l'oral, exemple de données incertaines. Le modèle proposé est validé expérimentalement et comparé à des systèmes n'intégrant pas la notion d'incertitude. Enfin, nous présentons une application possible utilisant un système de recherche adapté aux données incertaines : un outil d'aide à la réunion téléphonique.


  • Résumé

    An information retrieval system is based on a formal methodology to assert if terms documents correspond to terms of queries. Most of these systems assume that terms extracted from documents are perfectly recognized which involves that their matching function can consider the equality between terms of documents and terms of queries. Our work occurs in a context where data are not perfectly recognized and thus considered as uncertain. In this case, the equality between terms of documents and terms of queries may be change to the context of 'almost equality'. We propose an information retrieval system adapted to the uncertain data and based on the language model. We introduce the concept of pairing which measures 'almost equality' between two terms by the concordance and the intersection values. The pairing is also introduced in the matching function. Furthermore, the matching function is extended to take into account the extracted terms certainty value computed by an interpretation system. Basic assumptions of information retrieval such as Zipf's law and Luhn's conjecture are first checked. Then, our model is implemented. Our model is experimentally validated and compared with systems which do not integrate the concept of uncertainty. Finally, we present a tool dedicated to phone meeting which is an application using an information retrieval system adapted to the uncertain data.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (166 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 161 à 166

Où se trouve cette thèse ?

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible pour le PEB
  • Cote : TS07/GRE1/0322/D
  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin d'Hères, Isère). Bibliothèque universitaire de Sciences.
  • Disponible sous forme de reproduction pour le PEB
  • Cote : TS07/GRE1/0322
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.