Classes d'objets et recherche d'information

par Adrian Toma

Thèse de doctorat en Sciences du langage. Linguistique. Informatique

Sous la direction de Gaston Gross.

Soutenue en 2007

à Paris 13 .


  • Résumé

    Cette thèse met en avant l’amélioration du processus de recherche d’information sur le Web par l’emploi des classes d’objets. Les disfonctionnements des outils de recherche proviennent principalement du fait pour le traitement automatique du corpus on a recours à des techniques linguistiques statistiques. Les imprécisions du découpage en mots, l’élimination erronée des mots vides sémantiquement, la polysémie des langues ou le figement sont autant de problèmes dont la solution réside dans l’utilisation d’une nouvelle technologie linguistique, le modèle des classes d’objets. Nous étudions la formalisation informatique des classes d'objets linguistiques, en réalisant une comparaison des notions de classe d’objets en linguistique et en informatique (programmation orientée objet). Dans la représentation informatique des classes – sous forme de bases de données ou fichiers XML – nous exploitons également les hiérarchies que les classes forment à travers les relations d’héritage. Nous nous intéressons aussi à la représentation informatique des domaines ainsi qu’à leur hiérarchie. Nous proposons l’emploi des classes d’objets dans l’amélioration du positionnement des pages Web, dans la reformulation de la requête ainsi que dans l’indexation des fichiers. L’utilisation des classes d’objets dans l’amélioration du positionnement se réalise par le traitement sémantique du contenu qui se sert des dictionnaires électroniques classes d’objets. Le traitement automatique de la requête se fait en ciblant le domaine de l’interrogation à l’aide de la hiérarchie des classes d’objets. Le prototype de logiciel que nous avons réalisé est illustré à l’aide des exemples. Nous analysons ensuite l’indexation « intelligente » des documents, basée sur le modèle des classes d’objets. Son unité d’indexation est non plus le mot mais la structure minimale d’indexation, extraite du schéma d’arguments. Nous montrons ensuite les avantages que ce type d’indexation fournit à la recherche d’information.

  • Titre traduit

    Object classes and information retrieval


  • Résumé

    The aim of this thesis is the study of the improvement of the information retrieval process on the Internet, using a new linguistic theory of the semantico-syntactical classes. The main linguistic problems confronting the information retrieval are the polymorphism and the polysemy of natural languages. Same topic documents use different expressions, while there are several keyword variants for the same given topic. Due to search keys ambiguity, the intended sense of the request is not always reflected by the retrieved documents. The implementation in informatics of the linguistic concept of classes has to go through a first phase where a comparison is drawn between these notions in computer science and in linguistics. We also suggest the use of hierarchy of classes as well as of domains and of domains’hierarchies. The classes are structured in databases and the hierarchies are encoded in graphs. The importance of the document ranking draws our interest towards the use of the linguistic classes in automatic semantic content analysis in order to improve document’s estimated relevance. We show how automatic query reformulation and expansion based on semantico-syntactical classes improves the retrieval by focusing the process on the request’s inferred topic and by adding to the initial keywords other relevant concepts. The software we developed uses the hierarchy of the classes to detect the request’s topic; we then show how to use the dictionary based on linguistic classes to expand the query. We show examples on how cross-lingual query expansion benefits from the use of linguistic classes. Since the linguistic problems of the information retrieval are also rooted in the document indexing, we suggest and analyse a new indexing technique that has semantics at its core. The index entry is no longer the decontextualized and therefore meaningless word but a new concept of minimal indexing structure issued from the way predicates are described in the linguistic classes’theory.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (295 f.)
  • Notes : Publication non autorisée par le jury
  • Annexes : Bibliogr. f. 275-289. Index

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris 13 (Villetaneuse, Seine-Saint-Denis). Bibliothèque universitaire. Section Droit/Lettres.
  • Non disponible pour le PEB
  • Cote : TH 2007 078
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.