Extraction de concepts et de relations entre concepts à partir des documents multilingues : approche statistique et ontologique

par Farah Harrathi

Thèse de doctorat en Informatique

Sous la direction de Sylvie Calabretto et de Mohamed Mohsen Gammoudi.

Soutenue en 2009

à Lyon, INSA .


  • Résumé

    Les travaux menés dans le cadre de cette thèse se situent dans la problématique de recherche- indexation des documents et plus spécifiquement dans celle de l’extraction des descripteurs sémantiques pour l’indexation. Le but de la Recherche d’Information (RI) est de mettre en œuvre un ensemble de modèles et de systèmes permettant la sélection d’un ensemble de documents satisfaisant un besoin utilisateur en termes d’information exprimé sous forme d’une requête. Un Système de Recherche d’Information (SRI) est composé principalement de deux processus. Un processus de représentation et un processus de recherche. Le processus de représentation est appelé indexation, il permet de représenter les documents et la requête par des descripteurs ou des indexes. Ces descripteurs reflètent au mieux le contenu des documents. Le processus de recherche consiste à comparer les représentations des documents à la représentation de la requête. Dans les SRIs classiques, les descripteurs utilisés sont des mots (simples ou composés). Ces SRIs considèrent le document comme étant un ensemble de mots, souvent appelé “ sac de mots ”. Dans ces systèmes, les mots sont considérés comme des graphies sans sémantique. Les seules informations exploitées concernant ces mots sont leurs fréquences d’apparition dans les documents. Ces systèmes ne prennent pas en considération les relations sémantiques entre les mots. Par exemple, il est impossible de trouver des documents représentés par un mot M1 synonyme d’un mot M2, dans le cas où la requête est représentée par M2. Aussi, dans un SRI classique un document indexé par le terme “ bus ” ne sera jamais retrouvé par une requête indexée par le terme “taxi ”, pourtant il s’agit de deux termes qui traitent le même thème “ moyen de transport ”. Afin de remédier a�� ces limites, plusieurs travaux se sont intéressés à la prise en compte de l’aspect sémantique des termes d’indexation. Ce type d’indexation est appelé indexation sémantique ou conceptuelle.

  • Titre traduit

    = Extracting concepts and relations between concepts form multilingual documents : statistical and ontological approach


  • Résumé

    The research work of this thesis is related to the problem of document search indexing and more specifically in that of the extraction of semantic descriptors for document indexing. Information Retrieval System (IRS) is a set of models and systems for selecting a set of documents satisfying user needs in terms of information expressed as a query. In IR, a query is composed mainly of two processes for representation and retrieval. The process of representation is called indexing, it allows to represent documents and query descriptors, or indexes. These descriptors reflect the contents of documents. The retrieval process consists on the comparison between documents representations and query representation. In the classical IRS, the descriptors used are words (simple or compound). These IRS consider the document as a set of words, often called a "bag of words". In these systems, the words are considered as graphs without semantics. The only information used for these words is their occurrence frequency in the documents. These systems do not take into account the semantic relationships between words. For example, it is impossible to find documents represented by a word synonymous with M1 word M2, where the request is represented by M2. Also, in a classic IRS document indexed by the term "bus" will never be found by a query indexed by the word "taxi", yet these are two words that deal with the same subject "means of transportation. " To address these limitations, several studies were interested taking into account of the semantic indexing terms. This type of indexing is called semantic or conceptual indexing. These works take into account the notion of concept in place of notion of word. In this work the terms denoting concepts are extracted from the document by using statistical techniques. These terms are then projected onto resource of semantics such as: ontology, thesaurus and so on to extract the concepts involved.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XIII-183 p.)
  • Annexes : Bibliogr. p. 165-183

Où se trouve cette thèse ?

  • Bibliothèque : Institut national des sciences appliquées (Villeurbanne, Rhône). Service Commun de la Documentation Doc'INSA.
  • Disponible pour le PEB
  • Cote : C.83(3464)
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.