Contribution à l'analyse et à la recherche d'information en texte intégral : application de la transformée en ondelettes pour la recherche et l'analyse de textes

par Nabila Smail

Thèse de doctorat en Information scientifique et technique

Sous la direction de Serge Cacaly.

Soutenue le 27-01-2009

à Paris Est , dans le cadre de Information, Communication, Modélisation et Simulation , en partenariat avec Laboratoire Sciences et Ingénierie de l’Information et de l’Intelligence Stratégique (S3IS) (laboratoire) .

Le jury était composé de Serge Cacaly, Henri Dou, Jacky Kister, Christian Longevialle, Luc Quoniam, R. Eppstein.

Les rapporteurs étaient Jacky Kister, Henri Dou.


  • Résumé

    L’objet des systèmes de recherche d’informations est de faciliter l’accès à un ensemble de documents, afin de permettre à l’utilisateur de retrouver ceux qui sont pertinents, c'est-à-dire ceux dont le contenu correspond le mieux à son besoin en information. La qualité des résultats de la recherche se mesure en comparant les réponses du système avec les réponses idéales que l'utilisateur espère recevoir. Plus les réponses du système correspondent à celles que l'utilisateur espère, plus le système est jugé performant. Les premiers systèmes permettaient d’effectuer des recherches booléennes, c’est à dire, des recherches ou seule la présence ou l’absence d’un terme de la requête dans un texte permet de le sélectionner. Il a fallu attendre la fin des années 60, pour que l’on applique le modèle vectoriel aux problématiques de la recherche d’information. Dans ces deux modèles, seule la présence, l’absence, ou la fréquence des mots dans le texte est porteuse d’information. D’autres systèmes de recherche d’information adoptent cette approche dans la modélisation des données textuelles et dans le calcul de la similarité entre documents ou par rapport à une requête. SMART (System for the Mechanical Analysis and Retrieval of Text) [4] est l’un des premiers systèmes de recherche à avoir adopté cette approche. Plusieurs améliorations des systèmes de recherche d’information utilisent les relations sémantiques qui existent entre les termes dans un document. LSI (Latent Semantic Indexing) [5], par exemple réalise ceci à travers des méthodes d’analyse qui mesurent la cooccurrence entre deux termes dans un même contexte, tandis que Hearst et Morris [6] utilisent des thésaurus en ligne pour créer des liens sémantiques entre les termes dans un processus de chaines lexicales. Dans ces travaux nous développons un nouveau système de recherche qui permet de représenter les données textuelles par des signaux. Cette nouvelle forme de représentation nous permettra par la suite d’appliquer de nombreux outils mathématiques de la théorie du signal, tel que les Transformées en ondelettes et jusqu’a aujourd’hui inconnue dans le domaine de la recherche d’information textuelle

  • Titre traduit

    Contribution in analysis and information retrieval in text : application of wavelets transforms in information retrieval


  • Résumé

    The object of information retrieval systems is to make easy the access to documents and to allow a user to find those that are appropriate. The quality of the results of research is measured by comparing the answers of the system with the ideal answers that the user hopes to find. The system is competitive when its answers correspond to those that the user hopes. The first retrieval systems performing Boolean researches, in other words, researches in which only the presence or the absence of a term of a request in a text allow choosing it. It was necessary to wait for the end of the sixties to apply the vector model in information retrieval. In these two models, alone presence, absence, or frequency of words in the text is holder of information. Several Information Retrieval Systems adopt a flat approach in the modeling of data and in the counting of similarity between documents or in comparison with a request. We call this approach ‘bag of words ’. These systems consider only presence, absence or frequency of appearance of terms in a document for the counting of its pertinence, while Hearst and Morris [6] uses online thesaurus to create semantic links between terms in a process of lexical chains. In this thesis we develop a new retrieval system which allows representing textual data by signals. This new form of presentation will allow us, later, to apply numerous mathematical tools from the theory of the signal such as Wavelets Transforms, well-unknown nowadays in the field of the textual information retrieval


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.