Les points de vue : vers une caractéristation de la notion de besoins utilisateurs pour la collecte d'informations sur le Web, conception et réalisation du méta-moteur de recherche RAP

par Lei͏̈la Nai͏̈t-Baha

Thèse de doctorat en Linguistique

Sous la direction de Jean-Pierre Desclès.

Soutenue en 2003

à Paris 4 .


  • Résumé

    Cette thèse s'inscrit dans le cadre de la recherche d'informations sur le Web à l'aide de méthodes inspirées des recherches en informatique linguistique du laboratoire LaLICC. Notre travail avait pour but de développer un outil qui permet d'assister de manière interactive, lors d'une session de recherche, un utilisateur souhaitant collecter des informations disponibles sur le Web sur une notion ou un sujet donné. L'idée fondamentale mise en œuvre dans l'outil réalisé, appelé RAP, a consisté à orienter la recherche selon un ou plusieurs points de vue prédéfinis qui permettent de satisfaire d'une manière graduelle les besoins informationnels de l'utilisateur. Conceptuellement, une partie importante de notre travail a consisté à étudier la manière de caractériser la notion de besoin d'un utilisateur qui constitue le fondement intuitif sur lequel repose la notion de points de vue. Pour cela, les connaissances linguistiques sur lesquelles nous nous sommes appuyée nous ont permis de ne plus voir la notion de besoin comme étant nécessairement liée à une communauté d'utilisateurs particulière. Nos réflexions nous ont alors amené à poser les notions de besoin informationnel élémentaire ou complexe comme cadre théorique de notre recherche. A ces besoins correspondent les points de vue que l'utilisateur peut sélectionner pour orienter la recherche d'informations. Techniquement, orienter la recherche selon un point de vue revient à reformuler la requête utilisateur en y intégrant les marqueurs linguistiques relatifs au point de vue choisi, par exemple celui de la Causalité ou celui de la Citation. La reformulation a alors pour but d'une part, de réduire de façon notable le bruit, et d'autre part, de cibler des pages Web possédant un contenu sémantique riche. La réalisation des points de vue par cette technique de reformulation implique l'utilisation de marqueurs linguistiques issus des travaux de l'équipe LaLICC sur le filtrage sémantique des textes. Chaque classe de marqueurs relative au point de vue choisi intervient dans le processus de reformulation des requêtes de l'utilisateur à travers la technique de reformulation que nous avons développée, ensuite dans l'extraction des parties, paragraphes ou segments textuels du document où la manifestation textuelle de ce point de vue est détectée, aidant ainsi l'utilisateur à mieux sélectionner les pages Web intéressantes parmi les pages résultats du moteur de recherche consulté. L'ensemble de la démarche a été concrétisé par la construction de l'outil RAP écrit en Java et comprenant une Interface Homme-Machine conviviale, dans lequel 27 points de vue ont été implémentés découlant des différentes approches de six points de vue principaux: Causalité, Relations descriptives, Citation, Thème/Position, Problème/Solution, Acteurs.

  • Titre traduit

    Points of view : towards a characterization of the user need notion for information collect on the Web conception and realization of the meta search engine RAP


  • Résumé

    This thesis comes within the framework of information retrieval on the Web with the help of methods inspired by the computational linguistics researchs of LaLICC laboratory. The purpose of our work is to develop a tool that allows to assist in an interactive way, during an information retrieval session, a user who wants to collect some information available on the Web on a given notion or topic. The main idea which is realized through this tool called RAP (Research, Analyse, Propose), consists in foàcusing the search according to one or more points of view which allow to satisfy, in a gradual way, the user information needs. Conceptually, a great part of our work consisted to study how to characterize the user need notion that constitute the intuitive foundation on which rely the notion of points de view. In this order, the linguistic knowledge we use allows as to not see the need notion as necessarily related to a particular community of users. Our reflexions led us to pose the elementary or complex informational need notions as a theoritical framework of our research. To these needs correspond the points of view that a user can select to focus his search. Technically, direct the search according to a point of view means that we reformulate the user query by integrating there the linguistics markers relating to the chosen point of view, for example that of Causality or that of Quotation. The purpose of this reformulation is in one part, to reduce significantly the noise, and in the other part to target Web pages having rich semantic contents. The realization of the points of view by this reformulation technique implies the use of linguistics markers resulting from the team LaLICC works on the semantic filtering of the texts. Each class of these markers relating to the selected point of view intervenes in the process of user query reformulation through the reformulation technique that we developed; then, in the part of extraction of the paragraphs or textual segments of the document where signs of the chosen point of view are detected, thus to help the user to make a better choice of Web pages among the resulted pages computed by the search engine (AltaVista in our case). The whole of the processes was realized by the construction of the RAP tool written in Java and including a convivial interface, in which, 27 points of view resulting from the various approaches of the sixth principal points of view : Causality, Descriptive Relations, Quotation, Theme/Position, Problem/Solution and Actors.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (209 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : 178 références bibliographiques

Où se trouve cette thèse ?

  • Bibliothèque : Université de Paris-Sorbonne Paris 4. Service commun de la documentation. Bibliothèque Serpente.
  • Consultable sur place dans l'établissement demandeur
  • Cote : BUT 5788
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.