Thèse soutenue

Méthodes de classification et de segmentation locales non supervisées pour la recherche documentaire

FR
Auteur / Autrice : Patrice Bellot
Direction : Marc El-Bèze
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2000
Etablissement(s) : Avignon

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Les systèmes de recherche documentaire employant des méthodes essentiellement statistiques permettent le traitement de requêtes en langage naturel sur des corpus hétérogènes de grande taille, indépendamment de la langue employée. Un système de recherche documentaire, calcule des indices de ressemblance entre la requête et chacun des documents de la collection cible. Suivant les valeurs de ces indices, une liste ordonnée de documents est fournie à l’utilisateur. Cette liste est souvent très longue : certains documents pertinents sont mal positionnés et de ce fait jamais explorés par les utilisateurs. Les sujets abordés dans les uns ou les autres de ces documents sont multiples et certains sont éloignés des thématiques recherchées par l’utilisateur soit parce que ces dernières ne sont pas clairement exprimées dans la requête soit parce que le système n’a pas su les prendre correctement en compte. La classification thématique des documents rapportés est une manière de structurer l’ensemble des réponses. Elle permet à l’utilisateur d’orienter son exploration en fonction des thématiques générales des classes et d’accéder ainsi plus rapidement à ce qu’il recherche. Appliquée aux phrases ou aux paragraphes des documents, la classification permet de regrouper les extraits de textes traitant de la même thématique. Deux extraits d’un document traitent de thématiques différentes s’ils appartiennent à des classes distinctes. Autrement dit, la classification donne lieu à une segmentation thématique. À partir de cette segmentation, un nouveau calcul des indices de ressemblance est réalisé entre les segments et la requête aboutissant à une nouvelle liste solution. La segmentation permet de présenter à l’utilisateur les segments textuels jugés pertinents et de mieux positionner certains documents longs dans lesquels l’information recherchée ne constitue que l’une des thématiques abordée. Les éléments de cette nouvelle liste peuvent eux-mêmes être classés pour obtenir une segmentation de plus haut niveau et ainsi de suite. À chaque classification correspond une segmentation. À partir de toute segmentation, une classification peut être déduite. Cela démontre une dualité entre les problèmes de classification et de segmentation. Le système de recherche documentaire SIAC a été construit pour évaluer les solutions proposées dans cette thèse. La manière dont est effectuée la recherche documentaire fournissant les listes de documents à classer et à segmenter est décrite dans un premier chapitre. Dans un second chapitre, une technique de classification employant un algorithme hiérarchique et une méthode de réallocation de type Nuées Dynamiques est présentée et évaluée par le biais de notre participation à la campagne TREC-7. Une nouvelle méthode de classification employant des arbres de décision non supervisés est finalement proposée et évaluée sur les corpus en langue française de la campagne Amaryllis. À partir de cette classification, un algorithme de segmentation est déduit. Il est détaillé et évalué dans ledernier chapitre de ce mémoire