Algorithmes génétiques interactifs pour le text-retrieval

par Yann Landrin-Schweitzer

Thèse de doctorat en Informatique

Sous la direction de Évelyne Lutton.

Soutenue en 2003

à Paris 11 .


  • Résumé

    L'inflation des quantités de documents électroniques, sur internet et dans les intranets d'entreprises a entraîné au cours des années 1990-2000 un important développement des moteurs de recherche textuelle (text-retrieval). Leurs performances actuelles élevées, reposant sur l'emploi d'outils linguistiques et sémantiques très spécialisés, se heurtent à d'ultimes barrières: les particularités individuelles des utilisateurs, et l'important effort qu'ils doivent fournir pour interpréter les informations reçues. Les approches statistiques, reposant sur des modèles cognitifs, ont prouvé leur efficacité dans des situations au contexte sémantique simple. Nous avons abordé cette question en développant la spécificité du comportement des outils pour chaque utilisateur. A défaut de modèles cognitifs satisfaisants pour tous les types d'utilisateurs, permettant de contraindre les types de réponse acceptables pour chaque requête, nous avons formé un modèle de prétraitement de requêtes réalisable pour obtenir ces réponses. Le traitement à effectuer est contenu dans un profil utilisateur. Ce profil est adapté dynamiquement aux comportements de l'utilisateur grâce à un algorithme évolutionnaire, maximisant une évaluation de satisfaction dans les résultats produits. L'approche de programmation génétique utilisée pour cette optimisation repose sur une approche parisienne, optimisant une population de modules. Ceux-ci sont les composants élémentaires de règles de transformation, permettant de réécrire la requête de l'utilisateur. Après ce traitement, un composant de recherche d'un système d'extraction textuel commercial permet l'obtention des listes de résultats, de manière invisible pour l'utilisateur. Un prototype fonctionnel, Elise, a été développé. Si la performance de celui-ci, liée aux opinions des utilisateurs, est d'évaluation délicate, les résultats obtenus montrent des capacités d'adaptation et de créativité absentes des systèmes traditionnels.


  • Résumé

    The number and volume of documents available in electronical form has skyrocketed during the '90s. A consequence is the development of archiving and management tools for electronic documents. Among those, textual search engines have taken a major role in the treatment and diffusion of information. Those tools have nowadays very high performances, based on specialized linguistic tools. However, they reach new limits: the particularities of their users, and the complexity of information processing. Statistical approaches, based on cognitive user models, have proven themselves on simple semantical contexts. They still fail to endow textual extraction tools with the capacities of user specificity and adaptability. We attempt to overcome this limitation by specializing the behaviour of text-retrieval tools to the specificities of users. Without an appropriate cognitive model applicable to all users, that would let us constrain the answers that should be given to users, we propose a model of the treatment we may apply to their requests. We dynamically adapt a profile containing this information with an evolutionary algorithm, that maximizes the satisfaction of the user in the results obtained. Applying the parisian approach to this genetic programming core leads to optimise a population of modules, elementary components of transformation rules. We obtain actual result lists through a classical text extraction tool, invisibly for the user. A working prototype, Elise, has been implemented. Evaluating its performance, based on the opinion of users, is tricky, but the tests show that Elise is capable of adaptation and creativity, of which traditional systems are incapable.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 176 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p.159-170

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2003)303
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.