Indexation automatique par termes-clés en domaines de spécialité

par Adrien Bougouin

Thèse de doctorat en Informatique – Traitement automatique du langage naturel

Sous la direction de Béatrice Daille et de Florian Boudin.

Le président du jury était Marc Gelgon.

Le jury était composé de Béatrice Daille, Florian Boudin, Marc Gelgon, Brigitte Grau, Jacques Savoy, Fabienne Moreau.

Les rapporteurs étaient Brigitte Grau, Jacques Savoy.


  • Résumé

    Les termes-clés, ou mots-clés, sont des mots ou des expressions qui représentent le contenu d’un document. Ils en donnent une représentation synthétique et permettent de l’indexer pour la recherche d’information. Cette thèse s’intéresse à l’indexation automatique par termes-clés de documents en domaines de spécialité. La tâche est difficile à réaliser et les méthodes actuelles peinent encore à atteindre des résultats satisfaisants. Notre démarche s’organise en deux temps. Dans un premier temps, nous nous intéressons à l’indexation par termes-clés en général. Nous proposons une méthode pour sélectionner des termes-clés candidats dans un document en nous focalisant sur la catégorie des adjectifs qu’ils peuvent contenir, puis proposons uneméthode pour les ordonner par importance. Cette dernière, TopicRank, se situe en aval de la sélection des candidats. C’est une méthode à base de graphe qui groupe les termes-clés candidats véhiculant le même sujet, projette les sujets dans un graphe et extrait un terme-clé par sujet. Nos expériences montrent que TopicRank est significativement meilleur que les précédentes méthodes à base de graphe. Dans un second temps, nous adaptons notre travail à l’indexation par termes-clés en domaines de spécialité. Nous étudions la méthodologie d’indexation manuelle de documentalistes et la simulons à l’aide de TopicCoRank. TopicCoRank ajoute à TopicRank un graphe qui représente le domaine de spécialité du document. Grâce à ce second graphe, TopicCoRank possède la rare capacité à fournir des termes-clés qui n’apparaissent pas dans les documents. Appliqué à quatre domaines de spécialité, TopicCoRank améliore significativement TopicRank.

  • Titre traduit

    Automatic domain-specific keyphrase annotation


  • Résumé

    Keyphrases are words or multi-word expressions that represent the content of a document. Keyphrases give a synoptic view of a document and help to index it for information retrieval. This Ph. D thesis focuses on domain-specific automatic keyphrase annotation. Automatic keyphrase annotation is still a difficult task, and current systems do not achieve satisfactory results. Our work is divided in two steps. First, we propose a keyphrase candidate selection method that focuses on the categories of adjectives relevant within keyphrases and propose a method to rank them according to their importance within the document. This method, TopicRank, is a graph-based method that clusters keyphrase candidates into topics, ranks the topics and extracts one keyphrase per important topic. Our experiments show that TopicRank significantly outperforms other graph-basedmethods for automatic keyphrase annotation. Second, we focus on domain-specific documents and adapt our previous work. We study the best practice of manual keyphrase annotation by professional indexers andmimic it with a newmethod, TopicCoRank. TopicCoRank adds a new graph representing the specific domain to the topic graph of TopicRank. Leveraging this second graph, TopicCoRank possesses the rare ability to provide keyphrases that do not occur within documents. Applied on four corpora of four specific domains, TopicCoRank significantly outperforms TopicRank.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (116 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p.107-114

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Nantes. Service commun de la documentation. BU Sciences.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.