Semantic similarities at the core of generic indexing and clustering approaches

par Nicolas Fiorini

Thèse de doctorat en Informatique

Sous la direction de Jacky Montmain et de Vincent Ranwez.

Soutenue le 04-11-2015

à Montpellier , dans le cadre de I2S - Information, Structures, Systèmes , en partenariat avec LGI2P - Laboratoire de Génie Informatique et d'Ingénierie de Production - Ecole des Mines d'Alès (laboratoire) et de Laboratoire de Génie Informatique et Ingénierie de Production / LGI2P (laboratoire) .


  • Résumé

    Pour exploiter efficacement une masse toujours croissante de documents électroniques, une branche de l'Intelligence Artificielle s'est focalisée sur la création et l'utilisation de systèmes à base de connaissance. Ces approches ont prouvé leur efficacité, notamment en recherche d'information. Cependant elles imposent une indexation sémantique des ressources exploitées, i.e. que soit associé à chaque ressource un ensemble de termes qui caractérise son contenu. Pour s'affranchir de toute ambiguïté liée au langage naturel, ces termes peuvent être remplacés par des concepts issus d'une ontologie de domaine, on parle alors d'indexation conceptuelle.Le plus souvent cette indexation est réalisée en procédant à l'extraction des concepts du contenu même des documents. On note, dans ce cas, une forte dépendance des techniques associées à ce traitement au type de document et à l'utilisation d'algorithmes dédiés. Pourtant une des forces des approches conceptuelles réside dans leur généricité. En effet, par l'exploitation d'indexation sémantique, ces approches permettent de traiter de la même manière un ensemble d'images, de gènes, de textes ou de personnes, pour peu que ceux-ci aient été correctement indexés. Cette thèse explore ce paradigme de généricité en proposant des systèmes génériques et en les comparant aux approches existantes qui font référence. L'idée est de se reposer sur les annotations sémantiques et d'utiliser des mesures de similarité sémantique afin de créer des approches performantes. De telles approches génériques peuvent par la suite être enrichies par des modules plus spécifiques afin d'améliorer le résultat final. Deux axes de recherche sont suivis dans cette thèse. Le premier et le plus riche est celui de l'indexation sémantique. L'approche proposée exploite la définition et l'utilisation de documents proches en contenu pour annoter un document cible. Grâce à l'utilisation de similarités sémantiques entre les annotations des documents proches et à l'utilisation d'une heuristique, notre approche, USI (User-oriented Semantic Indexer), permet d'annoter des documents plus rapidement que les méthodes existantes en fournissant une qualité comparable. Ce processus a ensuite été étendu à une autre tâche, la classification. Le tri est une opération indispensable à laquelle l'Homme s'est attaché depuis l'Antiquité, qui est aujourd'hui de plus en plus automatisée. Nous proposons une approche de classification hiérarchique qui se base sur les annotations sémantiques des documents à classifier. Là encore, la méthode est indépendante des types de documents puisque l'approche repose uniquement sur leur annotations. Un autre avantage de cette approche est le fait que lorsque des documents sont rassemblés, le groupe qu'il forme est automatiquement annoté (suivant notre algorithme d'indexation). Par conséquent, le résultat fourni est une hiérarchie de classes contenant des documents, chaque classe étant annotée. Cela évite l'annotation manuelle fastidieuse des classes par l'exploration des documents qu'elle contient comme c'est souvent le cas.L'ensemble de nos travaux a montré que l'utilisation des ontologies permettait d'abstraire plusieurs processus et ainsi de réaliser des approches génériques. Cette généricité n'empêche en aucun cas d'être couplée à des approches plus spécifiques, mais constitue en soi une simplicité de mise en place dès lors que l'on dispose de documents annotés sémantiquement.

  • Titre traduit

    Les similarités sémantiques au cœur d’approches génériques d’indexation et de catégorisation


  • Résumé

    In order to improve the exploitation of even growing number of electronic documents, Artificial Intelligence has dedicated a lot of effort to the creation and use of systems grounded on knowledge bases. In particular in the information retrieval field, such semantic approaches have proved their efficiency.Therefore, indexing documents is a necessary task. It consists of associating them with sets of terms that describe their content. These terms can be keywords but also concepts from an ontology, in which case the annotation is said to be semantic and benefit from the inherent properties of ontologies which are the absence of ambiguities.Most approaches designed to annotate documents have to parse them and extract concepts from this parsing. This underlines the dependance of such approaches to the type of documents, since parsing requires dedicated algorithms.On the other hand, approaches that solely rely on semantic annotations can ignore the document type, enabling the creation of generic processes. This thesis capitalizes on genericity to build novel systems and compare them to state-of-the-art approaches. To this end, we rely on semantic annotations coupled with semantic similarity measures. Of course, such generic approaches can then be enriched with type-specific ones, which would further increase the quality of the results.First of all, this work explores the relevance of this paradigm for indexing documents. The idea is to rely on already annotated close documents to annotate a target document. We define a heuristic algorithm for this purpose that uses the semantic annotations of these close documents and semantic similarities to provide a generic indexing method. This results in USI (User-oriented Semantic Indexer) that we show to perform as well as best current systems while being faster.Second of all, this idea is extended to another task, clustering. Clustering is a very common and ancient process that is very useful for finding documents or understanding a set of documents. We propose a hierarchical clustering algorithm that reuses the same components of classical methods to provide a novel one applicable to any kind of documents. Another benefit of this approach is that when documents are grouped together, the group can be annotated by using our indexing algorithm. Therefore, the result is not only a hierarchy of clusters containing documents as clusters are actually described by concepts as well. This helps a lot to better understand the results of the clustering.This thesis shows that apart from enhancing classical approaches, building conceptual approaches allows us to abstract them and provide a generic framework. Yet, while bringing easy-to-set-up methods – as long as documents are semantically annotated –, genericity does not prevent us from mixing these methods with type-specific ones, in other words creating hybrid methods.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Bibliothèque interuniversitaire. Section Sciences.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.