Construction automatique de hiérarchies sémantiques à partir du Trésor de la Langue Française informatisé (TLFi) : application à l'indexation et la recherche d'images

par Inga Gheorghita

Thèse de doctorat en Sciences du langage

Sous la direction de Jean-Marie Pierrel.

Soutenue le 17-02-2014

à l'Université de Lorraine , dans le cadre de Ecole doctorale Stanislas (Nancy-Metz) , en partenariat avec Analyse et traitement informatique de la langue française (Nancy) (laboratoire) .

Le président du jury était Alain Polguère.

Le jury était composé de Cyril March, Yannick Toussaint.

Les rapporteurs étaient Béatrice Daille, Brigitte Grau.


  • Résumé

    L’objectif principal de cette thèse est de montrer que les informations lexicales issues d’un dictionnaire de langue, tel le Trésor de la langue française informatisé (TLFi), peuvent améliorer les processus d’indexation et de recherche d’images. Le problème d’utilisation d’une telle ressource est qu’elle n’est pas suffisamment formalisée pour être exploitée d’emblée dans un tel domaine d’application. Pour résoudre ce problème, nous proposons, dans un premier temps, une approche de construction automatique de hiérarchies sémantiques à partir du TLFi. Après avoir défini une caractéristique quantitative (mesurable) et comparable des noms apparaissant dans les définitions lexicographiques, à travers une formule de pondération permettant de sélectionner le nom de poids maximal comme un bon candidat hyperonyme pour un lexème donné du TLFi, nous proposons un algorithme de construction automatique de hiérarchies sémantiques pour les lexèmes des vocables du TLFi. Une fois notre approche validée à travers des évaluations manuelles, nous montrons, dans un second temps, que les hiérarchies sémantiques obtenues à partir du TLFi peuvent être utilisées pour l’enrichissement d’un thésaurus construit manuellement ainsi que pour l’indexation automatique d’images à partir de leurs descriptions textuelles associées. Nous prouvons aussi que l’exploitation d’une telle ressource dans le domaine de recherche d’images améliore la précision de la recherche en structurant les résultats selon les domaines auxquels les concepts de la requête de recherche peuvent faire référence. La mise en place d’un prototype nous a permis ainsi d’évaluer et de valider les approches proposées.

  • Titre traduit

    Automatic construction of semantic hierarchies from the Trésor de la langue française informatisé (TLFi) : application for image indexing and retrieval


  • Résumé

    The main purpose of this thesis is to show that the lexical information issuing from a language dictionary, as the Trésor de la langue française informatisé (TLFi), can improve the image indexing and retrieval process. The problem of using of such resource is that it is not sufficiently formalized to be exploited immediately in such application domain.To solve this problem, we propose a first approach of automatic construction of semantic hierarchies from TLFi. After defining a quantitative (measurable) and comparable characteristic of names appearing in dictionary definitions, through a weighting formula that allows us to select the name of the maximum weight as a good hypernym candidate for a given TLFi lexeme, we suggest an algorithm of automatic construction of semantic hierarchies for the lexemes of TLFi vocables.Once our approach is validated through manual evaluations, we demonstrate in the second time that the semantic hierarchies obtained from TLFi can be used to enrich a thesaurus manually built as well as for automatic image indexing using their associated text descriptions. We also prove that the use of such resource in the domain of image retrieval improves the accuracy of search by structuring the results according the domains to which the concepts of the search query are related to. The implementation of a prototype allowed us to evaluate and validate the proposed approaches.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : Université de Lorraine. Direction de la documentation et de l'édition. BU Ingénieurs.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.