Intégration de la construction de la terminologie de domaines spécialisés dans un processus global de fouille de textes

par Mathieu Roche

Thèse de doctorat en Informatique

Sous la direction de Yves Kodratoff.

Soutenue en 2004

à Paris 11 , en partenariat avec Université de Paris-Sud. Faculté des Sciences d'Orsay (Essonne) (autre partenaire) .


  • Résumé

    L'extraction d'information à partir de textes spécialisés exige l'application d'un processus complet de fouille de textes. Une des étapes de ce processus consiste à extraire les termes dans les textes. Les termes sont définis comme des groupes de mots représentant des traces linguistiques de concepts. Le terme « data mining » évoque, par exemple, le concept de « technique informatique ». La tâche d'acquisition de la terminologie consiste, dans un premier temps, à extraire les mots voisins vérifiant des patrons syntaxiques simples tels que Nom-Nom, Adjectif-Nom, etc. Une des spécificités de notre algorithme est son aspect itératif utilisé pour construire des termes complexes. Par exemple, si lors de la première itération le terme « data mining » de type Nom-Nom est extrait, à l'étape suivante le terme « data-mining application » peut être obtenu. De plus, avec EXIT (EXtraction Itérative de la Terminologie) l'expert est placé au centre du processus d'extraction de la terminologie et il peut intervenir tout au long du processus. Outre l'aspect itératif du système mis en place, de nombreux paramètres ont été ajoutés. Un des paramètres permet d'utiliser différents critères statistiques pour classer les termes selon leur pertinence par rapport à une tâche à réaliser. Notre approche a été validée à partir de quatre corpus de langues, de tailles et de domaines de spécialité différents. Enfin, une méthode fondée sur un processus d'apprentissage supervisé est proposée afin d'améliorer la qualité de la terminologie extraite.

  • Titre traduit

    Integration of the construction of the terminology for specialized field in a global process of text mining


  • Résumé

    Information extraction from specialized texts requires the application of a complete process of text mining. One of the steps of this process is term detection. The terms are defined as groups of words representing a linguistic instance of some user-defined concept. For example, the term "data mining" evokes the concept of “computational technique”. Initially, the task of terminology acquisition consists in extracting groups of words instanciating simple syntactic patterns such as Noun-Noun, Adjective-Noun, etc. One specificity of our algorithm is its iterative mode used to build complex terms. For example, if at the first iteration the Noun-Noun term “data mining” is found, at the following step the term “data-mining application” can be obtained. Moreover, with EXIT (Iterative EXtraction of the Terminology) the expert stands at the center of the terminology extraction process and he can intervene throughout the process. In addition to the iterative aspect of the system, many parameters were added. One of these parameters makes possible the use of various statistical criteria to classify the terms according to their relevance for a task to achieve. Our approach was validated with four corpora of different languages and size, and different fields of specialty. Lastly, a method based on a supervised machine learning approach is proposed in order to improve the quality of the obtained terminology.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 207 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. [193]-205

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2004)330
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.