Contributions in knowledge discovery from textual data

par Ahmed El Sayed

Thèse de doctorat en Informatique

Sous la direction de Djamel Abdelkader Zighed.

Soutenue en 2008

à Lyon 2 .


  • Résumé

    This dissertation focuses on two key issues in text mining, namely unsupervised learning and knowledge acquisition. In spite of their relative maturity, both issues still present some major challenges that need to be addressed. First, for unsupervised learning, a well-known, unresolved challenge is to perform clustering with minimal input parameters. One natural way to reach this is to involve validity indices in the clustering process. Although of great interest, validity indices were not extensively explored in the literature, especially when dealing with high-dimensional data like text. Hence, we make three main contributions: (1) an experimental study comparing extensively 8 validity indices; (2) a context-aware method enhancing validity indices usage as stopping criteria; (3) I-CBC, an Incremental version of the CBC (Clustering By Committee) algorithm. Contributions were validated in two real-world applications: document and word clustering. Second, for knowledge acquisition, we face major issues related to ontology learning from text: low recall of the pattern-based approach, low precision of the distributional approach, context-dependency, and ontology evolution. Thus, we propose a new framework for taxonomy learning from text. The proposal is a hybrid approach which has the following advantages over the other approaches: (1) ability to capture more “flexibly” relations in text; (2) concepts better reflecting the context of the target corpus; (3) more reliable decisions during the learning process; (4) and finally evolution of the learned taxonomy without any manual effort, after its incorporation in a core of an information retrieval system.


  • Résumé

    Cette thèse se focalise sur deux problématiques clés liées à la fouille de texte, à savoir : la classification et l'acquisition des connaissances. En dépit de leur relative maturité, ces deux problématiques présentent encore certains défis majeurs qui doivent être soulevés. En premier lieu, pour la classification, un défi bien connu et non résolu consiste à effectuer des classifications avec un minimum de paramètres en entrée. Une façon naturelle de parvenir à cette fin, est d'utiliser les indices de validité dans le processus de classification. Bien qu'ils soient d'un grand intérêt, les indices de validité n'ont pas été largement explorés dans la littérature, en particulier lorsqu'il s'agit de données de grande dimension, comme c'est le cas des données textuelles. Ainsi, concernant ce volet, nous proposons trois principales contributions : (1) une large étude expérimentale comparant huit indices de validité, (2) une méthode basée sur le contexte améliorant l'utilisation des indices de validité en tant que critère d'arrêt, (3) I-CBC, une version incrémentale de l'algorithme flou CBC (classification par comités). Ces contributions ont été validées sur deux applications du monde réel : la classification de documents et de mots. En deuxième lieu, pour l’acquisition des connaissances, nous nous sommes intéressés à des problématiques importantes liées à la construction d’ontologies à partir de texte : le faible rappel des approches basées sur les patrons, la faible précision de l’approche distributionnelle, la dépendance au contexte et l’évolution des ontologies. Nous proposons ainsi, un nouveau cadre pour l’apprentissage d’ontologies à partir du texte. Notre proposition est une approche hybride qui combine les avantages suivants par rapport aux autres approches : (1) la capacité de capturer avec plus de flexibilité des relations dans le texte, (2) des concepts qui traduisent mieux le contexte du corpus considéré, (3) des décisions plus fiables prises durant le processus d’apprentissage à travers la considération et l’inclusion de plusieurs relations sémantiques, et, enfin, (4) l’évolution de l’ontologie apprise sans aucun effort manuel considérable, après son inclusion au coeurd’un système de recherche d’information.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (187 f.)
  • Annexes : Bibliogr. f. 164-187

Où se trouve cette thèse ?