Document clustering in a learned concept space

par Young-Min Kim

Thèse de doctorat en Informatique

Sous la direction de Massih-Reza Amini.

Soutenue en 2010

à Paris 6 .

    mots clés mots clés

  • Titre traduit

    Apprentissage d'espaces de concepts pour le partitionnement non-supercisé de documents textuels


  • Pas de résumé disponible.


  • Résumé

    La tâche de partitionnement de documents est l'un des problèmes centraux en Recherche d'Information (RI). Les résultats de partitionnement indique non-seulement la structure d'une collection, mais ils sont aussi souvent utilisés dans différents tâches de RI. Dans cette thèse, nous nous somme intéressés à développer des techniques probabilistes à base de modèles latents pour cette tâche. Dans ce but, nous proposons quatre techniques différentes basées sur l'observation que le partitionnement est bien plus effectif dans un espace de concepts trouvé automatiquement que dans l'espace de sac-de-mots. L'organisation de cette thèse est la suivante: dans la première partie de la thèse, nous donnons un état de l'art complet sur les techniques de partitionnement et nous présentons les algorithmes classiques pour apprendre les paramètres des modèles de partitionnement probabilistes. Dans une deuxième partie, nous présentons nos contributions en développant d'abord une méthode de partitionnement composée de deux phases. Dans la première phase, les mots de la collection sont regroupés suivant l'hypothèse que les mots apparaissant dans les mêmes documents avec les mêmes fréquences sont similaires. Les documents sont ensuite regroupés dans l'espace induit par ces groupements de mots, appelés concepts de mots. Sur ce principe, nous étendons le modèle latent PLSA pour un partitionnement simultané des mots et des documents. Nous proposons ensuite une stratégie de sélection de modèles permettant de trouver efficacement le meilleur modèle parmi tous les choix possibles. Et aussi, nous montrons comment le PLSA peut être adaptés pour le partitionnement multi-vus de documents multi-langues.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XXI-130 p.)
  • Annexes : Bibliogr. p. 121-130. [112] réf. bibliogr.

Où se trouve cette thèse ?

  • Bibliothèque : Université Pierre et Marie Curie. Bibliothèque Universitaire Pierre et Marie Curie . Section Mathématiques-Informatique Recherche.
  • Consultable sur place dans l'établissement demandeur
  • Cote : T Paris 6 2010 459
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.