Descripteurs documentaires avancés : Une approche séquentielle

par Antoine Doucet

Thèse de doctorat en Informatique

Sous la direction de Khaldoun Zreik.

Soutenue en 2005

à Caen .


  • Résumé

    La modélisation de documents n'est pas un problème trivial. Depuis des décennies, les chercheurs essayent de combiner représentation pertinente et traitement efficace. Fréquemment, un document est représenté par un vecteur dans lequel chaque dimension correspond à un mot du document. Puisque cette approche ignore la position relative des mots, elle est souvent dénommée modèle " sac de mots ". Une amélioration naturelle est d'extraire et d'exploiter des séquences de mots, en supplément des mots simples. Dans cette thèse, nous considérons le problème de l'extraction, de la sélection, et de l'exploitation d'unités multi-mots, avec un intérêt particulier pour l'applicabilité de nos travaux à des collections de document écrites dans n'importe quelle langue. Après une description de l'état de l'art des représentations documentaires plus élaborées, nous présentons une nouvelle technique qui permet d'extraire efficacement des séquences fréquentes de mots dans des collections de document de n'importe quelle taille. La deuxième contribution de cette thèse est la définition d'une formule et d'un algorithme efficace pour le calcul de la probabilité d'occurrence d'une séquence d'items discontinue. Une application de ce résultat est une technique d'évaluation indirecte d'une séquence de mots par la comparaison de sa fréquence attendue et de sa fréquence observée. Finalement, nous présentons une nouvelle mesure de similarité entre documents basée sur leur représentation séquentielle. Supportant nos ambitions généralistes et multilingues, nous présentons finalement des expériences de recherche d'information utilisant des collections en anglais, japonais, chinois, et coréen.


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (124 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 115-124

Où se trouve cette thèse ?

  • Bibliothèque : Université de Caen Normandie. Bibliothèque Rosalind Franklin (Sciences-STAPS).
  • Non disponible pour le PEB
  • Cote : TCAS-2005-57
  • Bibliothèque : Université de Caen Normandie. Bibliothèque Rosalind Franklin (Sciences-STAPS).
  • Disponible pour le PEB
  • Cote : TCAS-2005-57bis
  • Bibliothèque : Université de Caen Normandie. Bibliothèque Rosalind Franklin (Sciences-STAPS).
  • Disponible pour le PEB
  • Cote : TCAS-2005-57ter
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.