Contribution à la modélisation du langage pour des applications de recherche documentaire et de traitement de la parole

par Brigitte Bigi

Thèse de doctorat en Informatique

Sous la direction de Renato De Mori et de Thierry Spriet.

Soutenue en 2000

à Avignon .


  • Pas de résumé disponible.


  • Résumé

    En classification thématique, l'objectif est d'assigner un label thématique à un segment de texte parmi un ensemble de labels possibles. Le modèle proposé repose sur la comparaison entre la distribution statique des mots clés de chaque thème et la distribution statistique des mots contenus dans la mémoire cache d'un texte à un instant donné. Cette évaluation évolue dans le temps avec la prise en compte de nouveaux mots dans le cache. Appliqué à des textes dictés, ce modèle permet une reconnaissance rapide des thèmes. Nous montrons également que l'utilisation d'une combinaison linéaire d'un modèle bigramme général avec des modèles thématiques apporte un gain substantiel de perplexite. En segmentation thematique, on cherche à déterminer les frontières entre paragraphes de thèmes différents. Pour repérer les changements de thème, on utilise le modèle à base de mémoire cache developpé pour la classification thématique, associé à une programmation dynamique. D'autres nouvelles méthodes ont également été testées afin que la segmentation ne nécessite pas de connaissances préalables sur les thèmes. Pour ce faire, on donne de nouvelles représentations de l'histoire d'un mot. L'ensemble des résultats ainsi obtenus montre que différentes stratégies doivent être utilisées selon les valeurs de rappel et de précision que l'on souhaite. Le but en expansion de requête est d'ajouter de nouveaux termes pertinents à la requête d'un utilisateur, afin de rendre plus précise les reponses du système de recherche documentaire. Notre modèle évalue une mesure de divergence entre la distribution de probabilités des termes représentatifs des documents fournis par le systeme avec la requête initiale, et la distribution de ces mêmes termes dans la collection entière. Ceci permet d'attribuer un score à des termes candidats qui formeront la requête étendue

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (111 f.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. f. 102-110

Où se trouve cette thèse ?

  • Bibliothèque : Université d'Avignon et des Pays de Vaucluse. Bibliothèque universitaire.
  • Disponible pour le PEB
  • Cote : T 17.00.147

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université d'Avignon et des Pays de Vaucluse. Bibliothèque universitaire.
  • Non disponible pour le PEB
  • Cote : T MF 150
  • Bibliothèque : Moyens Informatiques et Multimédia. Information.
  • Non disponible pour le PEB
  • Cote : MF-2000-BIG
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.