Gestion de documents multimédia et recherche d'informations dans un système collaboratif

par Larbi Guezouli

Thèse de doctorat en Informatique

Sous la direction de Bernard Goossens.

Soutenue en 2007

à Paris 7 .


  • Résumé

    La recherche et la gestion de documents multimédia s'appuient sur un système de recherche d'informations capable de trouver dans une grande base un ensemble de données répondant aux contraintes d'une requête. Notre thèse porte plus spécifiquement sur les documents textuels et vidéos. Concernant les documents textuels, l'association d'une approche linguistique (normalisation et lemmatisation) à une approche statistique simplifie la recherche. L'approche statistique fait une recherche rapide dans le corpus pour filtrer les documents afin de ne traiter que ceux qui semblent pertinents. L'approche linguistique appliquée aux documents restants se base sur les origines des unités linguistiques porteuses de sens. La recherche de documents vidéo nécessite un pré-traitement de chaque document. La segmentation de la vidéo permet d'identifier les trames représentatives du document. La recherche proprement dite s'effectue au sein des documents prétraités pour gagner en efficacité. Une fois les documents textuels et vidéos sélectionnés et préparés, il ne reste plus qu'à calculer le taux de similarité de chacun avec le document formant la requête. Ce calcul se base sur les positions des unités linguistiques et des trames, sur leurs voisinages et leurs fréquences et sur la taille des documents. Le modèle proposé dans la thèse fait apparaître que la combinaison de ces approches donne un système de recherche d'informations multimédia performant, robuste, précis et rapide.

  • Titre traduit

    Multimedia documents management and information retreaval in a content management systems


  • Pas de résumé disponible.


  • Résumé

    Searching for and managing multimedia documents rely on an information searching System able to locale a set of data satisfying a request among a large data base. Our thesis deals more specifically with textual and video documents. Concerning the textual documents, the combination of a linguistic approach (standardization and lemmatisation) with a statistical approach simplifies the searching process. The statistical approach starts a quick search among the corpus to filter the documents in order to extract the relevant ones. The statistical approach applied to the remaining documents is based on the meaningful linguistic units roots. Video documents' searching requires pre-processing of every document. Video segmentation helps to identify the representative frames of the document. In order to save time, the search itself is performed among the pre-processed documents. Once the textual and video documents have been selected and prepared, a similarity rate is computed for every document compared to the question document. This computation depends on the linguistic units and frames positions, on their neighbourhood and frequency and on the documents sizes. The model proposed in the thesis shows that the combination of these approaches builds an efficient, robust and precise information searching System.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (129 f.)
  • Notes : Publication autorisée par le jury
  • Annexes : 107 réf.

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris Diderot - Paris 7. Service commun de la documentation. Bibliothèque Universitaire des Grands Moulins.
  • PEB soumis à condition
  • Cote : TS (2007) 002
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.