Toward robust information extraction models for multimedia documents

par Ali Reza Ebadat

Thèse de doctorat en Informatique

Sous la direction de Paul Sébillot.

Soutenue en 2012

à Rennes, INSA .


  • Résumé

    L'énorme quantité de documents multimédias constamment générés incite au développement de méthodes d'analyse automatique. Dans ce cadre, notre objectif est de faciliter ce processus en extrayant des informations à partir de n'importe quel texte relatif à ces documents. En outre, nous voulons des techniques suffisamment robustes pour traiter des données bruitées et de petite taille. Pour ce faire, nous utilisons des techniques simples nécessitant peu de connaissances externes comme une garantie de robustesse. Plus précisément, nous utilisons des techniques inspirées de la recherche d'information et de l'analyse statistique. Dans cette thèse, nous montrons expérimentalement que des techniques simples, sans connaissance a priori peuvent être utiles pour extraire efficacement les informations à partir du texte. Dans notre cas, ces bons résultats ont été obtenus en choisissant une représentation adaptée pour les données au lieu d'exiger de traitements complexes.

  • Titre traduit

    Toward Robust Information Extraction Models for Multimedia Documents


  • Résumé

    Due to the huge amounts of multimedia documents that have been generated, researchers studied approaches to manage them. Our goal is to facilitate this process by extracting information from any text related to such documents. Moreover, we want techniques robust enough to handle noisy and small data. We use simple and nowledge-light techniques as a guarantee of robustness. Indeed, we use statistical analysis of text and some techniques inspired from Information Retrieval. In this thesis, we experimentally show that simple techniques without a priori knowledge can be useful to effectively extract information from text. In our case, such results have indeed been achieved by choosing suited representation for the data instead of requiring complex processings.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol.161 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr.p.137-153 (164 réf.). Index

Où se trouve cette thèse ?

  • Bibliothèque : Institut National des Sciences Appliquées. Bibliothèque.
  • Disponible pour le PEB
  • Cote : THE EBA
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.