Fusion multi-niveaux pour l'indexation et la recherche multimédia par le contenu sémantique

par Rachid Benmokhtar

Thèse de doctorat en Signal et images

Sous la direction de Benoit Huet.

Soutenue en 2009

à Paris, Télécom ParisTech .


  • Résumé

    Today, the access to documents in databases, archives and Internet is mainly through textual data : image names or keywords. This search is not without faults : spelling, omission, etc. The recent advances in the field of image analysis and machine learning could provide solutions such as features-based indexing and retrieval, using color, shape, texture, motion, audio and text. These features are rich in information, especially from the semantic point of view. This thesis deals with information retrieval and aims at semantic indexing of multimedia documents : video shots and key-frames. Indexing is an operation that consists of extracting, representing and organizing the content of documents in a database. The state of the art is confronted with the"semantic gap" problem between low-level visual representations and high-level features (concepts). To limit the consequences of this issue, we introduced into the system, different types of descriptors, while taking advantage the scientific advances in the field of machine learning and the multi-level fusion. Indeed, fusion is is used to combine several heterogeneous information from multiple sources, to obtain more complete, global and higher quality information. It can be applied to different levels of the classification process. Here, we studied the low-level feature fusion, high-level feature fusion and decision fusion. The proposed systems have been validated on data from TRECVid and football videos provided by Orange-France Telecom Labs. The obtained results reports the importance odf fusion at each level of the classification process, in particular the evidence theory contribution.

  • Titre traduit

    Multi-level fusion for content-based semantic multimedia indexing and retrieval


  • Résumé

    Aujourd'hui, l'accès aux documents dans les bases de données, d'archives et sur Internet s'effectue principalement grâce à des données textuelles : nom de l'image ou mots-clés. Cette recherche est non exempte de fautes plus ou moins graves : omission, orthographe, etc. Les progrès effectués dans le domaine de l'analyse d'images et de l'apprentissage automatique permettent d'apporter des solutions comme l'indexation et la recherche à base des caractéristiques telles que la couleur, la forme, la texture, le mouvement, le son et le texte. Ces caractéristiques sont riches en informations et notamment d'un point de vue sémantique. Cette thèse s'inscrit dans le cadre de l'indexation automatique par le contenu sémantique des documents multimédia: plans vidéo et images-clés. L'indexation consiste à extraire, représenter et organiser efficacement le contenu des documents d'une base de données. L'état de l'art du domaine est confronté au «fossé sémantique» qui sépare les représentations visuelles brutes (bas-niveau) et conceptuelles (haut-niveau). Pour limiter les conséquences de cette problématique, nous avons introduit dans le système plusieurs types de descripteurs, tout en prenant à notre avantage les avancées scientifiques dans le domaine de l'apprentissage automatique et de la ``fusion multi-niveaux''. En effet, la fusion est utilisée dans le but de combiner des informations hétérogènes issues de plusieurs sources afin d'obtenir une information globale, plus complète, de meilleure qualité, permettant de mieux décider et d'agir. Elle peut être appliquée sur plusieurs niveaux du processus de classification. Dans cette thèse, nous avons étudié la fusion bas-niveau (précoce), la fusion haut-niveau (tardive), ainsi qu'à un niveau décisionnel basé sur l'ontologie et la similarité inter-concepts dit de raisonnement. Les systèmes proposés ont été validés sur les données de TRECVid (projet NoE K-Space) et les vidéos de football issues d'Orange-France Télécom Labs (projet CRE-Fusion). Les résultats révèlent l'importance de la fusion sur chaque niveau du processus de classification, en particulier, l'usage de la théorie des évidences.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XVII-152 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : 171 réf. bibliogr. Résumé en français et en anglais

Où se trouve cette thèse ?

  • Bibliothèque : Télécom ParisTech. Bibliothèque scientifique et technique.
  • Disponible pour le PEB
  • Cote : 7.341 BENM
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.