Extraction multimodale de métadonnées de séquences vidéo dans un cadre bayésien

par Siwar Baghdadi

Thèse de doctorat en Traitement du signal et télécommunications

Sous la direction de Patrick Gros.

Soutenue en 2010

à Rennes 1 .


  • Résumé

    Le domaine de la description de contenus multimédias est un domaine relativement récent qui a pris une grande importance dans le monde industriel et celui de la recherche, vu l'augmentation considérable de la production de contenus. Un besoin grandissant de systèmes capables de fournir une description sémantique est plus que jamais à l'ordre du jour. Dans ce domaine, les réseaux bayésiens ont été largement utilisés pour modéliser les données vidéos, afin d'en extraire des métadonnées sémantiques. Toutefois, les systèmes basés sur les réseaux bayésiens nécessitent qu'on fixe préalablement leur structure. Cette opération se fait, généralement, soit en utilisant l'hypothèse d'indépendance des flux de données, ce qui résulte en un système peu optimal. Motivés par la nécessité de fournir des systèmes génériques capables de s'adapter à la grande diversité des applications envisageables, nous utilisons l'apprentissage de structure pour construire automatiquement le réseau bayésien. En apprenant la structure automatiquement à partir d'une base de données, nous n'avons plus besoin de connaissances externes ou de faire des suppositions, souvent peu réalistes, pour la mise en place de la structure du réseau bayésien utilisé. Nous concluons à la nécessité d'adapter l'apprentissage de structure dans les réseaux bayésiens statiques et dynamiques à la classification. En associant apprentissage de structure et sélection d'attributs, nous obtenons un cadre permettant de construire automatiquement des systèmes de descritpions de contenus sans être dépendants de connaissances externes.

  • Titre traduit

    Video metada extract using a bayesian framework


  • Résumé

    The description of multimedia contents field is a relatively recent one which takes a large importance in both industrial and research world, considering the massive increase of content production. A growing need for systems able to provide a semantic description is more than ever within the order of the day. In this domain, Bayesian networks are largely used to model the video data in order to extract semantic metadata. However, the bayesian networks based systems require a beforehand fixed structure. This operation is done, generally, wether using « a priori » knowledge, which results in a not very generalizable system, or by using the assumption of independence of the data flows, which results in a not very optimal system. Moved by the need for providing generic systems capable of adapting themselves to the great diversity of applicaitons, we use training of structure to automatically build the Bayesian network. By automatically learning the structure from a database, we no longer need external knowledge or not very realistic assumptions to build the structure of the used Bayesian network. Various structure training techniques were used. We conclude with the need to adapt training of structure in the static and dynamic Bayesian network in classification. By associating training of structure and selection of attributes, we obtain a framework allowing to automatically building content description systems without being dependent on external knowledge.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (123 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 115-120

Où se trouve cette thèse ?

  • Bibliothèque : Université de Rennes I. Service commun de la documentation. Section sciences et philosophie.
  • Disponible pour le PEB
  • Cote : TA RENNES 2010/7
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.