Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle

par Julien Pinquier

Thèse de doctorat en Informatique

Sous la direction de Régine André-Obrecht.

Soutenue en 2004

à Toulouse 3 .


  • Résumé

    Le développement croissant des données numériques est confronté au manque d'outils automatiques efficaces. Dans ce cadre, plusieurs approches relatives à la structuration de la bande sonore sont proposées. Leurs buts sont de détecter les composantes primaires : la parole, la musique et les sons clés. Pour la classification parole/musique, 3 paramètres inhabituels sont extraits : la modulation de l'entropie, la durée des segments (issue d'une segmentation automatique) et le nombre de ces segments par seconde. Les informations issues de ces 3 paramètres sont fusionnées avec celle issue de la modulation de l'énergie à 4 hertz. Des expériences sur un corpus radiophonique montrent la robustesse de ces paramètres. Le système est comparé et fusionné à un système classique. Un autre partitionnement détecte des sons clés. La sélection de candidats est effectuée en comparant la " signature " de chacun des jingles au flux de données. Ce système est simple par sa mise en œuvre, rapide et efficace. Les applaudissements et les rires sont modélisés à l'aide de MMG dans le domaine spectral. Un corpus télévisuel valide cette étude par des résultats encourageants. La détection de mots clés est effectuée de manière classique : il ne s'agit pas ici d'améliorer les systèmes existants mais de se placer toujours dans un besoin de structuration : ces mots clés renseignent sur le type des émissions. Au travers de 2 études, une réflexion est conduite quant à l'utilisation de ces composantes afin de trouver une structure temporelle aux documents. La première étude permet une détection d'un motif récurrent dans une collection d'émissions, alors que la seconde réalise la structuration en thèmes d'un journal télévisé. Quelques pistes de réflexions sur l'apport de l'analyse vidéo sont développées.

  • Titre traduit

    Audio classification : search of primary components for audiovisual structuring


  • Pas de résumé disponible.


  • Résumé

    To process the quantity of audiovisual information available in a smart and rapid way, it is necessary to have robust and automatic tools. This work addresses the soundtrack indexing and structuring of multimedia documents. Their goals are to detect the primary components: speech, music and key sounds. For speech/music classification, three unusual parameters are extracted: entropy modulation, stationary segment duration (with a Forward-Backward Divergence algorithm) and the number of segments. These three parameters are merged with the classical 4 Hertz modulation energy. Experiments on radio corpora show the robustness of these parameters. The system is compared and merged with a classical system. Another partitioning consists in detecting pertinent key sounds. For jingles, the selection of candidates is done by comparing the "signature" of each jingle with the data flow. This system is simple, fast and efficient. Applause and laughter are based on GMM with spectral analysis. A TV corpus validates this study by encouraging results. The detection of key words is carried out in a traditional way: the problem here is not to improve the existing systems but to be in a structuring task: these key words inform about the program type (news, weather, documentary). Through two studies, a reflection is done for the component uses in order to find a temporal structure of the audiovisual documents. The first study is a detection of a recurring production invariant in program collections. The second permits to structure TV news into topics. Some examples of video analysis contribution are developed.

Autre version

Cette thèse a donné lieu à une publication en 2005 par [CCSD] à Villeurbanne

Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 209 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 201-208

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paul Sabatier. Bibliothèque universitaire de sciences.
  • Disponible pour le PEB
  • Cote : 2004TOU30267

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université de Lille. Service commun de la documentation. Bibliothèque universitaire de Sciences Humaines et Sociales.
  • Non disponible pour le PEB
  • Cote : 2004TOU30267
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.