Structuration automatique de talk shows télévisés

par Félicien Vallet

Thèse de doctorat en Signal et images

Sous la direction de Gaël Richard et de Jean Carrive.

Soutenue en 2011

à Paris, Télécom ParisTech .


  • Résumé

    Les problématiques modernes de conservation du patrimoine numérique ont rendu les compagnies professionnelles d’archivage demandeuses de nouveaux outils d’indexation et en particulier de méthodes de structuration automatique. Dans cette thèse, nous nous intéressons à un genre télévisuel à notre connaissance peu analysé : le talk show. Inspirés de travaux issus de la communauté des sciences humaines, nous proposons, tout d’abord, une réflexion sur la structuration d’émissions de talk show. Ensuite, ayant souligné qu’un schéma de structuration ne peut avoir de sens que s’il s’inscrit dans une démarche de résolution de cas d’usage, nous proposons une évaluation de l’organisation ainsi dégagée au moyen d’une expérience utilisateur. Cette dernière met en avant l’importance des locuteurs et l’avantage d’utiliser le tour de parole comme entité atomique en lieu et place du plan (shot), traditionnellement adopté dans les travaux de structuration. Ayant souligné l’importance de la segmentation en locuteurs pour la structuration d’émissions de talk show, nous y consacrons spécifiquement la seconde partie de cette thèse. Nous proposons tout d’abord un état de l’art des techniques utilisées dans ce domaine de recherche. Ensuite sont présentés les résultats d’un premier travail de détection et regroupement des tours de parole. Puis, un système original exploitant de manière plus efficace l’information visuelle est enfin proposé. La validité de la méthode présentée est testée sur les corpus d’émissions Le Grand Échiquier et On n’a pas tout dit. Au regard des résultats, notre dernier système se démarque avantageusement des travaux de l’état de l’art.

  • Titre traduit

    Automatic structuring of TV talk shows


  • Résumé

    Archives professionals have high expectations for efficient indexing tools. In particular, the purpose of archiving TV broadcasts has created an expanding need for automatic content structuring methods. In this thesis, is addressed the task of structuring a particular type of TV content that has been scarcely studied in previous works, namely talk show programs. The object of this work is examined in the light of a number of sociological studies, with the aim to identify relevant prior knowledge on the basis of which the structuring approach is motivated. Then, having highlighted that a structuring scheme should be assessed according to specific use cases, a user-based evaluation is undertaken. The latter stresses out the relevance of considering the speakers’ interventions as elementary structural units instead of video shots usually employed in similar studies. Having emphasised the importance of speaker oriented detectors, the second part of this thesis is thus put on speaker diarization methods. We first propose a state of the art of the techniques — particularly unsupervised ones — used in this research domain. Then, results on a first speaker diarization system are presented. Finally, a more original system exploiting efficiently audiovisual information is finally proposed. Its validity is tested on two talk show collections : Le Grand Échiquier and On n’a pas tout dit. The results show that this new system outperforms state of the art methods. Besides, it strengthens the interest of using visual cues — even for tasks that are considered to be exclusively audio such as speaker diarization — and kernel methods in a multimodal context.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (IV-189 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : 167 réf. bibliogr. Résumé en français et en anglais

Où se trouve cette thèse ?

  • Bibliothèque : Télécom ParisTech. Bibliothèque scientifique et technique.
  • Disponible pour le PEB
  • Cote : 8.642 VALL
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.