Segmentation et identification audiovisuelle de personnes dans des journaux télévisés

Paul Gay

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Paul Gay
Direction :	Paul Deléglise, Jean-Marc Odobez, Sylvain Meignier
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 25/03/2015
Etablissement(s) :	Le Mans
Ecole(s) doctorale(s) :	École doctorale Sciences et technologies de l'information et mathématiques (Nantes)
Partenaire(s) de recherche :	Laboratoire : Laboratoire d'informatique de l'Université du Mans - Laboratoire d'Informatique de l'Université du Maine / LIUM

Mots clés

FR |

EN

Mots clés contrôlés

Empreintes vocales

Perception des visages

Identification automatique

Identification des personnes

Mots clés libres

Regroupement audiovisuel

Journaux télévisés

Champ conditionnel aléatoire

Identification de personnes

Résumé

FR |

EN

Cette thèse traite de l’identification des locuteurs et des visages dans les journaux télévisés. L’identification est effectuée à partir des noms affichés à l’écran dans les cartouches qui servent couramment à annoncer les locuteurs. Puisque ces cartouches apparaissent parcimonieusement dans la vidéo, obtenir de bonnes performances d’identification demande une bonne qualité du regroupement audiovisuel des personnes. Par regroupement, on entend ici la tâche de détecteret regrouper tous les instants où une personne parle ou apparaît. Cependant les variabilités intra-personnes gênent ce regroupement. Dans la modalité audio, ces variabilités sont causées par la parole superposée et les bruits de fond. Dans la modalité vidéo, elles correspondent essentiellement à des variations de la pose des visages dans les scènes de plateaux avec, en plus, des variations de luminosité (notamment dans le cas des reportages). Dans cette thèse, nous proposons une modélisation du contexte de la vidéo est proposée afin d’optimiser le regroupement pour une meilleure identification. Dans un premier temps, un modèle basé sur les CRF est proposé afin d’effectuer le regroupement audiovisuel des personnes de manière jointe. Dans un second temps, un système d’identification est mis en place, basé sur la combinaison d’un CRF de nommage à l’échelle des classes, et du CRF développé précédemment pour le regroupement. En particulier, des informations de contexte extraites de l’arrière plan des images et des noms extraits des cartouches sont intégrées dans le CRF de regroupement. Ces éléments permettent d’améliorer le regroupement et d’obtenir des gains significatifs en identification dans les scènes de plateaux.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Segmentation et identification audiovisuelle de personnes dans des journaux télévisés

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Segmentation et identification audiovisuelle de personnes dans des journaux télévisés

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses