Learning representations for robust audio-visual scene analysis | Theses.fr

Sanjeel Parekh

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Apprentissage de représentations pour l'analyse robuste de scènes audiovisuelles

FR |

EN

Auteur / Autrice :	Sanjeel Parekh
Direction :	Slim Essid
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 18/03/2019
Etablissement(s) :	Université Paris-Saclay (ComUE)
Ecole(s) doctorale(s) :	École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche :	établissement opérateur d'inscription : Télécom Paris (Palaiseau ; 1977-....)
	Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....)
Jury :	Président / Présidente : Laurent Girin
	Examinateurs / Examinatrices : Hervé Bredin, Nancy Bertin, Patrick Pérez, Gaël Richard
	Rapporteurs / Rapporteuses : Josef Sivic, Tuomas Virtanen

Mots clés

FR |

EN

Mots clés contrôlés

Audiovisuel numérique

Traitement du signal -- Techniques numériques

Mots clés libres

Apprentissage statistique

Traitement du signal audio

Vision par ordinateur

Analyse en variables latentes

Séparation de sources

Résumé

FR |

EN

L'objectif de cette thèse est de concevoir des algorithmes qui permettent la détection robuste d’objets et d’événements dans des vidéos en s’appuyant sur une analyse conjointe de données audio et visuelle. Ceci est inspiré par la capacité remarquable des humains à intégrer les caractéristiques auditives et visuelles pour améliorer leur compréhension de scénarios bruités. À cette fin, nous nous appuyons sur deux types d'associations naturelles entre les modalités d'enregistrements audiovisuels (réalisés à l'aide d'un seul microphone et d'une seule caméra), à savoir la corrélation mouvement/audio et la co-occurrence apparence/audio. Dans le premier cas, nous utilisons la séparation de sources audio comme application principale et proposons deux nouvelles méthodes dans le cadre classique de la factorisation par matrices non négatives (NMF). L'idée centrale est d'utiliser la corrélation temporelle entre l'audio et le mouvement pour les objets / actions où le mouvement produisant le son est visible. La première méthode proposée met l'accent sur le couplage flexible entre les représentations audio et de mouvement capturant les variations temporelles, tandis que la seconde repose sur la régression intermodale. Nous avons séparé plusieurs mélanges complexes d'instruments à cordes en leurs sources constituantes en utilisant ces approches.Pour identifier et extraire de nombreux objets couramment rencontrés, nous exploitons la co-occurrence apparence/audio dans de grands ensembles de données. Ce mécanisme d'association complémentaire est particulièrement utile pour les objets où les corrélations basées sur le mouvement ne sont ni visibles ni disponibles. Le problème est traité dans un contexte faiblement supervisé dans lequel nous proposons un framework d’apprentissage de représentation pour la classification robuste des événements audiovisuels, la localisation des objets visuels, la détection des événements audio et la séparation de sources.Nous avons testé de manière approfondie les idées proposées sur des ensembles de données publics. Ces expériences permettent de faire un lien avec des phénomènes intuitifs et multimodaux que les humains utilisent dans leur processus de compréhension de scènes audiovisuelles.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Apprentissage de représentations pour l'analyse robuste de scènes audiovisuelles

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Apprentissage de représentations pour l'analyse robuste de scènes audiovisuelles

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses