Thèse soutenue

Amélioration de stratégies d'entrainements et développement de modèles pour le suivi d'objets multiple

FR  |  
EN
Auteur / Autrice : Yihong Xu
Direction : Xavier Alameda-PinedaRadu Horaud
Type : Thèse de doctorat
Discipline(s) : Mathématiques et informatique
Date : Soutenance le 08/06/2022
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire Jean Kuntzmann (Grenoble)
Equipe de recherche : Equipe-projet Apprentissage, perception et commande pour des robots sociaux (Montbonnot, Isère ; 2021-....)
Jury : Président / Présidente : Éric Gaussier
Examinateurs / Examinatrices : Jakob Verbeek
Rapporteurs / Rapporteuses : Patrick Perez, Niculae Sebe

Résumé

FR  |  
EN

Le suivi d'objets multiple (MOT) vise à fournir les trajectoires des objets présents dans une séquence vidéo donnée. Le suivi d'objets multiple est un problème complexe. Dans une trajectoire, l'objet doit conserver une identité cohérente et inclure toutes ses positions au court du temps.Une approche prédominante de MOT est appelée suivi par détection: elle détecte d'abord toutes les positions d'objets dans la vidéo, puis tente de les associer temporellement en dépit du risque d'occlusion, de (ré)apparition et disparition d'objets. Par conséquent, le MOT s'appuie à la fois sur sa capacité à bien détecter les objets et sur la cohérence de son association temporelle. Ces problèmes sont généralement traités comme deux sous-tâches de la vision par ordinateur : l'une visant à détecter les objets et l'autre à trouver l'association temporelle entre detections. Avec le développement rapide des méthodes basées sur l'apprentissage profond, des méthodes MOT ont été proposé avec succès. Cependant, elles sont toujours entraînées avec des fonctions de coût distinctes, directement transférées de leurs sous-tâches respectives : une fonction de coût pour la régression de la position des detections, et une pour la classification/identification d'objets afin de résoudre l'association temporelle. Au contraire, les évaluations standard de MOT utilisent des métriques unifiées qui prennent en compte à la fois les détections manquées, les fausses détections et les changements d'identité des objets. Pour combler ce fossé entre entraînement et évaluation, nous proposons une approche novatrice pour le MOT -deepMOT- utilisant ces métriques d'évaluation comme fonctions de coût, et généralisable à n'importe quelle méthode de MOT profonde. Ces dernières années, le MOT est devenu plus complexe à cause de la densité importante des objets trackés dans les scènes issues des nouveaux datasets. Ces scénarios aux interactions complexes nous a incité à tirer parti de la capacité à saisir les dépendances globales des architectures transformers. À cette fin, nous proposons une nouvelle méthode MOT -TransCenter-, et présentant des performances de tracking supérieures à celles de l'état de l'art. Toutes les méthodes ci-dessus sont construites sur des bases de données d'entraîneme nt fournissant les annotations d'identité et de position des objets. Dans un contexte plus réaliste d'entraînement de ces méthodes à un environnement cible spécifique (laboratoire, lieux publique ect), ces annotations ne sont disponibles que pour un sous-ensemble de données. Pour résoudre ce problème, nous proposons une approche non supervisée - DAUMOT - qui surmonte cette limitation par le biais de stratégies d'adaptation de domaine non supervisé.