Reconnaissance et modélisation des actions de manipulation
Auteur / Autrice : | Nachwa Abou Bakr |
Direction : | James L Crowley, Rémi Ronfard |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 12/06/2020 |
Etablissement(s) : | Université Grenoble Alpes |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'informatique de Grenoble (Isère, France ; 2007-....) |
Jury : | Président / Présidente : Marie-Christine Rousset |
Examinateurs / Examinatrices : Daniel Roggen | |
Rapporteurs / Rapporteuses : Bernt Schiele, Christian Wolf |
Mots clés
Mots clés contrôlés
Résumé
Cette thèse aborde le problème de la reconnaissance, de la modélisation et de ladescription des activités humaines. Nous décrivons nos résultats sur trois problèmes : (1) l’utilisation de l’apprentissage par transfert pour la reconnaissance visuelle simultanée d’objets et de leur état, (2) la reconnaissance d’actions de manipulation à partir de transitions d’états, et (3) l’interprétation d’une série d’actions et d’états comme les événements d’une histoire prédéfinie afin d’en construire une description narrative.Ces résultats ont été développés en utilisant les activités culinaires comme domaine expérimental. Nous commençons par reconnaître les ingrédients comme les tomates et la laitue et les ingrédients tranchés et coupés en dés pendant la préparation d’un repas. Nous adaptons l’architecture VGG afin d’apprendre conjointement les représentations des ingrédients et de leurs états selon une approche par transfert d’apprentissage. Nous modélisons les actions en tant que transformations d’état d’objets. Nous détectons ainsi les actions de manipulation en suivant les transformations des propriétés correspondantes des objets (état et type) dans la vidéo. L’évaluation expérimentale de cette approche est réalisée en se servant des jeux de données 50 salads et EPIC-Kitchen. Nous utilisons les descriptions des actions qui en résultent pour construire les descriptions narratives des activités complexes observées dans les vidéos du jeu de données 50 salads.