Thèse soutenue

Reconnaissance et modélisation des actions de manipulation

FR  |  
EN
Auteur / Autrice : Nachwa Abou Bakr
Direction : James L CrowleyRémi Ronfard
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 12/06/2020
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de Grenoble (Isère, France ; 2007-....)
Jury : Président / Présidente : Marie-Christine Rousset
Examinateurs / Examinatrices : Daniel Roggen
Rapporteurs / Rapporteuses : Bernt Schiele, Christian Wolf

Résumé

FR  |  
EN

Cette thèse aborde le problème de la reconnaissance, de la modélisation et de ladescription des activités humaines. Nous décrivons nos résultats sur trois problèmes : (1) l’utilisation de l’apprentissage par transfert pour la reconnaissance visuelle simultanée d’objets et de leur état, (2) la reconnaissance d’actions de manipulation à partir de transitions d’états, et (3) l’interprétation d’une série d’actions et d’états comme les événements d’une histoire prédéfinie afin d’en construire une description narrative.Ces résultats ont été développés en utilisant les activités culinaires comme domaine expérimental. Nous commençons par reconnaître les ingrédients comme les tomates et la laitue et les ingrédients tranchés et coupés en dés pendant la préparation d’un repas. Nous adaptons l’architecture VGG afin d’apprendre conjointement les représentations des ingrédients et de leurs états selon une approche par transfert d’apprentissage. Nous modélisons les actions en tant que transformations d’état d’objets. Nous détectons ainsi les actions de manipulation en suivant les transformations des propriétés correspondantes des objets (état et type) dans la vidéo. L’évaluation expérimentale de cette approche est réalisée en se servant des jeux de données 50 salads et EPIC-Kitchen. Nous utilisons les descriptions des actions qui en résultent pour construire les descriptions narratives des activités complexes observées dans les vidéos du jeu de données 50 salads.