Thèse soutenue

Learning to Detect Keypoints with an Event-Based Camera
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Philippe Chiberre
Direction : Vincent Lepetit
Type : Thèse de doctorat
Discipline(s) : Signal, Image, Automatique
Date : Soutenance le 12/12/2022
Etablissement(s) : Marne-la-vallée, ENPC
Ecole(s) doctorale(s) : École doctorale Mathématiques, Sciences et Technologies de l'Information et de la Communication
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de l'Institut Gaspard Monge (1997-2009) - Laboratoire d'informatique de l'Institut Gaspard Monge (1997-2009)
Jury : Président / Présidente : Franck Davoine
Examinateurs / Examinatrices : Vincent Lepetit, Guillermo Gallego, Arren Glover, Cornelia Fermuller, Amos Sironi
Rapporteurs / Rapporteuses : Guillermo Gallego

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Les points clés sont à l’origine de multiples applications de vision par ordinateur telles que la réalité virtuelle ou augmentée et la robotique. Les caméras par événements, ou caméras neuromorphiques, ont par ailleurs de nombreux avantages pour les plateformes mobiles : une très faible consommation d’énergie, une grande plage dynamique et une résolution temporelle très faible (de l’ordre de la microseconde). L’objectif de cette thèse et de développer des algorithmes de détection de points clés pour les caméras par événements et permettre le transfère des algorithmes de vision historiques pour les images vers cette nouvelle plateforme. La première partie de la thèse présente les différentes approches possibles pour générer des données de points clés dans des flux d’événements tout en utilisant la vaste littérature de vision par ordinateur existante pour les images. La deuxième partie de la thèse présente un nouvel algorithme permettant de détecter des points d’intérêts en utilisant une représentation intermédiaire. En effet nous utilisons un réseau de neurones convolutionels et récurrent pour prédire les gradients de l’image correspondante aux événements. Nous utilisons ensuite le score de Harris qui utilise les gradients de l’image pour détecter des points d’intérêts. Cet algorithme obtient une erreur de reprojection de l’ordre de l’état de l’art tout en augmentant le temps de vie des trajectoires. Notre dernière contribution est un algorithme qui prédit directement les points d’intérêts depuis les événements sans représentation intermédiaire. Cette méthode, basée sur les données, réduit l’erreur de rerojection de l’état de l’art tout en multipliant par trois la longueur des trajectoires. Ces améliorations proviennent de deux éléments clés: une amélioration de la plateforme d’entraînement pour une meilleure cohérence temporelle des points d’intérêts et une prédiction de plusieurs cartes de chaleur simultanément pour une meilleure précision.