Apprentissage de métriques et méthodes à noyaux appliqués à la reconnaissance de personnes dans les images

par Alexis Mignon

Thèse de doctorat en Informatique et applications

Sous la direction de Frédéric Jurie.

Soutenue en 2012

à Caen .


  • Résumé

    Nos travaux portent sur la reconnaissance des personnes dans des images vidéo en se basant principalement sur les visages. Nous nous intéressons aux étapes d’alignement et de reconnaissance, en supposant que les positions des visages dans les images sont connues. L’alignement vise à compenser les variations de position et d'orientation des visages, les rendant plus facilement comparables. Nous présentons une méthode de détection de points-clés basée sur une régression parcimonieuse. Elle permet de prédire le décalage entre les positions moyennes et réelles d'un point-clé à partir de l'apparence de l'image autour des positions moyennes. Nos contributions à la reconnaissance de visages reposent sur l'idée que deux représentations différentes d'une même personne devraient être plus proches, au sens d'une certaine mesure de distance, que celles de deux personnes distinctes. Nous proposons une méthode d’apprentissage de métriques vérifiant ces propriétés. L'approche est par ailleurs assez générale pour être en mesure d'apprendre une distance entre des modalités différentes. Les modèles utilisés dans nos approches sont linéaires. Pour pallier cette limitation, ces modèles sont étendus au cas non-linéaire grâce au «truc» du noyau. Une partie de cette thèse porte justement sur l'étude des propriétés des noyaux additifs homogènes, adaptés aux comparaisons d'histogrammes. Nous apportons notamment des résultats théoriques originaux sur la fonction de re-description du noyau de la moyenne puissance.

  • Titre traduit

    Metric learning and kernel methods for person recognition in images


  • Résumé

    Our work is devoted to person recognition in video images and focuses mainly on faces. We are interested in the registration and recognition steps, assuming that the locations of faces in the images are known. The registration step aims at compensating the location and pose variations of the faces, making them easier to compare. We present a method to predict the location of key-points based on sparse regression. It predicts the offset between average and real positions of a key-point from the appearence of the image around the average positions. Our contributions to face recognition rely on the idea that two different representations of faces of the same person should be closer, with respect to a given distance measure, than those of two different persons. We propose a metric learning method that verifies these properties. Besides, the approach is general enough to be able to learn a distance between different modalities. The models we use in our approaches are linear. To alleviate this limitation, they are extended to the non-linear case through the use of the kernel trick. A part of this thesis precisely deals with the properties of additive homogeneous kernels, well adapted for histogram comparisons. We especially present some oringal theoretical results on the feature map of the power mean kernel.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (116 p.)
  • Annexes : Bibliogr. p.109-116

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Caen Normandie. Bibliothèque Rosalind Franklin (Sciences-STAPS).
  • Non disponible pour le PEB
  • Cote : TCAS-2012-48
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.