Thèse de doctorat en Automatique, traitement du signal et des images
Sous la direction de François Brémond.
Soutenue en 2009
à Nice , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication (Sophia Antipolis, Alpes-Maritimes) .
Reconnaissance de gestes à partir de séquences vidéos
Dans cette thèse, nous voulons reconnaître les gestes (par ex. Lever la main) et plus généralement les actions brèves (par ex. Tomber, se baisser) effectués par un individu. De nombreux travaux ont été proposés afin de reconnaître des gestes dans un contexte précis (par ex. En laboratoire) à l’aide d’une multiplicité de capteurs (par ex. Réseaux de cameras ou individu observé muni de marqueurs). Malgré ces hypothèses simplificatrices, la reconnaissance de gestes reste souvent ambiguë en fonction de la position de l’individu par rapport aux caméras. Nous proposons de réduire ces hypothèses afin de concevoir un algorithme général permettant de reconnaître des gestes d’un individu évoluant dans un environnement quelconque et observé `a l’aide d’un nombre réduit de caméras. Il s’agit d’estimer la vraisemblance de la reconnaissance des gestes en fonction des conditions d’observation. Notre méthode consiste `a classifier un ensemble de gestes `a partir de l’apprentissage de descripteurs de mouvement. Les descripteurs de mouvement sont des signatures locales du mouvement de points d’intérêt associés aux descriptions locales de la texture du voisinage des points considérés. L’approche a été validée sur une base de données de gestes publique KTH et des résultats encourageants ont été obtenus.
In this thesis, we aim to recognize gestures (e. G. Hand raising) and more generally short actions (e. G. Fall, bending) accomplished by an individual. Many techniques have already been proposed for gesture recognition in specific environment (e. G. Laboratory) using the cooperation of several sensors (e. G. Camera network, individual equipped with markers). Despite these strong hypotheses, gesture recognition is still brittle and often depends on the position of the individual relatively to the cameras. We propose to reduce these hypotheses in order to conceive general algorithm enabling the recognition of the gesture of an individual involving in an unconstrained environment and observed through limited number of cameras. The goal is to estimate the likelihood of gesture recognition in function of the observation conditions. Our method consists of classifying a set of gestures by learning motion descriptors. These motion descriptors are local signatures of the motion of corner points which are associated with their local textural description. We demonstrate the effectiveness of our motion descriptors by recognizing the actions of the public KTH database.