Détection et classification fines d'actions à partir de vidéos par réseaux de neurones à convolutions spatio-temporelles. Application au tennis de table.

par Pierre-etienne Martin

Projet de thèse en Informatique

Sous la direction de Jenny Benois-pineau.

Thèses en préparation à Bordeaux , dans le cadre de École doctorale de mathématiques et informatique , en partenariat avec LaBRI - Laboratoire Bordelais de Recherche en Informatique (laboratoire) et de Images et Son (equipe de recherche) depuis le 31-10-2017 .


  • Résumé

    La charte européenne du sport définit le sport comme « toutes formes d'activités physiques et sportives qui, à travers une participation organisée ou non, ont pour objectif l'expression ou l'amélioration de la condition physique et psychique, le développement des relations sociales ou l'obtention de résultats en compétition de tous niveaux .. » La démocratisation actuelle de l'accès aux nouvelles technologies permettant la collecte de données individuelles relatives à l'activité physique (applications pour smartphones, montres et vêtements connectés...) se doit d'être considérée comme une source d'information potentielle pour la recherche et l'innovation dans les domaines de la santé et du sport. La vidéo est souvent utilisée par les entraineurs et les sportifs pour analyser certaines séquences de jeux ou certains gestes techniques. Il existe des logiciels d'analyse vidéo permettant d'aider au séquençage temporel d'actions (par exemple au rugby : les touches, les mêlées…) mais les traitements avancés, comme la reconnaissance de ces actions ou l'analyse de tactiques de jeux, restent faits manuellement par l'utilisateur. Dans le cadre de la thèse de doctorat nous souhaitons développer des méthodes en vision par ordinateur pour permettre : 1) l'acquisition, 2) la reconnaissance, et 3) l'analyse de gestes sportifs. Le but est ainsi d'optimiser l'apprentissage et l'entrainement d'étudiants. De manière plus prospective, lorsque l'on considéra un sport d'opposition (tennis de table, rugby...), on cherchera à analyser les actions qui émergent lors d'une partie, l'objectif étant d'aller vers une analyse automatisée de tactiques de jeux. L'application type de notre étude concerne le tennis de table. Pour ce sport, la région de Nouvelle Aquitaine est un centre d'excellence. Toutefois, les méthodes qui seront développées dans ce projet viseront à être génériques et applicables à d'autres sports. La reconnaissance automatique d'actions et d'activités humaines dans des vidéos a reçu ces dernières années une attention particulière dans la communauté de la vision par ordinateur et d'indexation multimédia. En ce qui concerne les action sportives, dans le cadre de la thèse et dans le cadre d'acquisition de données déjà conçu dans nos travaux antérieurs nous nous attachons particulièrement à deux problèmes : 1) reconnaissance des éléments structurels des jeux, comme coups de tennis de table, 2)la caractérisation des gestes sportifs par trajectographie. Sur le plan méthodologique, la reconnaissance des actions sera fondée sur les outils d'apprentissage profond (Deep learning) qui montrent des performances supérieures par rapport aux outils basés sur l'appariement des descripteurs. Les données d'entrée pour l'entrainement et la généralisation par ces classifieurs seront extraites des flux dynamiques de la vidéo aussi bien dans l'espace couleur que dans l'espace du mouvement (flot optique). Une fois que les gestes du sportif ont été identifiés, l'objectif sera de pouvoir les caractériser et d'effectuer une analyse trajectographique du coup réalisé, et ainsi donner des indicateurs qualitatifs pouvant aider l'entraineur ou l'apprenant. L'analyse du geste sportif écologique ou sans marqueurs nécessite la détection et la caractérisation de points d'intérêts dans les vidéos ou les champs de déplacements que l'on va pouvoir analyser dans l'espace et dans le temps. L'hypothèse sous-jacente est que l'on va pouvoir, uniquement à partir des trajectoires de ces points d'intérêt, extraire des paramètres pertinents pour faire une analyse biomécanique du mouvement sportif et/ou reconnaître des actions dans une activité sportive.

  • Titre traduit

    Fine-grained action detection and classification from videos with spatio-temporal convolutional neural networks. Application to Table Tennis.


  • Résumé

    The European Sports Charter defines sport as 'all forms of physical and sport activities which, through organized and unorganized participation, aim to express or improve the physical and mental conditions, the development of social relations, or obtention of competitive results for all levels. ' The current democratization of access to new technologies allowing the collection of individual data on physical activity (applications for smartphones, watches and connected clothing ...) should be considered as a potential source of information for the research and innovation in the fields of health and sport. The video is often used by coaches and sportsmen to analyze certain sequences of games or certain technical gestures. There are video analysis software that can help with the temporal sequencing of actions (for example, rugby: keys, scrums ...) but advanced treatments, such as the recognition of these actions or the analysis of game tactics. , remain done manually by the user. As part of the doctoral thesis we want to develop methods in computer vision to allow: 1) the acquisition, 2) recognition, and 3) the analysis of sports gestures. The goal is to optimize the learning and training of students. In a more prospective way, when we consider a sport of opposition (table tennis, rugby ...), we will try to analyze the actions emerging during a game, the objective being to go towards an analysis automated game tactics. The typical application of our study concerns table tennis. For this sport, the region of New Aquitaine is a center of excellence. However, the methods that will be developed in this project will aim to be generic and applicable to other sports. The automatic recognition of actions and human activities in videos has received in recent years a particular attention in the community of computer vision and multimedia indexing. With regard to sporting activities, in the framework of the thesis and in the context of data acquisition already conceived in our previous work, we focus particularly on two problems: 1) recognition of the structural elements of games, such as table tennis strokes, 2) the characterization of sporting gestures by trajectography. Methodologically, the recognition of actions will be based on deep learning tools that show superior performance over tools based on descriptor matching. The input data for training and generalization by these classifiers will be extracted from the dynamic streams of the video both in the color space and in the movement space (optical flow). Once the athlete's actions have been identified, the goal will be to be able to characterize them and to perform a trajectory analysis of the stroke made, and thus provide qualitative indicators that can help the coach or the learner. The analysis of the ecological sport gesture (without markers or sensors) requires the detection and the characterization of points of interest in the videos or the fields of displacements that one will be able to analyze in the space and the time. The underlying hypothesis is that we will be able, only from the trajectories of these points of interest, to extract relevant parameters to make a biomechanical analysis of the sports movement and / or to recognize actions in a sporting activity.