Méthodes d'apprentissage profondes pour la vidéo interprétation

par Gul Varol (Varol simsekli)

Projet de thèse en Mathématiques

Sous la direction de Ivan Laptev.

Thèses en préparation à Paris Sciences et Lettres , dans le cadre de École doctorale de Sciences mathématiques de Paris Centre (Paris) , en partenariat avec LIENS - Laboratoire d'informatique de l'École normale supérieure (laboratoire) et de École normale supérieure (Paris ; 1985-....) (établissement de préparation de la thèse) depuis le 01-11-2015 .


  • Résumé

    L'objectif de cette thèse est de développer de nouveaux modèles et de méthodes d'apprentissage à décrire et reconnaître le contenu de la vidéo dynamique, tels que les actions humaines et des événements dynamiques dans la télévision et les vidéos Youtube. Le projet se fondera sur les progrès récents dans l'apprentissage en profondeur et le transfert de représentations d'image en utilisant des réseaux neuronaux de convolution (CNNs), ainsi que les progrès récents dans l'utilisation des réseaux de neurones artificiels pour la modélisation des séries temporelles. Bien que les méthodes d'apprentissage en profondeur ont eu un grand succès pour la reconnaissance d'image, leur performance pour la reconnaissance des événements dynamiques a été limitée jusqu'à présent. Cette thèse aura pour but de combler cette lacune en développant un nouvel espace-temps architectures CNN et de l'exploitation des données vidéo de synthèse pour la formation à grande échelle.

  • Titre traduit

    Deep learning methods for video interpretation


  • Résumé

    The goal of this thesis is to develop new models and learning approaches to describe and recognize dynamic video content, such as human actions and dynamic events in TV and Youtube videos. The project will build on the recent break-through advances in deep learning and transferring image representations using convolutional neural networks (CNNs) as well as recent advances in using artificial neural networks for time-series modeling. While deep learning methods have had a great success for image recognition, their performance for recognizing dynamic events has been limited so far. This PhD will aim to bridge this gap by developing new space-time CNN architectures and exploiting synthetic video data for large-scale training.