Réseaux de neurones interactifs pour l'analyse de scènes acquises par drone

par Gaston Lenczner

Projet de thèse en Traitement du signal et des images

Sous la direction de Guy Le besnerais et de Bertrand Le saux.


  • Résumé

    Ce projet s'inscrit dans le cadre d'une collaboration entre la société Delair et l'ONERA. Delair se spécialise dans la modélisation d'infrastructures industrielles. Les acquisitions sont effectuées par des drones qui collectent des données non structurées, images ou nuages de points LIDAR. La modélisation des scènes s'appuie sur les reconstructions géométriques et sémantiques. Bien que parfois étudiés de concert, ces aspects sont en général traités séparément. Si la reconstruction 3D arrive à maturité, la découverte sémantique n'est quant à elle pas résolue. La thèse proposée vise une réponse conjointe à ces deux problématiques. Elle a de plus pour but d'améliorer la synergie entre l'utilisateur et les algorithmes de découverte sémantique. Elle s'inscrit dans le cadre de l'apprentissage interactif. L'objectif est de proposer des méthodes pour apprendre la sémantique d'une scène d'une part en prenant en compte les annotations successives de l'utilisateur et d'autre part en réduisant le coût d'apprentissage (quantité de données et temps d'apprentissage). Dans ce but plusieurs problématiques seront abordées au cours de la thèse : 1. Comment interagir avec des réseaux de neurones pour l'apprentissage ? D'ordre général, l'entraînement des réseaux de neurones sont fait hors ligne et les résultats utilisés directement sans pouvoir les modifier. Pour introduire de l'interactivité avec les méthodes d'apprentissage une réflexion est nécessaire pour que le modèle prenne en compte les nouvelles informations sans pour autant perdre sa généricité. Des approches existent, comme le boosting, qui se base sur une multitude descripteurs pré-appris et un modèle dont l'optimisation est rapide pour gérer l'interactivité. Cependant, la généralisation de ces approches aux réseaux de neurones appris de bout en bout est une question ouverte. De plus la qualité des annotations d'entrée lors de la phase d'échange avec l'utilisateur est à prendre en compte : les masques d'objets, idéal pour apprendre sont en général fastidieux à produire et l'algorithme doit être capable d'ingérer de nouveaux exemples sous forme de boîte englobante ou au mieux, de polygones. 2. Comment apprendre sur une base de données limitée, comment choisir ces données d'apprentissage ? Dans le continuité du problème précédent, la quantité des données est un obstacle. L'annotation interactive produit relativement peu de données. De plus comme l'objectif est de faciliter la tâche de l'utilisateur, il est nécessaire de réduire ces annotations au minimum. Les approches développées doivent donc être utilisables avec peu de données lors de la phase d'interaction, une grande quantité de données hors ligne pouvant être utilisée au préalable, lors d'un pré-entraînement. 3. Comment se servir du contexte pour aider d'apprentissage ? Enfin, le contexte et l'a priori sur la scène sont importants pour déterminer le type d'objet et d'éléments qu'on peut y trouver. Par exemple, la géolocalisation fournie par les drones offre la possibilité d'accès à OpenStreeMaps, et ainsi des informations complémentaires. De même, certains auteurs utilisent un mécanisme d'attention pour guider le réseau grâce à un tag associé à l'image. Outre les métadonnées créées lors de l'acquisition, une piste pour l'amélioration de la découverte sémantique et augmenter le confort d'utilisation est d'utiliser des annotations globales (par exemple un label grossier ou même des phrases de descriptions). La thèse abordera toutes ces problématiques méthodologiques en cherchant à produire des applications concrètes dans le domaine de l'interprétation de données aériennes collectées par drones.

  • Titre traduit

    Interactive learning strategies for neural networks based analysis of aerial scenes


  • Résumé

    The thesis proposed takes place within a Delair - ONERA collaboration. Delair specializes in industrial infrastructure modeling. Acquisitions are performed by drones that collect unstructured data, images or LIDAR point clouds. Scene modeling is based on geometric and semantic reconstructions. Although sometimes studied together, these aspects are usually treated separately. If 3D reconstruction matures, semantic discovery is not resolved. To propose joint answer to these two problems, the proposed thesis aims to improve the synergy between the user and the semantic discovery algorithms. It is part of interactive learning. The objective is to propose methods to learn the semantics of a scene on the one hand taking into account the successive annotations of the user and on the other hand by reducing the cost of learning (amount of data and time of learning). For this purpose several issues will be addressed during the thesis: 1. How to interact with neural networks for learning? In general, the training of neural networks is done offline and the results used directly, without modifications. To introduce interactivity with learning methods a reflection is necessary for the model to take into account new informations without losing its genericity. Approaches exist, such as boosting, which is based on a multitude of pre-learned descriptors and a model whose optimization is fast to manage interactivity. However, the generalization of these approaches to neural networks learned end-to-end is an open question. Moreover, the quality of the input annotations during the interaction with the user must be taken into account: the object masks, ideal for learning, are generally tedious to produce and the algorithm must be able to exploit new examples as a bounding box or even polygons. 2. How to learn about a limited database, how to choose the learning data? In continuity with the previous problem, the quantity of data is an obstacle. Interactive annotation produces relatively few data. Moreover, as the objective is to facilitate the task of the user, it is necessary to reduce these annotations to a minimum. The developed approaches must therefore be usable with little data during the interaction phase, although a large amount of offline data can be used beforehand during a pre-training. 3. How to use the context to help learning? Finally, context and a priori on the scene are important to determine the type of object and elements that can be found inside. For example, the geolocation provided by drones offers the possibility of access to OpenStreetMaps data, hence to use all additional information that it contains. In the same way, some authors use a mechanism of focusing to guide the network thanks to a tag associated with the image. In addition to the metadata created during the acquisition, a way to improve semantic discovery and increase user comfort is to use global annotations (for example, a coarse label or even descriptive sentences). The thesis will address all these methodological issues while seeking to produce practical applications in the field of interpretation of aerial data collected by drones.