Deep Learning pour la fusion multimodale d'images: application à l'analyse de scènes routières dans des conditions difficiles

par Sijie Hu

Projet de thèse en Traitement du signal et des images

Sous la direction de Dro Désiré Sidibé.

Thèses en préparation à université Paris-Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication , en partenariat avec IBISC - Informatique, BioInformatique, Systèmes Complexes (laboratoire) , SIAM : Signal, Image, AutoMatique (equipe de recherche) et de Université d'Évry-Val-d'Essonne (référent) depuis le 01-10-2020 .


  • Résumé

    Dans un avenir proche, quelques années, les véhicules autonomes deviendront un élément à part entière du trafic routier. Cette évolution technologique est rendue possible par le traitement de quantités massives de données fournies par différents types de capteurs intégrés dans les véhicules ou déployés tout au long de l'infrastructure routière. Parmi ces capteurs, les capteurs visuels ou caméras sont les plus utilisés car ils permettent de percevoir l'environnement dans son intégralité, de détecter des objets d'intérêt (autres véhicules et usagers de la route), d'estimer des distances ou de planifier une trajectoire, pour ne citer que quelques tâches. Pour faire face aux différentes conditions dans lesquelles un système visuel d'acquisition peut être employé, il est nécessaire de combiner les information de plusieurs capteurs pour former un système de vision multimodal. Toutefois, la fusion/combinaison effective d'informations issues de capteurs différents est un problème critique et difficile. Cette thèse s'efforcera de proposer de nouvelles méthodes de fusion pour une meilleure intégration de différentes modalités de vision. En particulier, nous nous intéresserons à la fusion au niveau des couches intermédiaires du réseau en utilisant des unités de déclenchement (gating units) spécifiques attribuant des poids par classe ou par modalité, et en utilisant les « skip connections » lier l'extraction précoce de caractéristiques et la prise de décision tardive. De plus, puisque la plupart des méthodes existantes sont inefficaces lorsque l'une des modalités n'est pas disponible, la thèse proposera des solutions fonctionnant en l'absence d'une ou plusieurs modalités en employant la paradigme de l'apprentissage avec une information privilégié (learning with privileged information). Afin de tenir compte du manque de données annotées dans certaines modalités, des approches d'apprentissage semi-supervisées seront privilégiées. En particulier, les méthodes de type « few shot learning ». Enfin, une attention particulière sera consacrée à la taille des réseaux développés, c'est-à-dire au nombre de paramètres afin d'assurer des temps d'inférence limités en accord avec les besoins dans les applications de robotique. La thèse comportera à la fois sur des travaux théoriques et des travaux expérimentaux. L'étudiant-e sélectionné-e devra mener des expériences réelles sur un véhicule expérimental disponible au laboratoire, pour valider les algorithmes proposés. L'équipe de recherche fournira tous le soutien et l'assistance technique nécessaires.

  • Titre traduit

    Deep multimodal visual data fusion for road scenes analysis in challenging weather conditions


  • Résumé

    It is expected that, in a couple of years, autonomous vehicles will become an element of road traffic. They will permanently exchange information with one another and with the road infrastructure. This is made possible by the processing of massive amounts of data provided by different types of sensors embedded in the vehicles or deployed all along the infrastructure. Among these sensors, visual sensors or cameras are the most critical ones since they provide the ability to perceive the surrounding environment, to detect objects of interest (other vehicles and road users), to estimate distances or to plan a trajectory, to name a few tasks. To cope with the different conditions in which a visual system might be used, it is necessary to combine multiple sensory inputs, thus building a multimodal vision system. However, the effective fusion/combination of different information types is a critical and difficult problem. This thesis will endeavor to propose new fusion methods for better integration of different vision modalities. In particular, we will investigate fusion at intermediate layers of a deep network using specific gating units assigning class-wise or modality-wise weights, and skip connections for linking early feature extraction and late decision making. Moreover, since most of the existing deep fusion models are ineffective when the supplementary modality is unavailable, we will consider the case of missing modality and adopt a learning with privileged information paradigm. In order to consider the lack of labeled data for some modalities, semi-supervised learning approaches will be preferred. In particular, few-shot learning methods. Finally, a special attention will be dedicated to the size of the deep networks, i.e. the number of parameters, in order to ensure fast inference time as needed in robotic applications. The PhD thesis will involve both theoretical and experimental works. The selected student will have to conduct real outdoor experiments, on an instrumented experimental vehicle available in the lab, to validate the proposed algorithms. The research team will provide all necessary guidance, training and technical assistance.