Modélisation et apprentissage de relations spatiales pour la reconnaissance et l’interprétation d’images

par Michaël Clément

Thèse de doctorat en Informatique

Sous la direction de Laurent Wendling.

Soutenue le 26-09-2017

à Sorbonne Paris Cité , dans le cadre de École doctorale Informatique, télécommunications et électronique (Paris) , en partenariat avec Université Paris Descartes (établissement de préparation) et de Laboratoire d'Informatique Paris Descartes (laboratoire) .


  • Résumé

    Ces dernières années, la quantité de données visuelles produites par divers types de capteurs est en augmentation permanente. L'interprétation et l'indexation automatique de telles données constituent des défis importants pour les domaines liés à la reconnaissance de formes et la vision par ordinateur. Dans ce contexte, la position relative des différents objets d'intérêt composant les images représente une information particulièrement importante pour interpréter leur contenu. Les relations spatiales sont en effet porteuses d'une sémantique riche, qui est fortement liée à la perception humaine. Les travaux de recherche présentés dans cette thèse proposent ainsi d'explorer différentes approches génériques de description de l'information spatiale, en vue de les intégrer dans des systèmes de reconnaissance et d'interprétation d'images de haut niveau. Tout d'abord, nous présentons une approche pour la description de configurations spatiales complexes, où les objets peuvent être imbriqués les uns dans les autres. Cette notion est formalisée par deux nouvelles relations spatiales, nommées enlacement et entrelacement. Nous proposons un modèle qui permet de décrire et de visualiser ces configurations avec une granularité directionnelle. Ce modèle est validé expérimentalement pour des applications en imagerie biomédicale, en télédétection et en analyse d'images de documents. Ensuite, nous présentons un cadre d'apprentissage de relations spatiales composites à partir d'ensembles d'images. Inspirée des approches par sacs de caractéristiques visuelles, cette stratégie permet de construire des vocabulaires de configurations spatiales apparaissant dans les images, à différentes échelles. Ces caractéristiques structurelles peuvent notamment être combinées avec des descriptions locales, conduisant ainsi à des représentations hybrides et complémentaires. Les résultats expérimentaux obtenus sur différentes bases d'images structurées permettent d'illustrer l'intérêt de cette approche pour la reconnaissance et la classification d'images.

  • Titre traduit

    Modeling and learning spatial relations for image recognition and understanding


  • Résumé

    In recent years, the amount of visual data produced by various types of sensors has been continuously increasing. The automatic interpretation and indexation of such data constitute an important challenge in the fields of pattern recognition and computer vision. In this context, the relative position of the different objects of interest depicted in images represents particularly important information for the interpretation of their content. Spatial relations indeed carry rich semantics that are strongly tied with human perception. The research work presented in this thesis thus proposes to explore different generic approaches to the description of spatial information, in order to integrate them in high-level image recognition and understanding systems. First, we present an approach for the description of complex spatial configurations, where objects can be imbricated in each other. This notion is formalized by two novel spatial relations, namely enlacement and interlacement. We propose a model to describe and to visualize these configurations with directional granularity. This model is experimentally validated for applications in biomedical imaging, remote sensing and document image analysis. Then, we present a framework for learning composite spatial relations from image datasets. Inspired by bags of visual features approaches, this strategy allows to build vocabularies of spatial configurations occurring across images, at different scales. These structural features can notably be combined with local descriptions, leading to hybrid and complementary representations. Experimental results obtained for different datasets of structured images highlight the interest of this approach for image recognition and classification tasks.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paris Descartes-Bibliothèque électronique. Service commun de la documentation. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.