Shape grammar parsing : application to image-based modeling

par Olivier Teboul

Thèse de doctorat en Mathématiques appliquées

Sous la direction de Nikos Paragios.

Le président du jury était Marc Schoenauer.

Le jury était composé de Nikos Paragios, Sylvain Lefebvre, Jiri Matas, Marc Pollefeys, Carsten Rother.

  • Titre traduit

    Grammaires de formes pour analyse d'images : application à la modélisation automatique


  • Résumé

    L’objectif de cette thèse était de résoudre le problème d’analyse d’image de façade avec a priori de forme procédurale en vue de l’appliquer à la modélisation 3D d’immeuble à partir d’une seule image. Le cadre de cette thèse se situe à la frontière de l’informatique graphique et de la vision par ordinateur, tant d’un point de vue des méthodes employées que des applications potentielles.Deux approches complémentaires ont été proposées: une méthode dite ascendante qui cherche à regrouper des régions similaires de l’image afin de révéler la structure sous-jacente de la façade ; et une méthode dite descendante basée sur les puissants principes de l’apprentissage par renforcement. Ce nouvel algorithme combine des mesures locales issues de méthodes d’apprentissage supervisé dans une optimisation globale d’un Processus de Décision Markovien, qui découvre la grammaire du bâtiment au fil des itérations.Ces deux méthodes ont été évaluées qualitativement et quantitativement. Les résultats ainsi obtenus, se sont avérés bien meilleurs que l’état de l’art sur le plan de la rapidité, de la qualité de segmentation, mais également au niveau de la flexibilité de la méthode et de ses extensions éventuelles. Cet algorithme a été abondamment testé sur différents types de grammaires de formes, sur différents styles architecturaux, avec différentes mesures sur les images, et s’est avéré particulièrement robuste aux conditions d’illuminations et aux occlusions.En conclusion, les grammaires de formes peuvent être utilisées comme une pierre de Rosette afin de déchiffrer le langage de l’architecture et permettent ainsi de modéliser un bâtiment 3D à partir d’une unique image, à travers un nouvel algorithme issu de l’apprentissage par renforcement. D’une part la méthode développée apporte une réponse au problème de reconstruction urbaine 3D à large échelle à partir d’images, et d’autre part elle laisse entrevoir de potentielles applications de l’apprentissage par renforcement en vision par ordinateur, domaine qui jusqu’alors ne s’y était que très peu intéressé.


  • Résumé

    The purpose of this thesis was to perform facade image parsing with shape grammars in order to tackle single-view image-based 3D building modeling. The scope of the thesis was lying at the border of Computer Graphics and Computer Vision, both in terms of methods and applications.Two different and complementary approaches have been proposed: a bottom-up parsing algorithm that aimed at grouping similar regions of a facade image so as to retrieve the underlying layout, and a top-down parsing algorithm based on a very powerful framework: Reinforcement Learning. This novel parsing algorithm uses pixel-wise image supports based on supervised learning in a global optimization of a Markov Decision Process.Both methods were evaluated quantitatively and qualitatively. The second one was proved to support various architectures, several shape grammars and image supports, and showed robustness to challenging viewing conditions; illumination and large occlusions. The second method outperformed the state-of-the-art both in terms of segmentation and speed performances. It also provides a much more flexible framework, in which many extensions may be envisioned.The conclusion of this work was that the problem of single-view image-based 3D building modeling could be solved elegantly by using shape grammar as a Rosetta stone to decipher the language of Architecture through a well-suited Reinforcement Learning formulation. This solution was a potential answer to large-scale reconstruction of urban environments from images, but also suggested the possibility of introducing Reinforcement Learning in other vision tasks such as generic image parsing, where it have been barely explored so far.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?

  • Bibliothèque : CentraleSupélec. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.