Thèse de doctorat en Systèmes automatiques
Sous la direction de Michel Devy et de André Monin.
Soutenue en 2007
à Toulouse, INPT .
Vers la cartographie et localisation visuelles, avec détection et suivi d'objets mobiles par un robot mobile : une approche géométrique et probabiliste
In this thesis we solve the problem of simultaneously reconstructing a representation of the world geometry, the observer trajectory, and the moving objects trajectories, with the aid of vision. We proceed by dividing the problem into three steps. First, we give a solution to the Simultaneous Localization And Mapping problem (SLAM) for monocular vision that is able to adequately perform in the most ill-conditioned situations : those where the observer approaches the scene in straight line. Second, we incorporate instantaneous 3D observability by duplicating vision hardware with monocular algorithms. This eliminates inherent drawbacks of classic stereo systems. Third, we add detection and tracking of moving objects by making use of this full 3D observability. We choose a sparse, punctual representation of both the world and the moving objects. The computational payload of the perception algorithms is alleviated focusing the attention to those image regions with the highest interest.
Dans cette thèse, nous résolvons le problème de construire simultanément une représentation de la géométrie du monde, de la trajectoire de l'observateur, et de la trajectoire des objets mobiles à l'aide de la vision. Nous divisons le problème en trois étapes. D'abord nous donnons une solution au problème de la cartographie et localisation simultanées pour la vision monoculaire qui fonctionne dans les situations les moins bien conditionnées géométriquement. Ensuite, nous incorporons l'observabilité 3D instantanée en dupliquant le matériel de vision avec traitement monoculaire. Ceci élimine des inconvénients inhérents aux systèmes stéréo classiques. Nous ajoutons enfin la détection et suivi des objets mobiles proches en nous servant de cette observabilité 3D. Nous choisissons une représentation éparse et ponctuelle du monde et ses objets. La charge calculatoire des algorithmes de perception est allégée en focalisant activement l'attention aux régions de l'image avec plus d'intérêt.