Détection et classification d'objets dans des images numériques

par Ghulam-sakhi Shokouh

Projet de thèse en Informatique

Sous la direction de Philippe Montesinos.

Thèses en préparation à l'IMT Mines Alès , dans le cadre de École Doctorale Information, Structures, Systèmes , en partenariat avec EuroMov Digital Health in Motion (laboratoire) et de I3A - Informatique, image, intelligence artificielle (equipe de recherche) depuis le 20-12-2018 .


  • Résumé

    Les méthodes classiques de détection et de reconnaissance d'objets impliquent des points d'intérêt et des descripteurs. Depuis 2012, les méthodes directes utilisant l'apprentissage en profondeur et les réseaux neuronaux convolutifs [9] ont dépassé toutes les autres approches [1]. Ces méthodes calculent un descripteur global pour toute la scène et un réseau neuronal est utilisé pour la reconnaissance d'objet. Ces techniques combinent l'apprentissage des filtres, des descripteurs et de la reconnaissance. Malheureusement, il est difficile de comprendre quels filtres sont réellement appris et pourquoi. De plus, les filtres obtenus dépendent fortement des données utilisées pour l'apprentissage [4] Nous avons récemment montré que les points d'intérêt peuvent être obtenus directement à partir d'une étape de filtrage anisotrope avec une précision et une répétition élevées [7, 8]. De plus, l'application de tels filtres peut conduire directement à une description de point robuste et la correspondance des images basée sur ces nouveaux descripteurs surpasse les méthodes classiques. Compte tenu de ces résultats, il devrait maintenant être possible d'éviter l'apprentissage par filtrage des réseaux de neurones convolutifs, car les filtres sont déjà connus. Ensuite, si nous voulons, par exemple, étendre la segmentation par points d'intérêt à la segmentation de jonctions, nous sommes maintenant confrontés au problème de la combinaison de tous les résultats obtenus par une énorme étape de filtrage dans un opérateur de détection de jonctions. Un tel processus pourrait être effectué dans le cadre des fonctions de croyance qui est consacré à la gestion des incertitudes [2, 3, 5]. Suivant la même hypothèse, la tâche de reconnaissance d'objet globale pourrait être réalisée par une méthode de classification n'impliquant pas nécessairement des réseaux neuronaux mais basée sur des points d'intérêt. Le nombre de ces points dépendant de l'image, la gestion de l'incertitude attachée à chacun d'eux pourrait améliorer la tâche de classification finale [1].

  • Titre traduit

    Objects detection and classification in digital images


  • Résumé

    Classical methods for object detection and recognition involve points of interests and descriptors. Since 2012, direct methods using deep learning and convolutional neural networks [9] have overtaken all other approaches [1]. These methods compute a global descriptor for the all the scene and a neural network is used for object recognition. These techniques combine the learning of filters, descriptors and recognition. Unfortunately, it is somehow difficult to understand what filters are really learned and why. Moreover, obtained filters strongly depend on the data used for the learning step [4]. We have recently shown that points of interest can be directly obtained from an anisotropic filtering stage with high precision and repetition [7, 8]. Furthermore, applying such filters can lead directly to robust point description and image matching based on these new descriptors outperforms classical methods. Considering these results, it should now be possible to avoid the filtering learning stage of convolutional neural networks, because the filters are already known. Next, if we want, for example to extend point of interest segmentation to junction segmentation, we are now facing the problem of combining all the results obtained by a huge filtering stage into a junction detection operator. Such process could be performed in the belief functions framework which is devoted to uncertainty management [2, 3, 5]. Following the same assumption, the global object recognition task could be achieved by a classification method not necessarily involving neural networks but based on points of interest. Since the number of those points depends on the image, managing the uncertainty attached to each of them could improve the final classification task [1]. This PHD will explore this field of research with the aim to propose new object recognition schemes [6, 9] having a good understanding and control of what is really processed.