Fusion d'informations multi-capteurs pour la commande du robot humanoïde NAO

par Thanh Long Nguyen

Thèse de doctorat en Doctorat en Sciences et techniques de l'information et de la communication, traitement de l’information

Sous la direction de Didier Coquin et de Reda Boukezzoula.

Soutenue le 05-04-2017

à Grenoble Alpes , dans le cadre de École doctorale sciences et ingénierie des systèmes, de l'environnement et des organisations (Chambéry) , en partenariat avec Laboratoire d'Informatique, Systèmes, Traitements de l'Information et de la Connaissance (laboratoire) et de Laboratoire d'informatique, systèmes, traitement de l'information et de la connaissance (Ann (laboratoire) .

Le président du jury était Kacem Chehdi.

Le jury était composé de Michèle Rombaut.

Les rapporteurs étaient Véronique Berge-Cherfaoui, Olivier Colot.


  • Résumé

    Dans cette thèse nous montrons comment améliorer la perception d’un robot humanoïde NAO en utilisant la fusion multi-capteurs. Nous avons proposé deux scénarios: la détection de la couleur et la reconnaissance d’objets colorés. Dans ces deux situations, nous utilisons la caméra du robot et nous ajoutons des caméras externes pour augmenter la fiabilité de la détection car nous nous plaçons dans un contexte expérimental dans lequel l’environnement est non contrôlé. Pour la détection de la couleur, l’utilisateur demande au robot NAO de trouver un objet coloré. La couleur est décrite par des termes linguistiques tels que: rouge, jaune, .... Le principal problème à résoudre est la façon dont le robot reconnaît les couleurs. Pour ce faire, nous avons proposé un système Flou de Sugeno pour déterminer la couleur demandée. Pour simplifier, les cibles choisies sont des balles colorées. Nous avons appliqué la transformation de Hough pour extraire les valeurs moyennes des pixels des balles détectées. Ces valeurs sont utilisées comme entrées pour le système Flou. Les fonctions d'appartenance et les règles d'inférence du système sont construites sur la base de l'évaluation perceptive de l'humain. La sortie du système Flou est une valeur numérique indiquant le nom de la couleur. Une valeur de seuil est introduite pour définir la zone de décision pour chaque couleur. Si la sortie floue tombe dans cet intervalle, alors la couleur est considérée comme la vraie sortie du système. Nous sommes dans un environnement non contrôlé dans lequel il y a des incertitudes et des imprécisions (variation de la lumière, qualité des capteurs, similarité entre couleurs). Ces facteurs affectent la détection de la couleur par le robot. L’introduction du seuil qui encadre la couleur, conduit à un compromis entre l'incertitude et la fiabilité. Si cette valeur est faible, les décisions sont plus fiables, mais le nombre de cas incertains augmente, et vice et versa. Dans nos expérimentations, on a pris une valeur de seuil petite, de sorte que l'incertitude soit plus importante, et donc la prise de décision par un capteur unique, celui de NAO, soit faible. Nous proposons d'ajouter d’autres caméras 2D dans le système afin d’améliorer la prise de décision par le robot NAO. Cette prise de décision résulte de la fusion des sorties des caméras en utilisant la théorie des fonctions de croyance pour lever les ambiguïtés. La valeur de seuil est prise en compte lors de la construction des valeurs de masse à partir de la sortie Floue de Sugeno de chaque caméra. La règle de combinaison de Dempster-Shafer et le maximum de probabilité pignistique sont choisis dans la méthode. Selon nos expériences, le taux de détection du système de fusion est grandement amélioré par rapport au taux de détection de chaque caméra prise individuellement. Nous avons étendu cette méthode à la reconnaissance d’objets colorés en utilisant des caméras hétérogènes 2D et 3D. Pour chaque caméra, nous extrayons vecteurs de caractéristiques (descripteurs SURF et SHOT) des objets, riches en informations caractérisant les modèles d'objets. Sur la base de la correspondance avec des modèles formés et stockés dans la base d'apprentissage, chaque vecteur de caractéristiques de l'objet détecté vote pour une ou plusieurs classes appartenant à l'ensemble de puissance. Nous construisons une fonction de masse après une étape de normalisation. Dans cette expérimentation, la règle de combinaison de Dempster-Shafer et le maximum de probabilité pignistique sont utilisés pour prendre la décision finale. A la suite des trois expérimentations réalisées, le taux de reconnaissance du système de fusion est bien meilleur que le taux de décision issu de chaque caméra individuellement. Nous montrons ainsi que la fusion multi-capteurs permet d’améliorer la prise de décision du robot.

  • Titre traduit

    Multi-sensor information fusion : application for the humanoid NAO robot


  • Résumé

    Being interested in the important role of robotics in human life, we do a research about the improvement in reliability of a humanoid robot NAO by using multi-sensor fusion. In this research, we propose two scenarios: the color detection and the object recognition. In these two cases, a camera of the robot is used in combination with external cameras to increase the reliability under non-ideal working conditions. For the color detection, the NAO robot is requested to find an object whose color is described in human terms such as: red, yellow, brown, etc. The main problem to be solved is how the robot recognizes the colors as well as the human perception does. To do that, we propose a Fuzzy Sugeno system to decide the color of a detected target. For simplicity, the chosen targets are colored balls, so that the Hough transformation is employed to extract the average pixel values of the detected ball, then these values are used as the inputs for the Fuzzy system. The membership functions and inference rules of the system are constructed based on perceptual evaluation of human. The output of the Fuzzy system is a numerical value indicating a color name. Additionally, a threshold value is introduced to define the zone of decision for each color. If the Fuzzy output falls into a color interval constructed by the threshold value, that color is considered to be the output of the system. This is considered to be a good solution in an ideal condition, but not in an environment with uncertainties and imprecisions such as light variation, or sensor quality, or even the similarity among colors. These factors really affect the detection of the robot. Moreover, the introduction of the threshold value also leads to a compromise between uncertainty and reliability. If this value is small, the decisions are more reliable, but the number of uncertain cases are increases, and vice versa. However, the threshold value is preferred to be small after an experimental validation, so the need for a solution of uncertainty becomes more important. To do that, we propose adding more 2D cameras into the detection system of the NAO robot. Each camera applies the same method as described above, but their decisions are fused by using the Dempster-Shafer theory in order to improve the detection rate. The threshold value is taken into account to construct mass values from the Sugeno Fuzzy output of each camera. The Dempster-Shafer's rule of combination and the maximum of pignistic probability are chosen in the method. According to our experimens, the detection rate of the fusion system is really better than the result of each individual camera. We extend this recognition process for colored object recognition. These objects are previously learned during the training phase. To challenge uncertainties and imprecisions, the chosen objects look similar in many points: geometrical form, surface, color, etc. In this scenario, the recognition system has two 2D cameras: one of NAO and one is an IP camera, then we add a 3D camera to take the advantages of depth information. For each camera, we extract feature points of the objects (SURF descriptor for 2D data, and the SHOT descriptor for 3D data). To combine the cameras in the recognition system, the Dempster-Shafer theory is again employed for the fusion. Based on the correspondence to trained models stored in the learning base, each feature point of the detected object votes for one or several classes i.e. a hypothesis in the power set. We construct a mass function after a normalization step. In this case, the Dempster-Shafer's rule of combination and the maximum of pignistic probability are employed to make the final decision. After doing three experiments, we conclude that the recognition rate of the fusion system is much better than the rate of each individual camera, from that we confirm the benefits of multi-sensor fusion for the robot's reliability.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Savoie Mont Blanc (Chambéry-Annecy). Service commun de la documentation et des bibliothèques universitaires. Bibliothèque électronique.
  • Bibliothèque : Service Interétablissement de Documentation. LLSH Collections numériques.
  • Bibliothèque : Service interétablissements de Documentation. STM. Collections numériques.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.