Traitrements cognitifs mis en jeu dans la perception visuelle de scènes complexes et conséquences sur l'indexation automatique d'images

par Jingqiang Li

Thèse de doctorat en Psychologie expérimentale

Sous la direction de Alain Lieury et de Jean-Pierre Gaillard.

Soutenue en 2008

à Rennes 2 .


  • Résumé

    Chez les sujets humains, la capacité d'identifier une scène visuelle complexe est remarquable. Avec une seule fixation d'une scène, de nombreuse d'informations sont disponibles : son contenu, son identité, sa structure spatiale et la catégorisation de cette scène (Potter, 1975; Schyns & Oliva, 1994; Thorpe, Fize, & Marlot, 1996). Plusieurs hypothèses sont développées : Tout abord, le sens général d'une scène peut être acquis grâce a l'identification d'un ou plusieurs objets typiques (Friedman, 1979) et leurs relations (De Graef, Christiaens, & d'Ydewalle, 1990). Alternativement à ce point de vue traditionnel considérant que l'identification d'une scène s'effectue par l'identification des objets qu'elle contient, une autre hypothèse suppose que l'identification d'une scène peut être acquise au moyen d'informations globales ayant des propriétés de "scène-niveau" donc sans savoir besoins d'informations portant sur les objets (Greene & Oliva, 2006; Schyns & Oliva, 1994; Oliva & Schyns, 2000). Ces propriétés de "scène-niveau" se caractériseraient par des grandes surfaces structurales ou d'autres types d'informations similaires (Biederman, 1995). En outre, l'étude des mouvements oculaires montrent que les fixations précoces sont influencées par la densité de contours, le contraste local (Mannan, Ruddock, & Wooding, 1996, 1997; Reinagel & Zador, 1999) ainsi que la structure de la scène (Sanocki & Epstein, 1997; Castelhano & Henderson, 2003; Oliva & Torralba. , 2003). Nous supposons donc que ces deux types d'informations fusionneraient en une représentation des différentes zones de luminance ne contenant pas d'informations précises sur les objets. Le but de cette thèse est d'étudier le rôle de la structuration spatiale des différentes zones de luminance dans l'identification rapide de scènes complexes. Les résultats suggèrent que les participants sont capables d'identifier une scène visuelle en se basant sur cette propriété.

  • Titre traduit

    Involving cognitive treatment in visual perception of complex scenes and impacts on the automatic indexation of images


  • Résumé

    Human scene understanding is remarkable because, with only a brief glance at an image, an abundance of information is available: image content and meaning, spatial layout and semantic label (Potter, 1975; Schyns & Oliva, 1994; Thorpe, Fize, & Marlot, 1996) etc. Currently, several hypotheses have been advanced to explain how scenes are recognized so quickly. First, it could be that a diagnostic object is rapidly identified, and that the scene gist is inferred with from this object (Friedman, 1979) or a few objects and their spatial relationships (De Graef, Christiaens, & d'Ydewalle, 1990). Contrary to the traditional ideas of research in scene understanding that treat objects as the atoms of recognition, the real world scenes can be recognized without necessarily identifying the objects they contain (Greene & Oliva, 2006; Schyns & Oliva, 1994; Oliva & Schyns, 2000). There are some scene-level features that directly suggest identity and gist without requiring identification of any of the specific objects or any specific spatial relationships among them. Past suggestions for these features include large volumetric shapes or other similar large-scale image features (Biederman, 1995). Studies of eye movement in scene recognition have shown that two kinds of information can be coded and stored during the early stages of low-level cognitive processing of complex scenes. These are contour density, local contrast (Mannan, Ruddock & Wooding, 1996, 1997; Reinagel & Zador, 1999), and global layout information (Sanocki & Epstein, 1997; Castelhano & Henderson, 2003; Oliva & Torralba. , 2003). These two types of information are manipulated to transform the image into a "structural luminance image". The purpose of this work was to investigate how the "structural luminance image" is used by humans to process information in a real-world scene. The finding from extensive experiments demonstrates that subjects are able to identify natural scenes based on large structural regions of different luminance.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (259 f.)
  • Notes : Thèse microfichée
  • Annexes : Bibliogr. f. 230-246. Annexes

Où se trouve cette thèse ?

  • Bibliothèque : Université Rennes 2 - BU centrale (Rennes).
  • Disponible pour le PEB
  • Cote : TR RENNES 2008/34

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université Rennes 2 - BU centrale (Rennes).
  • Non disponible pour le PEB
  • Cote : 2008/REN2/0017
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.