Attention sélective en visualisation d'images fixes et animées affichées sur écran : modèles et évaluation de performances - application

par Olivier Le Meur

Thèse de doctorat en Automatique et Informatique appliquée. Traitement du signal et des images

Sous la direction de Dominique Barba et de Patrick Le Callet.

Soutenue en 2005

à Nantes .


  • Résumé

    Cette étude traite de la modélisation de l'attention visuelle pré-attentive (ou plus communément appelé Bottom-Up) sur images fixes couleurs et sur séquence d'images animées. Il s'agit donc de déterminer de façon automatique et en utilisant uniquement des caractéristiques visuelles de bas niveaux les zones attirant le regard. Nous proposons d'abord de construire un espace psycho-visuel dans lequel les signaux achromatique et chromatiques sont normalisés en fonction de leur propre seuil différentiel de visibilité. L'intérêt est ici d'exprimer les différentes caractéristiques visuelles avec la même unité, c'est à dire en terme de visibilité. Ensuite, plusieurs transformations sont effectuées pour déterminer la saillance spatiale achromatique et chromatiques, toutes basées sur une modélisation d'inspiration biologique des mécanismes perceptifs humains (suppression de la redondance locale, interactions facilitatrices de type iso-orienté et co-linéaire. . . ). Une méthode de fusion est proposée permettrant de déduire la carte de saillance spatiale finale. L'évaluation des performances de la modélisation est réalisée en comparant nos résultats avec des résultats provenant de tests oculométriques sur un panel d'observateurs. Pour cela, trois métriques sont utilisées: le coefficient de corrélation linéaire, la divergence de Kullback-Leibler et une méthode de classification. Comparativement au modèle de L. Itti considéré comme le modèle de référence, et quelle que soit la métrique utilisée, notre modèle fournit en moyenne de meilleurs résultats. L'extension à la dimension temporelle a été réalisée permettant de détecter les zones saillantes dans les vidéo. A partir des données achromatiques de l'espace psycho-visuel, la saillance temporelle est déduite des contrastes locaux de mouvement de la séquence d'images. La fusion de la saillance spatiale et de la saillance temporelle conduit à la carte de saillance finale. A partir de nouveaux tests oculométriques, une nouvelle évaluation est alors effectuée. En moyenne, le modèle spatio-temporel de saillance détecte 77% des zones saillantes. Finalement, deux applications utilisant les cartes de saillance sont décrites. La première concerne le codage vidéo H. 264 pour laquelle l'objectif est de privilégier la qualité sur les zones visuellement importantes. La seconde traite de la création d'images ou de séquences d'images miniatures permettant d'augmenter le confort visuel lorsque l'écran d'affichage est de faible taille.


  • Résumé

    This thesis describes the modeling of the bottom-up visual attention on color pictures and image sequences. The principal aim is to automatically detect areas of an image that effortlessly attract the attention. The method presented here uses only low level visual features in order to identify the salient regions. Two saliency-based applications are described. We first propose to build a psychovisual space in which achromatic and chromatic data is normalized to its individual differential visibility threshold. This data is expressed in the same unit, namely the visibility. Several biological-based transformations that simulate the most important perception mechanisms (the long-range interactions, the modelling of cortical cells) are used to calculate the achromatic and chromatic salient values. The final saliency map is obtained by a new merging process, which combines the achromatic and chromatic maps. The performance assessment consists of comparing our results to the ground truth stemming from Eye-tracking experiments. Three metrics, linear correlation coefficient, the Kullback-Leibler divergence and a classification method, are used. Moreover, a comparison with reults coming from L. Itti's model is also conducted; the proposed approach yields in average better results, regardless of the metric used. The temporal dimension has been added to the model in order to compute the temporal saliency. The local motion is first computed from the normalized achromatic data. The dominant motion is then deduced. The local motion contrast, which is a relevant estimator of the temporal saliency, is the difference between local and dominant motion. The final spatio-temporal map is the combination of the spatial and the temporal saliency maps. The spatio-temporal model was assessed using new eye tracking experiments. On average, 77% of the salient regions are correctly detected. Two saliency-based applications, saliency-based H. 264 coding and saliency-based thumbnails, have been developed. The former deals with a video compression scheme driven by a saliency map: perceptually non-important areas are subjected to higher compression than more relevant parts of the data. The latter concerns the construction of saliency-based thumbnails. The goal is to ease the image viewing on devices with limited display sizes.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (204 f.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. f. 193-202

Où se trouve cette thèse ?

  • Bibliothèque : Université de Nantes. Service commun de la documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 2005 NANT 2063
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.