Text-Based Ephemeral Clustering for Web Image Retrieval on Mobile Devices

par José G. Moreno

Thèse de doctorat en Informatique et applications

Sous la direction de Gaël Harry Dias.

Le président du jury était Béatrice Daille.

Le jury était composé de Gaël Harry Dias, Béatrice Daille, Massih-Reza Amini, Adam Jatowt, Olivier Ferret, Guillaume Cleuziou, Marc Spaniol.

Les rapporteurs étaient Massih-Reza Amini, Adam Jatowt.

  • Titre traduit

    Partitionnement éphémère pour la recherche d'images Web en dispositifs nomades


  • Résumé

    Dans cette thèse, nous présentons une étude sur la visualisation des résultats Web d'images sur les dispositifs nomades. Nos principales conclusions ont été inspirées par les avancées récentes dans deux principaux domaines de recherche – la recherche d'information et le traitement automatique du langage naturel. Tout d’abord, nous avons examiné différents sujets tels que le regroupement des résultats Web, les interfaces mobiles, la fouille des intentions sur une requête, pour n'en nommer que quelques-uns. Ensuite, nous nous sommes concentré sur les mesures d'association lexical, les métriques de similarité d'ordre élevé, etc. Notamment afin de valider notre hypothèse, nous avons réalisé différentes expériences avec des jeux de données spécifiques de la tâche. De nombreuses caractéristiques sont évaluées dans les solutions proposées. Premièrement, la qualité de regroupement en utilisant à la fois des métriques d'évaluation classiques, mais aussi des métriques plus récentes. Deuxièmement, la qualité de l'étiquetage de chaque groupe de documents est évaluée pour s'assurer au maximum que toutes les intentions des requêtes sont couvertes. Finalement, nous évaluons l'effort de l'utilisateur à explorer les images dans une interface basée sur l'utilisation des galeries présentées sur des dispositifs nomades. Un chapitre entier est consacré à chacun de ces trois aspects dans lesquels les jeux de données - certains d'entre eux construits pour évaluer des caractéristiques spécifiques - sont présentés. Comme résultats de cette thèse, nous sommes développés : deux algorithmes adaptés aux caractéristiques du problème, deux jeux de données pour les tâches respectives et un outil d'évaluation pour le regroupement des résultats d'une requête (SRC pour les sigles en anglais). Concernant les algorithmes, Dual C-means est notre principal contribution. Il peut être vu comme une généralisation de notre algorithme développé précédemment, l'AGK-means. Les deux sont basés sur des mesures d'association lexical à partir des résultats Web. Un nouveau jeu de données pour l'évaluation complète d'algorithmes SRC est élaboré et présenté. De même, un nouvel ensemble de données sur les images Web est développé et utilisé avec une nouvelle métrique à fin d'évaluer l'effort fait pour les utilisateurs lors qu'ils explorent un ensemble d'images. Enfin, nous avons développé un outil d'évaluation pour le problème SRC, dans lequel nous avons mis en place plusieurs mesures classiques et récentes utilisées en SRC. Nos conclusions sont tirées compte tenu des nombreux facteurs qui ont été discutés dans cette thèse. Cependant, motivés par nos conclusions, des études supplémentaires pourraient être développés. Celles-ci sont discutées à la fin de ce manuscrit et notre résultats préliminaires suggère que l’association de plusieurs sources d'information améliore déjà la qualité du regroupement.


  • Résumé

    In this thesis, we present a study about Web image results visualization on mobile devices. Our main findings were inspired by the recent advances in two main research areas - Information Retrieval and Natural Language Processing. In the former, we considered different topics such as search results clustering, Web mobile interfaces, query intent mining, to name but a few. In the latter, we were more focused in collocation measures, high order similarity metrics, etc. Particularly in order to validate our hypothesis, we performed a great deal of different experiments with task specific datasets. Many characteristics are evaluated in the proposed solutions. First, the clustering quality in which classical and recent evaluation metrics are considered. Secondly, the labeling quality of each cluster is evaluated to make sure that all possible query intents are covered. Thirdly and finally, we evaluate the user's effort in exploring the images in a gallery-based interface. An entire chapter is dedicated to each of these three aspects in which the datasets - some of them built to evaluate specific characteristics - are presented. For the final results, we can take into account two developed algorithms, two datasets and a SRC evaluation tool. From the algorithms, Dual C-means is our main product. It can be seen as a generalization of our previously developed algorithm, the AGK-means. Both are based in text-based similarity metrics. A new dataset for a complete evaluation of SRC algorithms is developed and presented. Similarly, a new Web image dataset is developed and used together with a new metric to measure the users effort when a set of Web images is explored. Finally, we developed an evaluation tool for the SRC problem, in which we have implemented several classical and recent SRC metrics. Our conclusions are drawn considering the numerous factors that were discussed in this thesis. However, additional studies could be motivated based in our findings. Some of them are discussed in the end of this study and preliminary analysis suggest that they are directions that have potential.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (107 f.)
  • Annexes : Bibliogr. 89 ref. Index

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Caen Normandie. Bibliothèque Rosalind Franklin (Sciences-STAPS).
  • Non disponible pour le PEB
  • Cote : TCAS-2014-36
  • Bibliothèque : Université de Caen Normandie. Bibliothèque Rosalind Franklin (Sciences-STAPS).
  • Disponible pour le PEB
  • Cote : TCAS-2014-36bis

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université de Lille. Service commun de la documentation. Bibliothèque universitaire de Sciences Humaines et Sociales.
  • Non disponible pour le PEB
  • Cote : 2014CAEN2036
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.