Partitionnement d’objets complexes : méthodes et algorithmes

par Said Fouchal

Thèse de doctorat en Informatique

Sous la direction de Ivan Lavallée.

Soutenue en 2011

à Paris 8 .


  • Résumé

    Le clustering est une notion importante dans les sciences, il est appliqué dans beaucoup de domaine, il permet la maîtrise de l'information et ainsi sa bonne exploitation. Son objectif est de ranger des éléments similaires dans des groupes homogènes. La notion de proximité est élémentaire dans ce processus elle a un effet considérable sur le résultat puisque elle permet de décrire les données selon le besoin recherché. Le travail que nous avons mené, dans la première partie de la thèse, se focalise essentiellement sur une mesure de proximité universelle, NCD (Normalized Compression Distance), elle se fonde sur le contenu absolu en information (la complexité de kolmogorov) afin de traiter des données de types différents. Notre contribution a consisté à introduire cette mesure et à démontrer qu’elle peut s'adapter à une méthode de clustering rapide afin de permettre le traitement d'un nombre important de données de tout genre de façon universelle. La deuxième partie de la thèse a consisté à développer deux nouvelles solutions théoriques pour les problèmes du clustering. Elles se basent sur les propriétés classificatoires des ultramétriques, notamment pour choisir les éléments graines avant d’établir un partitionnement, ce qui fait l'originalité de notre approche. En effet, nous avons écrit une première méthode rapide, qui a une complexité algorithmique de l'ordre de O(n). Cette première méthode est spécifique aux données décrites par une distance ultramétrique. La deuxième méthode est plus générale, elle est applicable pour tout type de données puisque elle utilise une distance (métrique). Elle est également flexible quant au contexte étudié car l'utilisateur peut manipuler la taille des clusters résultants d'une part, et fournir la taille de l'échantillon représentatif des données traitées d'autre part. De plus, cette deuxième méthode a une complexité moyenne, fréquente, de O(n) et une complexité dans le pire cas, rare, de l'ordre de O(n^2), ce qui lui offre la possibilité de traiter des larges bases de données.

  • Titre traduit

    Clustering of complex objects : methods and algorithms


  • Résumé

    Clustering is an important concept in science, it is applied in many areas, it allows the control of information and thus its its appropriate use. It aims to to store similar elements in homogeneous groups. The notion of proximity is elementary in this process it has a considerable effect on the result since it allows to describe data according to the aim sought after. This proximity is estimated via similarity measures, dissimlarité, indices, distances which are distinguished primarily by their mathematical properties and the type of data they process. The work we have done in the first part of the thesis focuses primarily on a universal measure of proximity NCD (Normalized Compression Distance), which is based on the absolute information content (the Kolmogorov complexity) to process data of different types. Our contribution was to introduce this measure and demonstrate that it can be adapted to a fast clustering method thus allow the clustering of a large number of data of any kind in a universal manner. The second contribution in this thesis was to develop two new theoretical solutions to the problems of clustering. They are based on the properties of ultrametric, notably in selecting the seed elements before partitioning, what makes the originality of our approach. In fact, we develop a first quick method, which has a computational complexity of O(n). This method is specific to data described by an ultrametric distance. The second method is more general, it is applicable to any type of data since it uses a distance (metric). It is also flexible to the context studied because the user can manage the size of the resulting clusters, and provide the representative sample size of data processed. In addition, this second method has an average complexity, frequent, of O(n) and complexity in the worst case, rare, in the of O(n^2), which offers the capability to process large databases.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XV-192 f.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. f. 187-189

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris 8-Vincennes Saint-Denis (Sciences humaines et sociales-Arts-Lettres-Droit). Service Commun de la Documentation. (Saint-Denis) .
  • Non disponible pour le PEB
  • Cote : TH 3124
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.