Approches algébriques pour la gestion et l’exploitation de partitions sur des jeux de données

par Frédéric Dumonceaux

Thèse de doctorat en Informatique et applications

Sous la direction de Marc Gelgon.

Le président du jury était Amedeo Napoli.

Le jury était composé de Marc Gelgon, Amedeo Napoli, Sofian Maabout, Marie-Christine Rousset, Jin-Kao Hao.

Les rapporteurs étaient Sofian Maabout, Marie-Christine Rousset.


  • Résumé

    L’essor des méthodes d’analyse de données dans des contextes toujours plus variés nécessite la conception de nouveaux outils permettant la gestion et la manipulation des données extraites. La construction de résumés est alors couramment structurée sous la forme de partitions d’ensembles dont la manipulation dépend à la fois du contexte applicatif et de leurs propriétés algébriques. Dans un premier temps, nous proposons de modéliser la gestion des résultats de requêtes d’agrégation dans un cube OLAP à l’aide d’un calcul algébrique sur des partitions. Nous mettons en évidence l’intérêt d’une telle démarche par le gain de temps et d’espace observé pour produire ces résultats. Nous traitons par la suite le cas de la modélisation du consensus de partitions où nous soulignons les difficultés propres à sa construction en l’absence de propriétés qui régissent la combinaison des partitions. Nous proposons donc d’approfondir l’étude des propriétés algébriques de la structure du treillis des partitions, en vue d’en améliorer la compréhension et par conséquent de produire de nouvelles procédures pour l’élaboration du consensus. En guise de conclusion, nous proposons la modélisation et une mise en œuvre concrète d’opérateurs sur des partitions génériques et nous livrons diverses expériences, propres à souligner l’intérêt de leur usage conceptuel et opérationnel.

  • Titre traduit

    Algebraic approaches for management and handling of set partitions over datasets


  • Résumé

    The rise of data analysis methods in many growing contexts requires the design of new tools, enabling management and handling of extracted data. Summarization process is then often formalized through the use of set partitions whose handling depends on applicative context and inherent properties. Firstly, we suggest to model the management of aggregation query results over a data cube within the algebraic framework of the partition lattice. We highlight the value of such an approach with a view to minimize both required space and time to generate those results. We then deal with the consensus of partitions issue in which we emphasize challenges related to the lack of properties that rule partitions combination. The idea put forward is to deepen algebraic properties of the partition lattice for the purpose of strengthening its understanding and generating new consensus functions. As a conclusion, we propose the modelling and implementation of operators defined over generic partitions and we carry out some experiences allowing to assert the benefit of their conceptual and operational use.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (220 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p.211-220

Où se trouve cette thèse ?

  • Bibliothèque : Université de Nantes. Service commun de la documentation. BU Sciences.
  • Non disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.