Un système de recommandation de schémas semi-structurés orienté vers les documents.

par Paola Gomez

Projet de thèse en Informatique

Sous la direction de Claudia Roncancio et de Rubby Casallas.

Thèses en préparation à Grenoble Alpes , dans le cadre de École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble) , en partenariat avec Laboratoire d'Informatique de Grenoble (laboratoire) et de SIGMA - Systèmes d'information - Ingénierie et modélisation adaptées (ancien LSR) (equipe de recherche) depuis le 13-10-2014 .


  • Résumé

    De nos jours, des millions de sources de données différentes produisent une énorme quantité de données non structurées et semi-structurées qui changent constamment. Les systèmes d'information doivent gérer ces données tout en assurant la scalabilité et la performance. En conséquence, ils ont dû s'adapter pour supporter des bases de données hétérogènes, incluant des bases de données No-SQL. Ces bases de données proposent une structure de données sans schéma avec une grande flexibilité, mais sans séparation claire des couches logiques et physiques. Les données peuvent être dupliquées, fragmentées et/ou incomplètes, et ils peuvent aussi changer à mesure des besoins de métier. Les modifications sur les structures / schémas et les requêtes associées peuvent avoir plusieurs impacts pertinents et pas si évidents à découvrir, en particulier lorsque c'est possible de choisir parmi des centaines d'options de modélisation. Les avantages et les inconvénients d'un schéma à l'autre peuvent varier considérablement en fonction de : coûts de stockage et de redondance, coûts de passage dans les structures, coûts d'obtention des résultats, coût de lisibilité, etc. Par conséquent, plusieurs schémas sont des candidats potentiels à être choisis comme schéma unique, schéma temporel, schéma parallèle, etc. selon le cas. Dans ce contexte, cette thèse vise à aider l'utilisateur à comprendre, maintenir, évaluer et évoluer des schémas semi-structurés de manière plus avertie, en clarifiant les possibilités et en fournissant des critères objectifs pour prendre des décisions avec les avantages et les inconvénients que cela implique. Notre recherche vise à savoir comment proposer des schémas semi-structurés orientés vers les documents pour un certain modèle de données en tenant compte de requêtes important et de préférences de l'utilisateur. Nous cherchons : 1) à tirer profit de la flexibilité de systèmes de types semi-structures ; 2) identifier les compromis entre la structure des données, la taille des données, la performance, la duplication entre autres ; 3) proposer des métriques et critères d'analyse de schémas. Nous proposons d'assister l'utilisateur dans un processus de modélisation de schéma en utilisant un système de recommandation permettant de: • générer un ensemble de schémas semi-structurés orientés vers les documents, • analyser ces schémas en fonction des métriques appliquées sur la structure des données et des requêtes qui y sont respectivement adaptés, • proposer un top k de schémas semi-structurés selon les préférences identifiées.

  • Titre traduit

    A semi structured schemas recommendation system oriented to documents


  • Résumé

    Nowadays, millions of different data sources produce a huge quantity of unstructured and semi-structured data that change constantly. Information systems must manage these data but providing at the same time scalability and performance. As a result, they have had to adapt it to support heterogeneous databases, included NoSQL databases. These databases propose a schema-free with great flexibility but with a no clear separation of the logical and physical layers. Data can be duplicated, split and/or incomplete, and it can also change as the business needs. Changes over structures/schemes and queries related to can have several and relevant impacts not so obvious to discover, especially when you have hundreds of modeling options to choose from. Advantages and disadvantages between one schema to another can vary greatly depending on: storage and redundancy costs, costs of going through the structures, costs of getting the results, cost of readability, etc. That implies more than one suitable schema can satisfy the needs with an appropriate trade-off. As a result, several schemes are potential candidates to be chosen as unique schema, temporal schema, parallel schema, etc. as appropriate. In this context, this thesis is aimed to help user to understand, maintain, evaluate and evolve semi-structured schemes in a more conscious way, clarifying the possibilities and providing objective criteria to make decisions with the advantages and disadvantages that implies. Our research is focused on how to suggest suitable semi-structured schemes oriented to documents based on a data model and a set of queries and user preferences by: 1) taking advantage of the flexibility provided by semi-structures types systems; 2) identifying trade-offs between data structure, duplication, data size, query performance among others; and 3) proposing metrics and criteria for schema analysis. We propose to assist user in a schema modeling process using a recommendation system allowing: • to generate a set of semi-structured schemes oriented to documents, • to analyze these schemes according to metrics applied over data structure and the queries respectively adjusted to it, • to propose a top-k of semi-structured schemes according to identified preferences.