[IEQBDS] Requêtes itératives et expressives pour l'analyse de grandes séries de données

par Anna Gogolou

Projet de thèse en Informatique

Sous la direction de Anastasia Bezerianos et de Themis Palpanas.

Thèses en préparation à Paris Saclay , dans le cadre de Sciences et Technologies de l'Information et de la Communication , en partenariat avec LRI - Laboratoire de Recherche en Informatique (laboratoire) , HCC - Informatique Centree sur l'Humain (equipe de recherche) et de université Paris-Sud (établissement de préparation de la thèse) depuis le 01-10-2016 .


  • Résumé

    Domaines tels que l'astronomie, et le séquençage du génome, recueillent actuellement une quantité phénoménale de données, dont un pourcentage important est sous la forme de séries de données temporelles. Pour les comprendre, les scientifiques ont besoin de les explorer interactivement, en formulant des hypothèses et les affiner progressivement. Notre objectif est d'ajouter des mécanismes de requêtage itératives et expressifs sur des grandes collections de séries de données. Nous proposerons de nouvelles techniques d'interaction et de visualisation pour l'exploration et l'analyse des séries de données, toujours en tenant conte de la scalabilité des séries des donnes qui ont de l'ordre de plusieurs terabytes. À cette fin, la thèse développera des outils interactifs qui permettent aux analystes d'exprimer l'imprécision dans leurs requêtes, puis les affiner de manière itérative. La thèse introduira également des techniques permettant de visualiser les résultats de haute cardinalité, ainsi que l'incertitude inhérente aux résultats approximatifs et progressifs. Les algorithmes Existants d'indexation des séries de données devront être révisées pour tenir compte des requêtes vagues, pout computer des limites d'erreur lors de la requête-réponse, et pour fournir des résultats en temps réel aux requêtes itérativement raffinés. 


  • Titre traduit

    [IEQBDS] Iterative and Expressive Querying for Big Data Series


  • Résumé

    Abstract: Domains such as astronomy, and genome sequencing, are currently collecting a staggering amount of data, a significant percentage of which is in the form of data series. To make sense of it, scientists need to interactively explore them, by formulating hypotheses and progressively refining them. Our goal is to add iterative and expressive query mechanisms to big data-series collections. We propose novel interaction and visualization techniques for data series exploration and analysis, and focus on their scalability to multi-terabyte data-series collections. To this end, the thesis will develop interactive tools that allow analysts to express vagueness in their queries and then refine them in an iterative manner. The thesis will also introduce techniques for visualizing high- cardinality query results, as well as the uncertainty inherent in approximate and progressive results. Existing data- series indexing algorithms will need to be revised to accommodate vague queries, support the computation of error bounds during query-answering, and provide real-time results to iterative query refinements. (see attached document for details)