De l'informatique embarquée à l'internet des objets (IdO) : prolifération de donnés de sécurité

par Luigi Marangio

Projet de thèse en Informatique

Sous la direction de Christophe Guyeux.

Thèses en préparation à Bourgogne Franche-Comté en cotutelle avec l'Université de Pise , dans le cadre de SPIM - Sciences Physiques pour l'Ingénieur et Microtechniques , en partenariat avec FEMTO-ST Franche Comté Electronique Mécanique Thermique et Optique - Sciences et Technologies (laboratoire) et de DISC - Département Informatique et Systèmes Complexes (equipe de recherche) depuis le 30-08-2017 .


  • Résumé

    Dans notre société moderne, la gestion de grands ensembles de données revêt une importance fondamentale, comme l'indique combien les réseaux sociaux affectent nos vies. Dans ce contexte, en 2016, le collegium international SMYLE a permis d'initier une collaboration entre les départements d'informatique (FEMTO-ST/DISC) et d'électronique (EPFL/ESPLAB), autour de l'Internet des Objets (IdO). Ce dernier est une évolution naturelle du World Wide Web, où des objets du quotidien (réveils, réfrigérateurs, voitures...), connectés, interagissent et apprennent les uns des autres afin d'améliorer notre vie. Mais ces derniers produisent potentiellement de grands ensembles de données. Considérant de tels ensembles, deux problèmes sensibles sont importants à résoudre: apprendre à un objet connecté à extraire de l'information d'un ensemble de données, et rendre ces informations aussi sûres que possibles. Notre projet de recherche consiste justement à apporter des contributions théoriques à cette nouvelle branche émergente (l'IdO), en apportant des éléments de réponse aux problèmes mentionnés ci-dessus. Le Département d'Informatique (DISC) de Femto-St est spécialisé dans la conception et l'étude des générateurs de nombres pseudo-aléatoires (PRNG, pour PseudoRandom Number Generator), ces algorithmes étant d'une importance fondamentale dans les domaines de la cryptographie et de la sécurité informatique. Dans ce contexte, au cours de ma première année de doctorat, j'ai montré dans [1] que les PRNG en question sont chaotiques, et en [2,3] qu'ils sont particulièrement adaptés aux usages cryptographiques. Ces travaux constituent mes premières contributions au deuxième problème évoqué ci-dessus. D'autre part, si la théorie de la sécurité informatique a bien progressé au cours des dernières décennies (bien qu'il y ait encore de nombreuses questions en suspens), il n'en va pas de même pour l'apprentissage automatique (Machine Learning, une branche de l'informatique permettant de déterminer dans quelle mesure un objet peut apprendre et utiliser activement toute information reçue), dans laquelle l'étude des performances s'avère souvent empirique. Dans ce contexte, dans [4], nous avons présenté un algorithme d'apprentissage automatique, basé sur les réseaux neuronaux, permettant d'extraire la dynamique sous-jacente d'un grand ensemble de données. Le principal outil utilisé ici pour aborder cette question de l'apprentissage dans l'IdO a été la théorie ergodique, permettant de prévoir le comportement moyen des ensembles de variables portant l'information de l'objet vu comme un système dynamique. Jusqu'à présent, nous avons seulement initié l'étude de l'applicabilité de cette théorie à la description des processus d'apprentissage [3,6]. Mais nous espérons, à terme, pouvoir construire des algorithmes pour lesquels il serait possible d'étudier leurs propriétés mathématiques. La seconde partie de mes travaux de recherche s'inscrit dans l'axe bioinformatique du collegium SMYLE. Elle porte sur l'étude des chemins auto-évitants (SAW, pour self-avoiding walks), qui sont les structures naturelles de représentation des biomolécules dans la prédiction informatique de leurs formes 3D. Nous avons poursuivi l'étude d'une sous-classe particulière de chemins (les SAW dits pliés) qui intervient dans l'étude des formes accessibles par un ensemble particulier de protéines, à savoir celui des "protéines intrinsèquement désordonnées". Nos résultats préliminaires portent sur l'étude de la structure de ce sous-ensemble; ils ont été présentés dans un séminaire national de bioinformatique [5]. Par la suite, nos principaux objectifs seront d'explorer plus avant les propriétés cryptographiques associées aux PRNG (telles que l'effet d'avalanche) et d'utiliser de nouvelles structures, telles que les automates cellulaires, pour les améliorer. Nous souhaitons aussi poursuivre l'étude théorique de l'apprentissage machine, en appliquant nos algorithmes à des ensembles de données concrètes (à savoir, celles produites dans le cadre du projet Interreg RESponSE). Nous chercherons enfin à attaquer les aspects computationnels de nos travaux, tant au niveau des SAW pliés que concernant la théorie ergodique.

  • Titre traduit

    From embedded computing to the Internet of objects (IO): proliferation of security data


  • Résumé

    In our modern society, the management of large data sets is of fundamental importance, as shown by how social networks affect our lives. In this context, in 2016, the international collegium SMYLE made it possible to initiate collaboration between the departments of IT (FEMTO-ST/DISC) and electronics (EPFL/ESPLAB), around the Internet of Things (IdO). The latter is a natural evolution of the World Wide Web, where everyday objects (alarm clocks, refrigerators, cars...), connected, interact and learn from each other to improve our lives. But the latter potentially produce large data sets. Considering such sets, two sensitive issues are important to solve: teaching a connected object to extract information from a data set, and making that information as secure as possible. Our research project consists precisely in making theoretical contributions to this new emerging branch (IoT), by providing answers to the problems mentioned above. The Department of Computer Science (DISC) of Femto-St is specialized in the design and study of pseudo-random number generators (PRNG, for PseudoRandom Number Generator), these algorithms being of fundamental importance in the fields of cryptography and computer security. In this context, during my first year of doctoral studies, I showed in[1] that the PRNGs in question are chaotic, and in[2,3] that they are particularly suitable for cryptographic uses. This work is my first contribution to the second problem mentioned above. On the other hand, while computer security theory has progressed well in recent decades (although there are still many questions outstanding), the same cannot be said for automatic learning (Machine Learning, a branch of computing that determines the extent to which an object can actively learn and use any information received), in which performance research is often empirical. In this context, in[4], we presented an automatic learning algorithm, based on neural networks, to extract the underlying dynamics of a large data set. The main tool used here to address this issue of learning in IoT has been ergodic theory, which predicts the average behavior of sets of variables carrying object information as a dynamic system. So far, we have only initiated the study of the applicability of this theory to the description of learning processes[3,6]. But we hope, in the long run, to be able to build algorithms for which it would be possible to study their mathematical properties. The second part of my research work is part of the bioinformatics axis of the SMYLE collegium. It focuses on the study of self-avoiding walks (SAWs), which are the natural structures that represent bio molecules in the computer prediction of their 3D shapes. We have continued the study of a particular subclass of paths (the so-called folded SAWs) which is involved in the study of forms accessible by a particular set of proteins, namely that of "intrinsically disordered proteins". Our preliminary results focus on studying the structure of this subset and were presented in a national bioinformatics seminar[5]. Subsequently, our main objectives will be to further explore the cryptographic properties associated with PRNG (such as the avalanche effect) and to use new structures, such as cellular automata, to improve them. We also wish to continue the theoretical study of machine learning, by applying our algorithms to concrete data sets (i.e. those produced in the framework of the Interreg RESponSE project). Finally, we will seek to attack the computational aspects of our work, both at the level of folded SAWs and ergodic theory.