Network and machine learning approaches to dengue omics data

par Iryna Nikolayeva

Thèse de doctorat en Interdisciplinaire

Sous la direction de Benno Schwikowski et de Anavaj Sakuntabhai.

Soutenue le 02-10-2017

à Sorbonne Paris Cité , dans le cadre de École doctorale Frontières de l'innovation en recherche et éducation (Paris) , en partenariat avec Université Paris Descartes (1970-2019) (établissement de préparation) et de Génétique fonctionnelle des Maladies infectieuses (laboratoire) .

  • Titre traduit

    Approches d'analyses de réseaux et d'apprentissage automatique pour les données omiques de dengue


  • Résumé

    Les 20 dernières années ont vu l'émergence de technologies de mesure puissantes, permettant l'analyse omique de diverses maladies. Ils fournissent souvent des moyens non invasifs pour étudier l'étiologie des maladies complexes nouvellement émergentes, telles que l'infection de la dengue, transmise par les moustiques. Ma thèse se concentre sur l'adaptation et l'application d'approches utilisant des réseaux d'interaction de gènes et l'apprentissage automatique pour l'analyse de données génomiques et transcriptomiques. La première partie va au-delà d'une analyse pangénomique précédemment publiée de 4 026 personnes en appliquant une analyse de réseaux d'interaction pour trouver des groupes de gènes qui interagissent dans un réseau d'interactions fonctionnelles et qui, pris ensemble, sont associés à la dengue sévère. Dans cette partie, j'ai d'abord recalculé les valeurs-p d'association des polymorphismes séquencés, puis j'ai travaillé sur le mapping des polymorphismes à des gènes fonctionnellement apparentés, et j'ai enfin exploré différentes bases de données de voies métaboliques et d'interactions génétiques pour trouver des groupes de gènes qui, pris ensemble, sont associés à la dengue sévère. La deuxième partie de ma thèse dévoile une approche théorique pour étudier un biais dans les algorithmes de recherche de réseau actifs. Mon analyse théorique suggère que le meilleur score de sous-réseaux d'une taille donnée devrait être normalisé en fonction de la taille, selon l'hypothèse selon laquelle il s'agit d'un échantillon d'une distribution de valeur extrême, et non un échantillon de la distribution normale, comme c'est généralement le cas dans la littérature. Je propose alors une solution théorique à ce biais. La troisième partie présente un nouvel outil de recherche de sous-réseaux que j'ai co-conçu. Son modèle sous-jacent et l'algorithme évite le biais de taille trouvé dans les méthodes existantes et génère des résultats facilement compréhensibles. Je présente une application aux données transcriptomiques de la dengue. Dans la quatrième et dernière partie, je décris l'identification d'un biomarqueur qui détecte la sévérité de la dengue à l'arrivée à l'hôpital en utilisant une nouvelle approche d'apprentissage automatique. Cette approche combine la régression monotone bidimensionnelle avec la sélection des variables. Le modèle sous-jacent va au-delà des approches linéaires couramment utilisées, tout en permettant de contrôler le nombre de transcrits dans le biomarqueur. Le petit nombre de transcrits accompagné de leur représentation visuelle maximisent la compréhension et l'interprétation du biomarqueur par les professionnels de la biomédecine. Je présente un biomarqueur à 18 gènes qui permet de distinguer, à leur arrivée à l'hôpital, les patients qui vont développer des symptômes de dengue sévères de ceux qui auront une dengue non sévère. Ce biomarqueur a une performance prédictive élevée et robuste. La performance prédictive du biomarqueur a été confirmée sur deux ensembles de données qui ont tous deux utilisé différentes technologies transcriptomiques et différents sous-types de cellules sanguines.


  • Résumé

    The last 20 years have seen the emergence of powerful measurement technologies, enabling omics analysis of diverse diseases. They often provide non-invasive means to study the etiology of newly emerging complex diseases, such as the mosquito-borne infectious dengue disease. My dissertation concentrates on adapting and applying network and machine learning approaches to genomic and transcriptomic data. The first part goes beyond a previously published genome-wide analysis of 4,026 individuals by applying network analysis to find groups of interacting genes in a gene functional interaction network that, taken together, are associated to severe dengue. In this part, I first recalculated association p-values of sequences polymorphisms, then worked on mapping polymorphisms to functionally related genes, and finally explored different pathway and gene interaction databases to find groups of genes together associated to severe dengue. The second part of my dissertation unveils a theoretical approach to study a size bias of active network search algorithms. My theoretical analysis suggests that the best score of subnetworks of a given size should be size-normalized, based on the hypothesis that it is a sample of an extreme value distribution, and not a sample of the normal distribution, as usually assumed in the literature. I then suggest a theoretical solution to this bias. The third part introduces a new subnetwork search tool that I co-designed. Its underlying model and the corresponding efficient algorithm avoid size bias found in existing methods, and generates easily comprehensible results. I present an application to transcriptomic dengue data. In the fourth and last part, I describe the identification of a biomarker that detects dengue severity outcome upon arrival at the hospital using a novel machine learning approach. This approach combines two-dimensional monotonic regression with feature selection. The underlying model goes beyond the commonly used linear approaches, while allowing controlling the number of transcripts in the biomarker. The small number of transcripts along with its visual representation maximize the understanding and the interpretability of the biomarker by biomedical professionals. I present an 18-gene biomarker that allows distinguishing severe dengue patients from non-severe ones upon arrival at the hospital with a unique biomarker of high and robust predictive performance. The predictive performance of the biomarker has been confirmed on two datasets that both used different transcriptomic technologies and different blood cell subtypes.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paris Descartes-Bibliothèque électronique. Service commun de la documentation. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.