Apprentissage de réseaux causaux avec variables latentes et applications à des contextes génomiques et cliniques

par Louis Verny

Thèse de doctorat en Informatique

Sous la direction de Hervé Isambert.

Soutenue le 04-12-2017

à Paris 6 , dans le cadre de École doctorale Informatique, télécommunications et électronique de Paris , en partenariat avec Physico-Chimie-Curie / PCC (laboratoire) .

Le président du jury était Pierre Charbord.

Le jury était composé de Leïla Perié.

Les rapporteurs étaient Etienne Birmelé, Denis Thieffry.


  • Résumé

    L’algorithme développé durant ma thèse utilise la théorie de l’information pour l’apprentissage d’une grande variété de classes de modèles graphiques à partir de données issues uniquement de l’observation d’un système. Il permet également de prendre en compte les effets de variables dites « latentes » c’est-à-dire non observées durant l’expérimentation, un problème majeur de ce domaine de recherche. Notre méthode, baptisée Miic (Multivariate Information-based Inductive Causation), part d’un réseau entièrement connecté, et supprime de façon itérative les liens non essentiels à l’explication des données. La seconde partie de mon travail de thèse a été d’analyser les réseaux reconstruits sur deux types de données biologiques. Des données génomiques d’une part : Miic a été utilisé pour reconstituer les réseaux d’interactions transcriptomiques entre les facteurs de transcriptions responsables de la différentiation des premières cellules hématopoïétiques de l’embryon. Des données cliniques d’autre part : Miic a également été utilisé sur deux jeux de données issus de deux cohortes distinctes, obtenues grâce à des collaborations avec la Pitié-Salpétrière (données de neurologie) et avec l’Institut Curie (données sur le cancer du sein). Nous démontrons l’apport de la reconstruction de modèles graphiques sur l’analyse et la compréhension de ces données. Les tests réalisés durant le développement ainsi que les résultats obtenus via l’analyse des résultats des différentes applications présentées dans ce manuscrit démontrent l’efficacité de Miic non seulement pour la détection de relations précédemment inconnues, mais également pour le contrôle de la qualité de données de ce type.

  • Titre traduit

    Learning causal networks with latent variable and applications to genomic and clinical contexts


  • Résumé

    During my PhD, I worked on the development of an information theory based algorithm allowing the reconstruction of a wide variety of graphical model classes from observationnal datas. This method also allows to tackle the effect of latent (unobserved) latent variables ; which is essential given the difficultyto observe a biological/clinical system as a whole. Our method, called Miic (for Multivariate Information-based Inductive Causation), starts from a complete network (all nodes are connected to each other), and iteratively removes non essential edges from it. The second part of my thesis was to analyze and interpret the networks reconstructed from two kinds of biological datasets : Genomic dataset on one hand : Miic was used to learn networks of transcriptomic interactions driving the differentiation of the first hematopoietic cells of the embryo. Clinical datasets on the other hand : Miic was also used on two datasets extracted from two distinct cohort, obtained thanks to two collaborations, with la Pitié-Salpétrière (neurology dataset) and with Institut Curie Hospital (breast cancer dataset). The testing during Miic development, along with the results obtained when we analyzed the different applications presented in this manuscript show Miic’s efficiency at both confirming already known interactions, and getting previously unknown associations.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Sorbonne Université. Bibliothèque de Sorbonne Université. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.