Thèse soutenue

Approches de théorie des graphes d'ordre supérieur pour diverses données omiques

FR  |  
EN
Auteur / Autrice : Enzo Battistella
Direction : Eric DeutschNikos ParagiosMaria Vakalopoulou
Type : Thèse de doctorat
Discipline(s) : Recherche clinique, innovation technologique, santé publique
Date : Soutenance le 13/07/2021
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Cancérologie, Biologie, Médecine, Santé
Partenaire(s) de recherche : Laboratoire : Radiothérapie moléculaire et innovation thérapeutique (Villejuif, Val-de-Marne ; 2011-....)
référent : Université Paris-Saclay. Faculté de médecine (Le Kremlin-Bicêtre, Val-de-Marne ; 2020-....)
Jury : Président / Présidente : Laure Fournier
Examinateurs / Examinatrices : Karteek Alahari, Michalis Vazirgiannis, Laurent Dercle, Christophe Massard, Charlotte Robert, Vassili Soumelis
Rapporteurs / Rapporteuses : Karteek Alahari, Michalis Vazirgiannis

Résumé

FR  |  
EN

Cette thèse introduit l’usage d’approches reposant sur les « conditional random fields » à diverses applications médicales et données omiques. Ces méthodes permettent de tirer parti au mieux d’informations structurelles lourdes à interpréter et analyser. En particulier, l’emploi de la théorie des graphes d’ordre supérieur revêt un intérêt majeur pour l’expression des relations biologiques complexes. Nous démontrons leur pertinence dans les domaines du « clustering » et de la sélection de variables pour la classification. Nous nous sommes appuyés sur plusieurs applications médicales et données omiques pour mettre ces résultats en lumière. Dans un premier temps, nous avons proposé un système générique et résilient de sélection de variables et de classification que nous avons développé pour déterminer la sévérité de la maladie de patients atteints de la COVID-19. Dans ce but, nous nous sommes appuyés sur des informations extraites de segmentations automatiques des organes et zones lésées que nous avons combinées avec des informations cliniques. Nous avons identifé un nombre restraint de facteurs déterminants la classification. Nous avons obtenu des performances prometteuses dépassant celles de radiologues experts sur les tâches considérées. Nous avons étendu plus avant et adapté cette méthodologie pour traiter d'autres données omiques, maladies et attendus médicaux. Par la suite, nous avons étudié un procédé de clustering pour la définition d'une signature de gènes présentant un intérêt clinique vis-à-vis de la caractérisation pan-cancer de lésions. Bien des études se sont essayées à la description du cancer grâce à la génomique. Cependant, la grande dimensionalité des données représente un formidable obstacle. Nous avons prouvé la pertinence de la signature génétique très compacte générée par notre méthode en recourrant à des approches supervisées et non-supervisées pour la caractérisation des types et sous-types de tumeurs. Finalement, nous avons défini une nouvelle approche d'apprentissage de distance d'ordre supérieur à visée de sélection et de pondération de variables. Fort de la grande expressivité de ce paradigme, nous avons exploré diverses propriétés de théorie des graphes d'ordre supérieur et avons établi que, dans le cadre d'une tâche de classification, ils possèdent une grande expressivité et permettent d'obtenir des résultats supérieurs à ceux des méthodes standards.