Thèse soutenue

Régression logistique à noyau neural explicable : application à la médecine de précision

FR  |  
EN
Auteur / Autrice : Marie Guyomard
Direction : Lionel FillatreNicolas Glaichenhaus
Type : Thèse de doctorat
Discipline(s) : Automatique, traitement du signal et des images
Date : Soutenance le 29/11/2023
Etablissement(s) : Université Côte d'Azur
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : Laboratoire Informatique, signaux et systèmes (Sophia Antipolis, Alpes-Maritimes)
Jury : Président / Présidente : Florence d' Alché-Buc
Examinateurs / Examinatrices : Lionel Fillatre, Nicolas Glaichenhaus, Florence d' Alché-Buc, Blaise Hanczar, Paul Honeine, Grégoire Montavon
Rapporteurs / Rapporteuses : Blaise Hanczar, Paul Honeine, Grégoire Montavon

Résumé

FR  |  
EN

L'utilisation de l'Intelligence Artificielle pour la médecine de précision ne cesse de progresser. L'apprentissage statistique automatique est de plus en plus employé afin de personnaliser les parcours de soin des patients, comme par exemple pour la prédiction de pathologies ou la prescription de traitements adéquats. Les algorithmes de support à la décision développés dans ce but prennent en compte les caractéristiques clinico-biologiques propres à chaque patient pour émettre un diagnostic. En pratique, ces outils statistiques permettent pour un grand nombre de patients de s'affranchir de méthodes invasives, telles que les biopsies qui sont à la fois lourdes pour les patients et coûteuses pour les systèmes hospitaliers. Les méthodes développées doivent fournir nécessairement des performances satisfaisantes et fiables mais aussi des prédictions interprétables par les experts du secteur médical. Néanmoins, les méthodes les plus performantes en apprentissage automatique sont souvent aussi les plus complexes et donc les plus difficiles à interpréter.Cette thèse est consacrée au développement d'une nouvelle méthode de classification supervisée explicable, telle que la règle de décision qui en découle soit interprétable et fiable, répondant aux enjeux de la médecine de précision. Nos recherches ont été menées en étroite collaboration avec l'Institut de Pharmacologie Moléculaire et Cellulaire (IPMC) et le Service d'Hépatologie du CHU de Nice.Notre première contribution est l'introduction du modèle SATURNN (Splines Approximation Throught Understandable ReLU Neural Network). Il s'agit d'un réseau de neurones composé d'une seule couche cachée et dont la couche de sortie sigmoïde est appliquée à une fonction de score. L'architecture de ce réseau est contrainte afin que la règle de décision se réécrive comme une somme additive de splines univariées facilement interprétable. Néanmoins, comme tout réseau de neurones, nous ne disposons pas de garantie de convergence du processus d'apprentissage et donc d'unicité des estimations.Notre seconde contribution vise à s'affranchir de cette limite et proposer une méthode explicable avec une phase d'apprentissage fiable. Nous proposons dans un premier temps de linéariser localement, au voisinage de ses initialisations, la fonction de score du SATURNN. Nous démontrons qu'il est alors équivalent d'entraîner un SATURNN composé d'un grand nombre de neurones ou une régression logistique appliquée aux données préalablement transformées par la fonction de score linéarisée. Dans un second temps, nous établissons que cette transformation peut se réécrire sous la forme d'un noyau qui converge asymptotiquement vers une limite finie. Nous proposons alors un nouveau noyau déterministe qui découle directement de l'architecture du SATURNN mais qui est indépendant de son initialisation.Notre troisième contribution est l'introduction d'une Régression Logistique appliquée aux données préalablement transformées par le noyau déterministe. La segmentation des variables opérée par le noyau est elle aussi déterministe ; elle ne dépend d'aucun paramètre à apprendre mais seulement de l'ensemble de l'échantillon d'apprentissage. La règle de décision qui en résulte se réécrit comme une somme additive de splines univariées facilement interprétable. Pour l'application médicale, ces splines estimées expliquent l'impact des variables clinico-biologiques sur la variable à prédire, telle que le risque de développer la pathologie ou la réponse à un traitement. Contrairement aux modèles additifs généralisés ou aux forêts aléatoires, la règle de décision qui découle de la Régression Logistique à noyau est unique conditionnellement à l'échantillon d'apprentissage, ce qui rend son interprétation fiable. Nous proposons de ce fait un algorithme de support à la décision explicable (interprétable et fiable) adapté aux enjeux de la médecine de précision.