A priori structurés pour l'apprentissage supervisé en biologie computationnelle

par Laurent Jacob

Thèse de doctorat en Bio-informatique

Sous la direction de Jean-Philippe Vert.

Soutenue en 2009

à Paris, ENMP .


  • Résumé

    Les méthodes d'apprentissage supervisé sont utilisées pour construire des fonctions prédisant efficacement le comportement de nouvelles entités à partir de données observées. Elles sont de ce fait très utiles en biologie computationnelle, où elles permettent d'exploiter la quantité grandissante de données expérimentales disponible. Dans certains cas cependant, la quantité de données disponible n'est pas suffisante par rapport à la complexité du problème d'apprentissage. Heureusement ce type de problème mal posé n'est pas nouveau en statistiques. Une approche classique est d'utiliser des méthodes de régularisation ou de manière équivalente d'introduire un a priori sur la forme que la fonction devrait avoir. Dans cette thèse, nous proposons de nouvelles fonctions de régularisation basées sur la connaissance biologique de certains problèmes. Dans le contexte de la conception de vaccins ou de médicaments, nous montrons comment l'utilisation du fait que les cibles similaires lient des ligands similaires permet d'améliorer sensiblement les prédictions pour les cibles ayant peu ou n'ayant pas de ligands connus. Nous proposons également une fonction prenant en compte le fait que seuls certains groupes inconnus de cibles partagent leur comportement de liaison. Finalement, dans le cadre de la prédiction de métastase de tumeurs à partir de données d'expression, nous construisons une fonction de régularisation favorisant les estimateurs parcimonieux dont le support est une union de groupes de gènes potentiellement chevauchants définis a priori, ou un ensemble de gènes ayant tendance à être connectés sur un graphe défini a priori

  • Titre traduit

    Structured priors for supervised learning in computational biology


  • Résumé

    Supervised learning methods are used to build functions which accurately predict the behavior of new objects from observed data. They are therefore extremely useful in several computational biology problems, where they can exploit the increasing amount of empirical data generated by high-throughput technologies, or the accumulation of experimental knowledge in public databases. In several cases however, the amount of training data is not sufficient to deal with the complexity of the learning problem. Fortunately this type of ill-posed problem is not new in statistics and statistical machine learning. It is classically addressed using regularization approaches, or equivalently using a prior on what the function should be like. In this thesis, we build on this principle and propose new regularization methods based on biological prior knowledge for each problem. In the context of in silico vaccine and drug design, we show how using the knowledge that similar targets bind similar ligands, one can improve dramatically the prediction accuracy for the targets with little known ligands, and even make predictions for targets with no known ligand. We also design a convex regularization function which takes into account the fact that only some unknown beforehand groups of targets tend to have the same binding behavior. Finally, in the context of outcome prediction from molecular data, we propose a regularization function which leads to sparse vector whose support is typically a union of potentially overlapping groups of genes defined a priori like, e. G. , pathways, or a set of genes which tend to be connected to each other when a graph reflecting biological information is given

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (228 p.)
  • Annexes : Bibliographie 389 réf.

Où se trouve cette thèse ?

  • Bibliothèque : Mines ParisTech. Bibliothèque.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.