Apprentissage à partir de données diversement étiquetées pour l'étude du rôle de l'environnement local dans les interactions entre acides aminés

par Christophe Nicolas Magnan

Thèse de doctorat en Mathématiques, informatique et mécanique. Informatique

Sous la direction de François Denis et de Cécile Capponi.

Soutenue en 2007

à Aix-Marseille 1 , en partenariat avec Université de Provence. Section sciences (autre partenaire) .


  • Résumé

    Nous étudions le problème bioinformatique de la prédiction de contacts ponctuels entre résidus distants sur la séquence d'une protéine. L'étude de l'état de l'art sur ce problème a fait ressortir des questions sur la modélisation de ce problème ainsi que sur le rôle de l'environnement local des acides aminés appariés dans la formation de ces contacts. Plusieurs considérations biologiques d'une part, et des expérimentations d'autre part, montrent la nécessité d'étudier deux contextes d'apprentissage jusqu'ici peu connus et peu étudiés pour répondre à ces questions. Nous montrons que ces deux contextes d'apprentissage sont mal posés dans le cadre général de l'apprentissage statistique, mais que certaines hypothèses sur les distributions sous-jacentes permettent de les rendre bien posés. Des adaptations de méthodes connues de l'apprentissage à ces contextes sont proposées puis utilisées pour tenter de répondre aux questions biologiques initialement posées

  • Titre traduit

    Learning from variously labelled data for the study of the role of the local environment in the interactions between amino acids


  • Résumé

    The 3D structure of proteins is constrained by some interactions between distant amino acids in the primary sequences. An accurate prediction of these bonds may be a step forward for the prediction of the 3D structure from sequences. A review of the literature raises questions about the role of the neighbourhood of bonded amino acids in the formation of these bonds. We show that we have to investigate uncommon learning frameworks to answer these questions. The first one is a particular case of semi-supervised learning, in which the only labelled data to learn from belong to one class, and the second one considers that the data are subject to class-conditional classification noise. We show that learning in these frameworks leads to ill-posed problems. We give some assumptions that make these problems well-posed. We propose adaptations of well-known methods to these learning frameworks. We apply them to try to answer the questions on the biological problem considered in this study

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (182 p.)
  • Annexes : Bibliographie p. 173-182

Où se trouve cette thèse ?