Apprentissage à partir d'exemples ambigus : étude théorique et application à la découverte de structures communes à un ensemble de séquences d'ARN

par Dominique Bouthinon

Thèse de doctorat en Biologie moléculaire et cellulaire

Sous la direction de Daniel Kayser.

Soutenue en 1996

à Paris 13 .


  • Résumé

    Nous étudions une classe de problèmes d'apprentissage caractérisée par l'absence de contre-exemples, chaque exemple du concept cible étant représenté de manière ambigüe par plusieurs descriptions dont une seule, à priori inconnue, est réelle. Le problème pose est double puisqu'il s'agit d'apprendre les caractéristiques les plus spécifiques communes aux exemples, ce qui revient implicitement à identifier ces derniers. Le principe de résolution est fondé sur la recherche de similarités répétées dont la distribution émerge des ressemblances aléatoires. Nous montrons que cette classe de problèmes nécessite une nouvelle définition de la complétude et de la consistance, et qu'en fixant certaines limites à l'utilisation de la négation il est possible de construire une méthode de résolution générale. Le problème de la prédiction de la structure secondaire commune à un groupe de séquences d'ARN relevant de cette classe, nous proposons de le résoudre avec la méthode précitée. En l'occurrence nous construisons, pour chaque séquence, les plus grandes structures valides optimisant un critère d'énergie directement corrélé à la plausibilité d'une structure, critère que l'on ne peut exploiter pour déterminer directement la structure secondaire. Une représentation originale permet de coder ces structures, ainsi que leurs sous-structures, sous la forme d'un dictionnaire, dont les plus longs préfixes qui satisfont un taux minimal de répétition désignent les structures secondaires candidates que nous identifions au moyen d'un algorithme de complexité linéaire. Une mesure permet de classer les structures candidates en établissant la plausibilité de chacune d'elles en fonction de son taux de répétition effectif dans les séquences, comparativement à son taux à priori, calculé sur des séquences aléatoires. Les premiers résultats sur plusieurs groupes de séquences sont encourageants puisque la structure secondaire a été découverte sans aucune information préalable.

  • Titre traduit

    Learning from ambiguous examples: theoretical study and application to the discovery of common structures to a set of RNA sequences


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 28 p.
  • Annexes : 237 ref.

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paris 13 (Villetaneuse, Seine-Saint-Denis). Bibliothèque universitaire.
  • Disponible pour le PEB
  • Cote : TH 1996 044

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université Grenoble Alpes (Saint-Martin d'Hères, Isère). Bibliothèque et Appui à la Science Ouverte. Bibliothèque universitaire Joseph-Fourier.
  • Accessible pour le PEB
  • Cote : MF-1996-BOU
  • Bibliothèque : Université Paris-Est Créteil Val de Marne. Service commun de la documentation. Section multidisciplinaire.
  • PEB soumis à condition
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.