Thèse de doctorat en Biologie moléculaire et cellulaire
Sous la direction de Daniel Kayser.
Soutenue en 1996
à Paris 13 .
Nous étudions une classe de problèmes d'apprentissage caractérisée par l'absence de contre-exemples, chaque exemple du concept cible étant représenté de manière ambigüe par plusieurs descriptions dont une seule, à priori inconnue, est réelle. Le problème pose est double puisqu'il s'agit d'apprendre les caractéristiques les plus spécifiques communes aux exemples, ce qui revient implicitement à identifier ces derniers. Le principe de résolution est fondé sur la recherche de similarités répétées dont la distribution émerge des ressemblances aléatoires. Nous montrons que cette classe de problèmes nécessite une nouvelle définition de la complétude et de la consistance, et qu'en fixant certaines limites à l'utilisation de la négation il est possible de construire une méthode de résolution générale. Le problème de la prédiction de la structure secondaire commune à un groupe de séquences d'ARN relevant de cette classe, nous proposons de le résoudre avec la méthode précitée. En l'occurrence nous construisons, pour chaque séquence, les plus grandes structures valides optimisant un critère d'énergie directement corrélé à la plausibilité d'une structure, critère que l'on ne peut exploiter pour déterminer directement la structure secondaire. Une représentation originale permet de coder ces structures, ainsi que leurs sous-structures, sous la forme d'un dictionnaire, dont les plus longs préfixes qui satisfont un taux minimal de répétition désignent les structures secondaires candidates que nous identifions au moyen d'un algorithme de complexité linéaire. Une mesure permet de classer les structures candidates en établissant la plausibilité de chacune d'elles en fonction de son taux de répétition effectif dans les séquences, comparativement à son taux à priori, calculé sur des séquences aléatoires. Les premiers résultats sur plusieurs groupes de séquences sont encourageants puisque la structure secondaire a été découverte sans aucune information préalable.
Learning from ambiguous examples: theoretical study and application to the discovery of common structures to a set of RNA sequences
Pas de résumé disponible.