Recherche d'associations séquentielles et alignement d'ontologies biologiques

par Bastien Rance

Thèse de doctorat en Informatique

Sous la direction de Christine Froidevaux.

Soutenue en 2009

à Paris 11 , en partenariat avec Université de Paris-Sud. Faculté des Sciences d'Orsay (Essonne) (autre partenaire) .


  • Résumé

    Le thème principal de cette thèse est l’annotation fonctionnelle, qui consiste à associer à une protéine sa ou ses fonctions biologiques. Nous nous sommes intéressés à deux aspects. Dans un premier temps, nous avons testé l’hypothèse biologique selon laquelle l’ordre des domaines dans une protéine pourrait jouer un rôle dans la fonction biologique de celle-ci. Pour cela, nous avons introduit la notion de pépites séquentielles de connaissance comme une association séquentielle entre séquence d’items et une cible déterminée. Nous avons conçu et implémenté SNK, un algorithme pour rechercher ces pépites. Pour répondre à un besoin de nos collaborateurs, nous avons étendu l’algorithme SNK en lui donnant une spécification plus adaptée à la biologie, puis nous avons utilisé avec succès SNK pour l’étude d’une famille protéique. Dans un second temps, nous avons travaillé sur les ontologies biologiques et les hiérarchies fonctionnelles que les experts biologistes utilisent pour l’annotation. Il existe de ces vocabulaires contrôlés et structurés exprimant chacun un point de vue sur l’annotation. Pour permettre de travailler avec l’ensemble de ces données d’annotation dans le cadre de travaux de génomique comparative. Il est apparu nécessaire de mettre en correspondance des ontologies biologiques. Nous avons choisi de développer une méthode de mapping, O’Browser, prenant en compte les spécificités des ontologies biologiques, en introduisant un matcher utilisant les relations d’homologie entre les protéines annotées par ces ontologies et la notion de pondération adaptative des ces matchers. Cette méthode a été utilisée pour l’alignement de deux hiérarchies fonctionnelles.

  • Titre traduit

    Sequential association rule mining and mapping of biological ontologies


  • Résumé

    The main topic of this thesis is functional annotation. Functional annotation consist in associating biological functions to proteins. We explored two aspects of functional annotation. On one hand, we have tested the hypothesis that the order of domains in a protein could play a role in its biological function. We have introduced the new notion of sequential nugget of knowledge as an association of a sequence of items with a predetermined target. We have designed and implemented SNK, an algorithm that finds such nuggets of knowledge. SNK algorithm has been modified to be well adapted to biological needs expressed by our biologist collaborators. SNK has been successfully used to study a protein family. On the other band, we were interested in biological ontologies and functional hierachies used by experts to perform functional annotation. Many of these structured and controlled vocabulary exist and express various aspects on the annotation. The mapping of biological ontologies appeared as a need to be able to study the whole annotation data for genomics purpose. We have chosen to develop a dedicated method O’Browser, that use specificity of biological ontologies by using (i) a matcher based on homology relationships between proteins annotated with the ontologies the alignement of two functional hierachies.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (140 p.)
  • Annexes : Bibliogr. p. 133-140

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Sud (Orsay, Essonne). Service Commun de la Documentation. Section Sciences.
  • Disponible pour le PEB
  • Cote : 0g ORSAY(2009)116
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.