Développement de méthodes d'intégration de sources de connaissances hétérogènes pour une annotation unifiée de groupes de gènes

par Aarón AyllóN-BeníTez

Projet de thèse en Informatique

Sous la direction de Patricia Thébault et de Fleur Mougin.

Thèses en préparation à Bordeaux , dans le cadre de Mathématiques et Informatique , en partenariat avec LaBRI - Laboratoire Bordelais de Recherche en Informatique (laboratoire) et de Modèles et Algorithmes pour la Bioformatique et la Visualisation d'Informations (equipe de recherche) depuis le 30-08-2016 .


  • Résumé

    Les récentes révolutions en nouvelles technologies de séquençage ont forcément impacté la compréhension des relations entre le génotype (l'information génétique d'un organisme) et phénotype (l'ensemble des traits observables d'un organisme après l'interaction entre le génotype et l'environnement). La clé des études qui utilisent cette technique est d'identifier des groupes des gènes ayant des fonctions biologiques en commun et ainsi mieux comprendre leurs rôles dans un phénotype. Par contre, un seul gène peut contenir un grand nombre de fonctions et processus biologiques. Par exemple, chez l'humain, le nombre moyenne de termes par gène est 10, donc le si le groupe à étudier contiens une centaine de gènes, l'analyse peut compliquer la compréhension. Une solution a ce problème est d'appliquer des stratégies qui utilisent des modèles statistique afin de montrer seulement les termes d'annotation qui sont sur-représentés. Cette stratégie présente des problèmes malgré de bonnes approximations. Pour représenter un bon résultat, seuls les gènes les mieux annotés sont considérés, ce qui fait perdre de l'information. Le nombre de termes d'annotation d'une source de connaissance donnée peut aussi présenter des redondances. Aussi, l'utilisation de différentes sources de connaissances de façon indépendante peut générer des difficultés pour la bonne compréhension des résultats. Pour toutes ces raisons, le projet à pour objectif la création d'un algorithme capable d'annoter des groupes de gènes en utilisant toutes les sources des connaissances existantes pour ce groupe. Pour cela seront employées des méthodes interdisciplinaires comme le web sémantique et le data mining ayant pour but de synthétiser toute l'information disponible pour ce groupe et ainsi faciliter l'interprétation pour les biologiste et médecins orientés dans la génomique.

  • Titre traduit

    Developping new methods integrating heterogeneous knowledge sources for an unified gene set annotation


  • Résumé

    The recent revolutions in new sequencing technologies have inevitably impacted the understanding of the relationships between genotype (the genetic information of an organism) and phenotype (the set of observable traits of an organism after the interaction between genotype and environment). The key to studies using this technique is to identify groups of genes with common biological functions and thus better understand their roles in a phenotype. On the other hand, a single gene can contain a large number of biological functions and processes. For example, in humans, the average number of terms per gene is 10, so if the group to be studied contains about a hundred genes, the analysis may complicate understanding. One solution to this problem is to apply strategies that use statistical models to show only the annotation terms that are over-represented. This strategy presents problems despite good approximations. To represent a good result, only the best annotated genes are considered, which causes loss of information. The number of annotation terms of a given knowledge source may also have redundancies. Also, the use of different sources of knowledge independently can lead to difficulties in understanding the results. For all these reasons, the goal of the project is to create an algorithm that annotates gene clusters using all existing sources of knowledge for this group. For this purpose, interdisciplinary methods such as the semantic web and data mining will be used to synthesize all the information available for this group and thus facilitate interpretation for biologists and clinicians.