Thèse soutenue

Alignement pratique de structure-séquence d'ARN avec pseudonœuds

FR  |  
EN
Auteur / Autrice : Wei Wang
Direction : Alain Denise
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 18/12/2017
Etablissement(s) : Université Paris-Saclay (ComUE)
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de recherche en informatique (Orsay, Essonne ; 1998-2020) - Laboratoire d'informatique de l'École polytechnique (Palaiseau, Essonne)
: Université Paris-Sud (1970-2019)
Jury : Président / Présidente : Hélène Touzet
Examinateurs / Examinatrices : Alain Denise, Hélène Touzet, Jan Gorodkin, Guillaume Fertin, Yann Ponty, Johanne Cohen, Laurent Bulteau
Rapporteurs / Rapporteuses : Jan Gorodkin, Guillaume Fertin

Résumé

FR  |  
EN

Aligner des macromolécules telles que des protéines, des ADN et des ARN afin de révéler ou exploiter, leur homologie fonctionnelle est un défi classique en bioinformatique, qui offre de nombreuses applications, notamment dans la modélisation de structures et l'annotation des génomes. Un certain nombre d'algorithmes et d'outils ont été proposés pour le problème d'alignement structure-séquence d'ARN. Cependant, en ce qui concerne les ARN complexes, comportant des pseudo-noeuds, des interactions multiples et des paires de bases non canoniques, de tels outils sont rarement utilisés dans la pratique, en partie à cause de leurs grandes exigences de calcul, et de leur incapacité à supporter des types généraux de structures. Récemment, Rinaudo et al. ont donné un algorithme paramétré général pour la comparaison structure-séquence d'ARN, qui est capable de prendre en entrée n'importe quel type de structures comportant des pseudo-noeuds. L'algorithme paramétré est un algorithme de programmation dynamique basée sur la décomposition arborescente. Nous avons développé plusieurs variantes et extensions de cet algorithme. Afin de l'accélérer sans perte sensible de précision, nous avons introduit une approche de programmation dynamique par bandes. De plus, trois algorithmes ont été développés pour obtenir des alignements sous-optimaux. De plus, nous introduisons dans ce contexte la notion de MEA (Maximum-expected Structure-Alignment) pour calculer un alignement avec la précision maximale attendue sur un ensemble d'alignements. Tous ces algorithmes ont été implémentés dans un logiciel nommé LiCoRNA (aLignment of Complex RNAs). Les performances de LiCoRNA ont été évaluées d'abord sur l'alignement des graines des familles de de la base de données RFAM qui comportent des pseudo-noeuds. Comparé aux autres algorithmes de l'état de l'art, LiCoRNA obtient généralement des résultats équivalents ou meilleurs que ses concurrents. Grâce à la grande précision démontrée par LiCoRNA, nous montrons que cet outil peut être utilisé pour améliorer les alignements de certaines familles de RFAM qui comportent des pseudo-noeuds.