Développement d'outils biostatisques et bioinformatiques de prédiction et d'analyse des défauts de l'épissage : application aux gènes de prédisposition aux cancers du sein et de l'ovaire - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2019

Development of bioinformatics and biostatistics tools to predict and analyze splicing defects : use case about genes involved in hereditary breast and ovarian cancers

Développement d'outils biostatisques et bioinformatiques de prédiction et d'analyse des défauts de l'épissage : application aux gènes de prédisposition aux cancers du sein et de l'ovaire

Résumé

Analysis of splicing defects is particularly complex. In addition to the diversity of physiological transcripts, nucleotidic variations can induce heterogeneous alteration of splicing. These variations, called spliceogenic variants, and their impact on splicing, can involve severe consequences on the individual phenotype.In this thesis work, we focused on three main aspects of the study of splicing defects: (i) the prediction of these splicing defects, (ii) the analysis of RNA-seq data and (iii) the role of splicing in interpreting the pathogenicity of a variant for the hereditary breast and ovarian cancers (HBOC syndrome).We optimized the current recommendations to identify spliceogenic variants within the consensus sequences of splicing sites. This work led to the publication of a new tool, SPiCE (Splicing Prediction in Consensus Elements), developed on 395 variants. SPiCE has the potential to be a decision support tool to guide geneticists towards these spliceogenic variants, with an accuracy of 94.4%. Then, we compared the tools dedicated to branch points prediction. For this purpose, an unprecedented collection of 120 variants with their RNA studies has been established in the branch point region. Thus, we revealed these prediction tools are able to prioritize variants for RNA studies in these hitherto poorly studied regions. To extend the predictions of spliceogenic variants beyond a specific motif, we built SPiP (Splicing Prediction Pipeline) tool. SPiP uses a set of tools to predict a splicing defect regardless of the variant position. Thus, SPiP can address the diversity of splicing defects with an accuracy of 80.21%, on a collection of 2,784 variants.The data from the RNA-seq are complex to analyze, as there are few tools to finely annotate alternative splices. Also we published SpliceLauncher tool. This tool allows to determine a wide variety of splicing junctions, independently of RNA-seq systems used. This tool also returns the results in graphical form to make interpretation user-friendly.Then we evaluated the role of alternative splicing in the clinical interpretation of a variant. The PALB2 gene, involved in HBOC syndrome, was used as a study model. Thus, we demonstrated that the alternative splicing of PALB2 is able of challenging the pathogenicity of certain variants. Collection of functional and clinical data is therefore necessary to conclude on their pathogenicity.Our work thus illustrates the importance of characterizing and interpreting splicing modifications to meet the current and future challenges of molecular diagnosis in human genetics.
L’analyse des défauts d’épissage est particulièrement complexe. Outre la diversité des transcrits présents à l’état physiologique, les variations nucléotidiques peuvent induire des modifications hétéroclites de l’épissage. Ces variations, appelées variants splicéogéniques, et leur impact au niveau de l’épissage, sont à même de modifier plus ou moins sévèrement le phénotype de l’individu.Au cours de ce travail de thèse, nous nous sommes intéressés à trois grands aspects de l’étude des défauts de l’épissage : (i) la prédiction de ces défauts d’épissage, (ii) l’analyse des données de RNA-seq et (iii) le rôle de l’épissage dans l’interprétation de la pathogénicité d’un variant pour la prédisposition aux cancers du sein et de l’ovaire (syndrome HBOC).Nous avons optimisé les recommandations en vigueur pour identifier les variants splicéogéniques au sein des séquences consensus des sites d’épissage. Ce travail a conduit à la publication d’un nouvel outil SPiCE (Splicing Prediction in Consensus Elements), développé sur 395 variants. SPiCE a le potentiel d’être une aide à la décision pour guider les généticiens vers ces variants splicéogéniques, grâce à une exactitude de 94.4 %. Puis, nous avons comparé les outils de prédiction des points de branchement. Pour cela, une collection sans précédente de 120 variants avec leurs études ARN a été établi dans la région des points de branchements. Nous avons ainsi révélé que ces outils de prédictions sont aptes à prioriser les variants pour des études ARN dans ces régions jusque-là peu étudiées. Pour étendre les prédictions des variants splicéogéniques au-delà d’un motif spécifique, nous avons construit l’outil SPiP (Splicing Prediction Pipeline). SPiP utilise un ensemble d’outils pour prédire un défaut d’épissage quel que soit la position du variant. Ainsi, SPiP peut ainsi s’adresser à la diversité des défauts d’épissage avec une exactitude de 80.21 %, sur une collection de 2 784 variants.Les données issues du RNA-seq sont complexes à analyser, car il existe peu d’outils pour annoter finement les épissages alternatifs. Aussi nous avons publié l’outil SpliceLauncher. Cet outil permet de déterminer une grande diversité de jonctions d’épissage, indépendamment des systèmes RNA-seq utilisés. Cet outil renvoie aussi les résultats sous formes graphiques pour faciliter leur interprétation.Puis nous avons évalué le rôle de l’épissage alternative dans l’interprétation à usage clinique d’un variant. Le gène PALB2, impliqué dans le syndrome HBOC, a été utilisé comme modèle d’étude. Nous avons ainsi démontré que l’épissage alternatif de PALB2 est apte à remettre en cause la pathogénicité de certains variants. La collecte de données fonctionnelles et cliniques sont donc nécessaires pour conclure sur leur pathogénicité.Nos travaux illustrent ainsi l’importance de la caractérisation et de l’interprétation des modifications de l’épissage pour répondre aux défis présents et futurs du diagnostic moléculaire en génétique.
Fichier principal
Vignette du fichier
leman.pdf (24.44 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-02454489 , version 1 (24-01-2020)

Identifiants

  • HAL Id : tel-02454489 , version 1

Citer

Raphaël Leman. Développement d'outils biostatisques et bioinformatiques de prédiction et d'analyse des défauts de l'épissage : application aux gènes de prédisposition aux cancers du sein et de l'ovaire. Médecine humaine et pathologie. Normandie Université, 2019. Français. ⟨NNT : 2019NORMC418⟩. ⟨tel-02454489⟩
562 Consultations
116 Téléchargements

Partager

Gmail Facebook X LinkedIn More