Statistical Methods to Combine SPN and CNV Information in Genome-Wide Association Studies : An Application to Bladder Cancer

par Gaëlle Marenne

Thèse de doctorat en Statistique génétique

Sous la direction de Emmanuelle Génin.

Soutenue le 28-09-2012

à Paris 11 en cotutelle avec l'Universidad autonóma de Madrid , dans le cadre de École doctorale Santé publique (2000-2015 ; Paris) , en partenariat avec Variabilité Génétique et Maladies Humaines (Paris) (laboratoire) .

  • Titre traduit

    Utilisation conjointe de l'information apportée par les différents polymorphismes, SNPs et CNVs, dans les études d'association pangénomique : application au cancer de la vessie


  • Résumé

    Les variations en nombre de copies (CNV) sont des gains ou pertes d’une séquence d’ADN et peuvent avoir un rôle dans la susceptibilité à certaines maladies. Les CNVs peuvent être détectés par les puces de SNPs de haute résolution en analysant les intensités des allèles avec des algorithmes de détection des CNVs tels que CNV partition, PennCNV et QuantiSNP. Dans cette thèse, nous avons évalué les performances de ces outils pour la détection des CNVs au niveau pangénomique et pour les tests d'association. Nous avons également étudié des stratégies d'association combinant les informations de l'allèle et du nombre de copies pour des SNP situés dans des CNV. Nous avons appliqué ces outils pour mener une étude d’association pan-génomique avec les CNV en utilisant les données de l'étude espagnole du cancer de lavessie (SBC)/EPICURO générées par la puce Illumina 1M.Nos résultats montrent une faible fiabilité et une faible sensibilité des algorithmes de détection des CNV. Dans la région du gène GSTM1 où un CNV très fréquent existe qui est associé au risque de cancer de la vessie, nous avons constaté que les algorithmes de détection des CNV ont de faibles performances. Néanmoins, l’utilisation de la mesure d'intensité des allèles dans les tests d'association peut alors être une alternative intéressante car cela nous a permis de détecter cette association connue. Pour les SNPs situés dans des CNVs, nous avons étudié plusieurs stratégies de tests d'association et nous avons montré que la plus puissante était d’utiliser un modèle avec deux termes correspondant respectivement à la somme et à la différence du nombre de copies des deux allèles. Finalement, en appliquant ces stratégies à l'étude (SBC)/EPICURO, nous avons identifié des CNVs potentiellement associés au risque de cancer de la vessie, ainsi que des SNP dont l'allèle et le nombre de copies pourraient être impliqués dans le risque de cancer de la vessie.


  • Résumé

    Copy number variations (CNVs) are losses or gains of DNA sequences that may play a role in specific disease susceptibility. CNVs can be detected by high-resolution SNP-arrays through the analysis of allele intensities with CNV calling algorithms such as CNVpartition, PennCNV and QuantiSNP. In this thesis, we identified and assessed the performances of available tools for CNV calling and for association testing, at the genome-wide level. We also investigatedassociation strategies that combine information on both the allele and the number of copies for SNPs located in CNV regions. We applied these tools to conduct a genome-wide association study with CNV using data from the Spanish Bladder Cancer (SBC)/EPICURO Study generated by the Illumina 1M SNP-array. Our results showed a low reliability and a low sensitivity of the investigated CNV calling algorithms applied to SNP-array data. The GSTM1 locus shows a very frequent CNV that is associated with bladder cancer (BC) risk. We reported that the calling algorithms performed very poorly in identifying this CNV. We proposed using allele intensity measures (LRR) as a screening step to assess association as it allowed the detection of the GSTM1 CNV association with BC. To combine the allele and the number of copies for SNPs located in CNV regions, we investigated several strategies of association testing and we showed that the more powerfulone used a two-term model with the sum and the difference of the number of copies of both alleles. Finally, by applying these strategies to the (SBC)/EPICURO Study, we identified CNV regions potentially associated with BC risk, as well as SNPs for which both the allele and the number of copies could be involved in BC risk.


Le texte intégral de cette thèse n'est pas accessible en ligne.
Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse ?