Analyse en Composantes Indépendantes du transcriptome de cancers

par Anne Biton

Thèse de doctorat en Cancérologie

Sous la direction de François Radvanyi.

Soutenue le 28-06-2011

à Paris 11, dans le cadre de Ecole doctorale Cancérologie : Biologie, Médecine, Santé (Kremlin-Bicêtre, Val-de-Marne), en partenariat avec INSERM U900 (laboratoire) et de CNRS UMR 144 (équipe de recherche) .

Le président du jury était Christine Froidevaux.

Le jury était composé de François Radvanyi, Alex Duval, Andrew Teschendorff.

Les rapporteurs étaient Alex Duval, Andrew Teschendorff.


  • Résumé

    L'analyse de données d'expression montre qu'il est avantageux d'analyser les processus biologiques en termes de modules plutôt que simplement considérer les gènes un par un. Dans ce projet nous avons conduit une analyse non supervisée des données d'expression de gènes de plusieurs cohortes de tumeurs urothéliales en appliquant la méthode d'Analyse en Composantes Indépendantes. Plusieurs études ont démontré les meilleures performances de l'ACI par rapport à l'ACP et les méthodes de clustering, pour obtenir une décomposition plus réaliste des données d'expression en patterns d'expression pertinents et associés avec le phénotype d'intérêt.Les tumeurs urothéliales apparaissent et évoluent selon deux voies distinctes dont la probabilité de progression en cancer musculo-invasif diffère radicalement. Excepté la mutation de FGFR3 dans le groupe le moins agressif, les processus moléculaires sous-jacents n'ont pas été complètement identifiés. Le principal objectif de cette thèse était dédié aux interprétations biologiques des différentes composantes indépendantes pour aider à confirmer et étendre la liste des processus biologiques connus pour être impliqués dans le cancer de vessie.Chaque composante indépendante est caractérisée par une liste de projections de gènes et de contributions pondérées d'échantillons tumoraux . En combinant expertise biologique et comparaison des listes de gènes à des voies existantes et en étudiant conjointement l'association des composantes aux annotations cliniques et moléculaires, nous avons pu différencier les CIscausées par des facteurs techniques, tels que le prélèvement chirurgical de celles ayant des interprétations biologiques pertinentes. De plus, parmi les signaux pertinents biologiquement, cette analyse nous a permis de différencier les signaux provenant du stroma, comme la réponse immunitaire médiée par les lymphocytesB&T, de ceux produits par les tumeurs elles-mêmes, comme les signaux reliés à la prolifération ou à la différenciation. La classification des tumeurs selon leurs contributions à certaines CIs a pu être étroitement associée à des annotations anatomo-cliniques, et a mis en évidence de nouveaux sous-types de tumeur spotentiels, qui suggèrent l'existence de voies de progression supplémentaires dans le cancer de vessie. De façon similaire, l'étude des contributions de groupes de tumeurs basés sur des annotations cliniques ou moléculaires a montré différents niveaux de contamination par le stroma entre les tumeurs mutées et nonmutées pour FGFR3.La reproductibilité des composantes a été étudiée en utilisant des graphes de corrélation. La majeure partie des CIs interprétées a été validée sur trois jeux de données indépendants, et plusieurs d'entre elles ont aussi détectées dans un jeu de données de lignées cellulaires.Une deuxième étude sur le rétinoblastome a montré que nous pouvions tirer partie de l'ACI dans des contextes variés. Le rétinoblastome est initié par la perte des deux alléles du gène suppresseur de tumeur RB1. D'autres évènements génomiques non identifiés sont nécessaires à la progression de la maladie. Nous avons observé une association entre âge des patients et altérations génomiques. Les patients jeunes présentant moins d'altérations que les patients âgés, ces derniers présentant des gains du 1q et des pertes du 16q. Cette séparation des tumeurs selon l'âge est également observée sur les données d'expression, notamment en appliquant l'ACI dont l'une des composantes discrimine les patients selon leur âge. Ces résultats suggèrent l'existence de deux voies de progression dans le rétinoblastome. L'analyse des données à haut débit fournit de nombreuses listes de gènes. Afin de les interpréter, une possibilité est d'extraire les dernières publications groupées par sujets prédéfinis (fonction, localisation,...).Dans ce but, nous avons introduit une application Web Java nommée GeneValorization qui donne un aperçu clair de la bibliographie correspondant à une liste de gènes donnée.

  • Titre traduit

    Independent Component Analysis of cancer transcriptome


  • Résumé

    Practice of gene expression data analysis shows that it is advantageous to analyze biologicalprocesses in terms of modules rather than simply consider gene one by one. In this project, we conducted anunsupervised analysis of the gene expression data of several cohorts of urothelial tumors, applying theIndependent Component Analysis method. Several studies demonstrated the outperformance of ICA overPCA and clustering-based methods in obtaining a more realistic decomposition of the expression data intoconsistent patterns of coexpressed genes associated with the studied phenotypes[1, 2, 3, 4].Urothelial tumors arise and evolve through two distinct pathways which radically differ on their probabilityof progression to muscle invasion. Except the mutation of FGFR3 in the less aggressive group, theunderlying molecular processes have not been completely identified. The first and main objective of the PhDthesis was dedicated to the biological interpretation of the different independent components to help toconfirm and extend the list of biological processes known to be involved in bladder cancer.Each independent component (IC) is characterized by a list of gene projections on the one hand and weightedcontributions of tumor samples on the other hand. By combining biological expertise and comparison of theassociated list of genes to known pathways, and jointly studying the association of the components tomolecular and clinical annotations, we have been able to differentiate components that were caused bytechnical factors, such as surgical sampling, from those having consistent biological interpretationin terms of tumor biology. Moreover, among the biologically meaningful signals, this analysis allowed us todifferentiate the signals from stroma of the tumor, like immune response mediated by B- and T-lymphocytes,from the signals produced by the tumors themselves, like signals related to proliferation, or differentiation.The clustering of the tumor samples according to their contributions on some ICs can be closely associated toanatomo-clinical annotations, and highlighted new potential subtypes of tumors which suggest existence ofadditional pathways of bladder cancer progression. Similarly, the study of the contributions of preestablishedgroups of tumors based on clinical or molecular criteria showed different levels of stromacontamination between FGFR3 non-mutated and mutated tumors. The reproducibility of the components wasinvestigated using correlation graphs. The major part of the interpreted ICs was validated on threeindependent bladder cancer datasets, and several of them were also identified in an urothelial cancer celllines data set.A second study about retinoblastoma gave us the occasion to show that we can take advantage ofICA in various contexts. Retinoblastoma is initiated by the loss of both alleles of the RB1 tumor suppressorgene. Although necessary for initiation, other genomic events, that remain to be identified, are needed for theprogression of the disease [5]. We observed, as it was previously described [6], an association between age ofthe patients and levels of genomic aberrations, the younger patients having fewer alterations than the olderpatients, which generally present gain of 1q and loss of 16q. We showed that this tendency of the tumors tobe clustered into two groups of age can also be observed on the expression data by applying ICA whose oneof the component was highly correlated to the age of the patients. These results suggest the existence of twopathways of progression in retinoblastoma.The analysis of high throughput data provides many lists of genes. To interpret them, a possibility isto study the latest related publications grouped by pre-defined group of topics (function, cellular location...).To that aim, in a third study, we introduced a web-based Java application tool named GeneValorization whichgives a clear and handful overview of the bibliography corresponding to one particular gene list [7].


Le texte intégral de cette thèse n'est pas accessible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Où se trouve cette thèse ?

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.