Méthodes statistiques d'analyse des données d'allélotypage en présence d'homozygotes

par Nicolas Meyer

Thèse de doctorat en Sciences Médicale. Recherche Clinique, Innovation technologique, Santé Publique

Sous la direction de Pierre Meyer.

Soutenue en 2007

à l'Université Louis Pasteur (Strasbourg) .


  • Résumé

    Les donnéees d'allélotypage contiennent des mesures réealisées par Polymerase Chain Reaction sur une série de microsatellites de l'ADN a¯n de déterminer l'existence d'un déséquilibre allélique pour ces microsatellites. D'un point de vue statistique, ces données sont caractérisées par un nombre important de données manquantes (en cas d'homozygotie du microsatellite), par des matrices carrées ou comportant plus de variables que de sujets, des variables biniomiales, des effectifs parfois faibles et éventuellement de la colinéarité. Les méthodes statistiques fréquentistes ont un nombre important de limites qui font choisir un cadre bayésien pour analyser ces données. En analyse univariée, l'intérêt du facteur de Bayes est exploré et différentes variantes selon l'absence ou la présence de données manquantes sont comparées. Différents types d'imputations multiples sont ensuite étudiés. Des modµeles de type méta-analyses sont également évalués. En analyse multivariéee, un modµele de type Partial Least Square est développé. Le modµele est appliqué sous une forme de modµele linéaire généralisé (régression logistique) et combiné avec l'algorithme Non Iterative Partial Least Squares, ce qui permet de gérer simultanément toutes les limites propres aux données d'alléotypage. Les propriétés de ce modµele sont explorées. Il est ensuite appliqué µa des données d'allélotypage portant sur 33 microsatellites de 104 patients porteurs d'un cancer du colon pour prédire le stade Astler-Coller de la tumeur. Un modµele avec toutes les interactions possibles entre couples de microsatellites est également réaliseé.

  • Titre traduit

    Statistical methods for allelotyping data in presence of homozygotes


  • Résumé

    Allelotyping data contain measures done using Polymerase Chain Reaction on a batch of DNA microsatellites in order to ascertain the presence or not of an allelic imbalance for this microsatellites. From a statistical point of view, those data are characterised by a high number of missing data (in case of homozygous microsatellite), square or °at matrices, binomial data, sample sizes which may be small with respect to the number of variables and possibly some colinearity. Frequentist statistical methods have a number of shortcomings who led us to choose a bayesian framework to analyse these data. For univariate analyses, the Bayes factor is explored and several variants according to the presence or absence of missing data are compared. Di®erent multiple imputations types are then studied. Meta-analysis models are also assessed. For multivariate analyses, a Partial Least Square model is developed. The model is applied under a generalised linear model (logistic regression) and combined with a Non Iterative Partial Least Squares algorithm which 3 makes it possible to manage simultaneously all the limits of allelotyping data. Properties of this model are explored. It is then applied on allelotyping data on 33 microsatellites of 104 patients who have colon cancer to predict the tumor Astler-Coller stage. A model with all possible microsatellites pairs interactions is also run.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (238 f.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. f. 212-238

Où se trouve cette thèse ?

  • Bibliothèque : Université de Strasbourg. Service commun de la documentation. Bibliothèque Blaise Pascal.
  • Disponible pour le PEB
  • Cote : Th.Strbg.Sc.2007;5397
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.