Estimation de la moyenne et de la variance de l’abondance de populations en écologie à partir d’échantillons de petite taille

par Lise Vaudor

Thèse de doctorat en Biostatistiques

Sous la direction de Nicolas Lamouroux.

Soutenue le 25-01-2011

à Lyon 1 , dans le cadre de École Doctorale Evolution Ecosystèmes Microbiologie Modélisation , en partenariat avec Milieux Aquatiques, Écologie et Pollutions (laboratoire) .

Le président du jury était René Ecochard.

Le jury était composé de Franck Torre.

Les rapporteurs étaient Pascal Monestiez, Christian Wolter.


  • Résumé

    En écologie comme dans bien d’autres domaines, les échantillons de données de comptage comprennent souvent de nombreux zéros et quelques abondances fortes. Leur distribution est particulièrement surdispersée et asymétrique. Les méthodes les plus classiques d’inférence sont souvent mal adaptées à ces distributions, à moins de disposer d’échantillons de très grande taille. Il est donc nécessaire de s’interroger sur la validité des méthodes d’inférence, et de quantifier les erreurs d’estimation pour de telles données. Ce travail de thèse a ainsi été motivé par un jeu de données d’abondance de poissons, correspondant à un échantillonnage ponctuel par pêche électrique. Ce jeu de données comprend plus de 2000 échantillons, dont chacun correspond aux abondances ponctuelles (considérées indépendantes et identiquement distribuées) d’une espèce pour une campagne de pêche donnée. Ces échantillons sont de petite taille (en général, 20 _ n _ 50) et comprennent de nombreux zéros (en tout, 80% de zéros). Les ajustements de plusieurs modèles de distribution classiques pour les données de comptage ont été comparés sur ces échantillons, et la distribution binomiale négative a été sélectionnée. Nous nous sommes donc intéressés à l’estimation des deux paramètres de cette distribution : le paramètre de moyenne m, et le paramètre de dispersion, q. Dans un premier temps, nous avons étudié les problèmes d’estimation de la dispersion. L’erreur d’estimation est d’autant plus importante que le nombre d’individus observés est faible, et l’on peut, pour une population donnée, quantifier le gain en précision résultant de l’exclusion d’échantillons comprenant très peu d’individus. Nous avons ensuite comparé plusieurs méthodes de calcul d’intervalles de confiance pour la moyenne. Les intervalles de confiance basés sur la vraisemblance du modèle binomial négatif sont, de loin, préférables à des méthodes plus classiques comme la méthode de Student. Par ailleurs, ces deux études ont révélé que certains problèmes d’estimation étaient prévisibles, à travers l’observation de statistiques simples des échantillons comme le nombre total d’individus, ou le nombre de comptages non-nuls. En conséquence, nous avons comparé la méthode d’échantillonnage à taille fixe, à une méthode séquentielle, où l’on échantillonne jusqu’à observer un nombre minimum d’individus ou un nombre minimum de comptages non-nuls. Nous avons ainsi montré que l’échantillonnage séquentiel améliore l’estimation du paramètre de dispersion mais induit un biais dans l’estimation de la moyenne ; néanmoins, il représente une amélioration des intervalles de confiance estimés pour la moyenne. Ainsi, ce travail quantifie les erreurs d’estimation de la moyenne et de la dispersion dans le cas de données de comptage surdispersées, compare certaines méthodes d’estimations, et aboutit à des recommandations pratiques en termes de méthodes d’échantillonnage et d’estimation.

  • Titre traduit

    Estimating mean and variance of populations abundance in ecology with small-sized samples


  • Résumé

    In ecology as well as in other scientific areas, count samples often comprise many zeros, and few high abundances. Their distribution is particularly overdispersed, and skewed. The most classical methods of inference are often ill-adapted to these distributions, unless sample size is really large. It is thus necessary to question the validity of inference methods, and to quantify estimation errors for such data. This work has been motivated by a fish abundance dataset, corresponding to punctual sampling by electrofishing. This dataset comprises more than 2000 samples : each sample corresponds to punctual abundances (considered to be independent and identically distributed) for one species and one fishing campaign. These samples are small-sized (generally, 20 _ n _ 50) and comprise many zeros (overall, 80% of counts are zeros). The fits of various classical distribution models were compared on these samples, and the negative binomial distribution was selected. Consequently, we dealt with the estimation of the parameters of this distribution : the parameter of mean m and parameter of dispersion q. First, we studied estimation problems for the dispersion. The estimation error is higher when few individuals are observed, and the gain in precision for a population, resulting from the exclusion of samples comprising very few individuals, can be quantified. We then compared several methods of interval estimation for the mean. Confidence intervals based on negative binomial likelihood are, by far, preferable to more classical ones such as Student’s method. Besides, both studies showed that some estimation problems are predictable through simple statistics such as total number of individuals or number of non-null counts. Accordingly, we compared the fixed sample size sampling method, to a sequential method, where sampling goes on until a minimum number of individuals or positive counts have been observed. We showed that sequential sampling improves the estimation of dispersion but causes the estimation of mean to be biased ; still, it improves the estimation of confidence intervals for the mean. Hence, this work quantifies errors in the estimation of mean and dispersion in the case of overdispersed count data, compares various estimation methods, and leads to practical recommendations as for sampling and estimation methods.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Claude Bernard. Service commun de la documentation. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.