Fusion statistique de fichiers de données

par Nicolas Fischer

Thèse de doctorat en Informatique

Sous la direction de Gilbert Saporta.

Soutenue en 2004

à CNAM .


  • Résumé

    La fusion statistique de fichiers a pour but de rapprocher des données issues des sources différentes. Lorsque des données sont manquantes, les techniques de fusion permettent de transférer de l’information, c’est à dire les variables d’intérêt, contenues dans un certain nombre de fichiers (fichiers donneurs) à un autre fichier(fichier receveur). Cette méthode repose sur l’existence de variables communes, aux différents fichiers. Nous proposons de nouvelles approches de modélisation des variables d’intérêt qualitatives, qui font appel à la régression logistique et la régression PLS. Celle-ci est particulièrement intéressante dans le cas de données fortement corrélées. Ces méthodes ont été appliquées à des données réelles et validées selon plusieurs critères qui permettent de s’assurer de la qualité de l’analyse. Enfin, un système d’aide à la décision performant, fondé sur l’indicateur lift, a été validé opérationnellement.

  • Titre traduit

    Statistical data fusion


  • Résumé

    It is the objective of statistical data fusion to put together data emanating from distinct sources. When data are incomplete in files, fusion methodologies enable to transfer information, i. E. Variables of interest which are available in the so called donor files into a recipient file. This technique is based on the presence of common variables between the different files. We introduce new models for qualitative data which involve logistic and PLS regression. The latter is of special interest when dealing with highly correlated data set. These methods have been successfully tested on real data set and validated according to several criteria assessing the quality of statistical analysis. Finally, a decision making process has been operationally validated by using the lift indicator.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 130 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p.127-130

Où se trouve cette thèse ?

  • Bibliothèque : Conservatoire national des arts et métiers (Paris). Bibliothèque Centrale.
  • Non disponible pour le PEB
  • Cote : Th A 483
  • Bibliothèque : Conservatoire national des arts et métiers (Paris). Bibliothèque Centrale.
  • Disponible pour le PEB
  • Cote : Th A 483 double

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Conservatoire national des arts et métiers (Paris). Bibliothèque Centrale.
  • Disponible pour le PEB
  • Cote : MFT 357
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.