Thèse soutenue

Analyse des données multiblocs : approche unifiée et développement de nouvelles méthodes

FR  |  
EN
Auteur / Autrice : Essomanda Tchandao Mangamana
Direction : El Mostafa QannariRomain Lucas Glele Kakaï
Type : Thèse de doctorat
Discipline(s) : Sciences de la nature et mathématiques
Date : Soutenance le 30/09/2021
Etablissement(s) : Nantes, Ecole nationale vétérinaire en cotutelle avec Université d'Abomey-Calavi (Bénin)
Ecole(s) doctorale(s) : École doctorale Végétal-Environnement-Nutrition-Agro-Alimentaire-Mer (Angers)
Jury : Président / Présidente : Norbert M. Hounkonnou
Examinateurs / Examinatrices : Evelyne Vigneau

Résumé

FR  |  
EN

L’analyse des données structurées en plusieurs tableaux (données multiblocs) a connu ces deux dernières décennies un développement important. Ceci se traduit par la proposition d’une multitude de méthodes statistiques qu’il n’est pas toujours facile de situer les unes par rapport aux autres. Dans un objectif de clarification, nous avons introduit une démarche analytique qui présente un cadre unifié de plusieurs méthodes, permet d’en définir de nouvelles et dessine des perspectives pour des extensions qui semblent prometteuses.Dans un premier temps, les méthodes statistiques à caractères exploratoires sont considérées. La démarche unifiée permet d’identifier deux grandes familles de méthodes. La première famille s’apparente à l’analyse canonique généralisée et la deuxième famille s’apparente à l’analyse en composantes principales multiblocs. Dans cette deuxième famille, nous retrouvons en particulier la méthode ComDim. Dans le cadre des méthodes statistiques pour lesquelles il s’agit d’explorer les relations entre, d’un côté, un tableau de données et, d’un autre côté, un ensemble de tableaux explicatifs, nous identifions également deux familles de méthodes. La première famille de méthodes s’apparente à l’analyse dite «redundancy analysis» et la deuxième famille s’apparente à la régression PLS multiblocs. En particulier, cette deuxième famille inclut une nouvelle méthode que nous désignons par multiblock weighted covariate analysis (MB-WCov). La spécificité des méthodes ComDim, pour l’analyse exploratoire, et MB-WCov, pour l’analyse prédictive,est qu’elles exhibent explicitement des «poids»associés aux différents tableaux indiquant leurs contributions dans la détermination de chacune des composantes définies par ces méthodes. Nous avons tiré profit de ces poids spécifiques pour définir des analyses dites «sparses» en ce sens que les poids des tableaux qui ne présentent pas une contribution significative à la détermination d’une composante donnée sont systématiquement mis à zéro. Ceci conduit à des modèles parcimonieux, plus faciles à interpréter et plus stables. Les différentes analyses proposées s’appuient sur des critères d’optimisation clairs et intuitifs. Ceci permet,entre autre, de clarifier davantage les différentes analyses, vérifier la convergence des algorithmes itératifs et suggérer des indices statistiques de nature à aider l’utilisateur dans l’interprétation des résultats.Les différentes approches sont illustrées sur la base de données simulées et / ou réelles.