Application des méthodes du « big data » pour l'amélioration des algorithmes de PLS locales en chimiométrie

par Maxime Metz

Projet de thèse en Génie des procédés

Sous la direction de Jean-Michel Roger et de Matthieu Lesnoff.

Thèses en préparation à Montpellier, SupAgro , dans le cadre de Biodiversité, Agriculture, Alimentation, Environnement, Terre, Eau (Montpellier ; École Doctorale ; 2015-...) , en partenariat avec ITAP - Information et Technologies pour les Agro-Procédés (laboratoire) depuis le 01-10-2018 .


  • Résumé

    La spectrométrie proche infrarouge peut fournir d'énormes quantités de données à l'agriculture numérique. L'outil principal utilisé pour analyser les spectres NIR, est la régression PLS, qui permet de construire des modèles à partir d'un grand nombre de variables, même fortement corrélées. La méthode a prouvé sa pertinence pour les petites bases de données homogènes. Son extension aux bases de taille moyenne (<10 000 individus) est la «local-PLS» : elle détermine un voisinage de l'individu à prédire, puis réalise une PLS usuelle sur ce voisinage. Cette méthode combine la puissance de la méthode des k plus proches voisins et de la PLS. Cependant, elle n'est pas capable de traiter de grandes bases de données qui apparaîtront dans un futur proche. Les algorithmes local-PLS actuels utilisent tous des algorithmes k-NN séquentiels pour lesquels les temps de calcul deviennent irréalistes; d'autres algorithmes doivent être considérés. Paradoxalement, très peu de recherches ont été effectuées sur ce défi en chimiométrie. Notre idée est que les algorithmes d'indexation utilisés dans les big data pourraient lever ce verrou méthodologique. Nous proposons de considérer deux algorithmes de réduction de dimension et de recherche rapide utilisés par l'équipe Zenith du Lirmm-Montpellier pour traiter de grands ensembles de séries chronologiques (ayant une structure de données similaire aux spectres NIR) : le hachage (calcul de sketches) et l'iSax (Approximation Symbolic Aggregate). Le travail consistera en deux étapes: (1) une intégration "business as usual" des deux algorithmes dans l'algorithme local-PLS, (2) une optimisation des algorithmes prenant en compte la spécificité chimiométrique des spectres NIR. Les nouveaux algorithmes développés dans cette thèse amélioreront la capacité à prédire les variables physico-chimiques à partir de grandes bases de données NIRS hétérogènes, et trouveront des applications directes dans de nombreux domaines (plantes, aliments, sols, etc.).

  • Titre traduit

    Application of big data methods for the improvement of local PLS algorithms in chemometrics


  • Résumé

    Near infrared spectrometry can provide huge amounts of data to digital agriculture. The main tool of chemometrics, used to analyze NIR spectra, is Partial Least Squares (PLS) regression. PLS allows building efficient predictive models from a large number of variables even if these variables are highly correlated. The method has proved its relevance for small homogeneous databases. Its extension to medium-sized bases (<10,000 individuals) is the “local-PLS”: it determines a neighborhood of the individual to be predicted, and then realizes a usual PLS on this neighborhood. This method combines the power of the k nearest neighbors' method (k-NN) and the PLS. However, it is is not able to process large databases (e.g. >50,000 individuals) or even >1 million of individuals that will appear in the near future to digital agriculture. The current local-PLS algorithms all use sequential k-NN algorithms for which calculation times become unrealistic; other algorithms must be considered. Paradoxically, very little research has been done on this challenge in chemometrics. Our idea is that algorithms of indexation used in big data, integrated in the local-PLS method, could lift this methodological lock. We propose to consider two algorithms of dimension reduction and fast neighborhood searches used by the Zenith Team of Lirmm-Montpellier for processing large data sets of time series (that have a similar data structure as the NIR spectra): the hashing (calculation of sketches) and the iSax (Symbolic Aggregate approXimation). The work will consist in two steps: (1) a “business as usual” integration of the two algorithms in the local-PLS algorithm, (2) an optimisation of the algorithms taking into account the chemometric specificity of the NIR spectra. The new algorithms developed in this thesis will improve the ability to predict physico-chemical variables from large heterogeneous NIRS data bases, and will find direct applications in many domains (plants, feed, soils, etc.).