L’apprentissage artificiel au service de la qualité de données : détection de contraintes

par Marc Chevallier

Projet de thèse en Doctorat informatique

Sous la direction de Faouzi Boufares.

Thèses en préparation à Paris 13 , dans le cadre de École doctorale Galilée (Villetaneuse, Seine-Saint-Denis) depuis le 15-07-2019 .


  • Résumé

    Compte tenu de la diffusion des outils informatiques au plus grand nombre et des possibilités de stockage à bas coût des données, les organisations se sont retrouvées de plus en plus enclines à stocker massivement leurs données. Toutefois, bien qu’évoluant simultanément avec les différentes technologies qui lui sont associées, peu de réflexions ont été apportées quant à la pertinence et la qualité de l’information stockée en base. Ainsi, avec l’augmentation des quantités de données, les entreprises se sont aperçues que la plupart des données qu’elles avaient stockées étaient de piètre qualité : “en moyenne les entreprises ont un taux d’erreur dans leurs données de 1 à 5% mais certaine environ 30%”, “plus de 25% des données critiques dans les plus grosses entreprises sont de mauvaise qualité”. Cette faible qualité, qui au départ peut sembler n’avoir que peu d’importance, se révèle avoir un énorme coût qui se chiffrait à “600 milliard de dollars pour les entreprises américaines en 2002”. De plus, l’avènement de l’ère du big data et du stockage massif sans réelle réflexion en vue d’une utilisation ultérieure de la donnée n’a fait qu’empirer ce phénomène. En plus des coûts directs chiffrés précédemment, la donnée de mauvaise qualité altère les prises de décisions des utilisateurs de ces informations, pouvant même conduire à une remise en question totale des informations présentées. Ce qui se traduit dans les solutions de business intelligence par des données erronées et qui, dans le cadre d’algorithmes de machine learning, orientent de manière nuisible les résultats, y introduisant des biais. De nombreux manquements dans le domaine de la qualité de donnée ont été constatés. Il est évident, que la thèse ne s’attaque pas à chacun d’eux. Cette thèse se concentrera sur deux angles : l’exactitude et la cohérence des données ce qui revient à découvrire les contraintes sur les données.


  • Pas de résumé disponible.