Extension des Programmes Génétiques pour l’apprentissage supervisé à partir de très larges Bases de Données  (Big data) | Theses.fr

Hmida Hmida

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Extension des Programmes Génétiques pour l’apprentissage supervisé à partir de très larges Bases de Données (Big data)

FR |

EN

Auteur / Autrice :	Hmida Hmida
Direction :	Marta Rukoz-Castillo, Amel Borgi
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 23/10/2019
Etablissement(s) :	Paris Sciences et Lettres (ComUE) en cotutelle avec Université de Tunis El Manar
Ecole(s) doctorale(s) :	Ecole doctorale SDOSE (Paris)
Partenaire(s) de recherche :	Laboratoire : Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision (Paris) - Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision / LAMSADE
	établissement de préparation de la thèse : Université Paris Dauphine-PSL (1968-....)
Jury :	Président / Présidente : Mohamed Mohsen Gammoudi
	Examinateurs / Examinatrices : Marta Rukoz-Castillo, Amel Borgi, Mohamed Mohsen Gammoudi, Cyril Fonlupt, Nadia Essoussi, Tristan Cazenave
	Rapporteurs / Rapporteuses : Cyril Fonlupt, Nadia Essoussi

Mots clés

FR |

EN

Mots clés contrôlés

Programmation génétique (informatique)

Apache Spark (langage de programmation)

Données massives

Mots clés libres

Programmation génétique

Big Data

Classification

Échantillonnage de la base d'apprentissage

Échantillonnage adaptatif

Spark

Résumé

FR |

EN

Dans cette thèse, nous étudions l'adaptation des Programmes Génétiques (GP) pour surmonter l'obstacle du volume de données dans les problèmes Big Data. GP est une méta‐heuristique qui a fait ses preuves pour les problèmes de classification. Néanmoins, son coût de calcul est un frein à son utilisation avec les larges bases d’apprentissage. Tout d'abord, nous effectuons une revue approfondie enrichie par une étude comparative expérimentale des algorithmes d'échantillonnage utilisés avec GP. Puis, à partir des résultats de l'étude précédente, nous proposons quelques extensions basées sur l'échantillonnage hiérarchique. Ce dernier combine des algorithmes d'échantillonnage actif à plusieurs niveaux et s’est prouvé une solution appropriée pour mettre à l’échelle certaines techniques comme TBS et pour appliquer GP à un problème Big Data (cas de la classification des bosons de Higgs). Par ailleurs, nous formulons une nouvelle approche d'échantillonnage appelée échantillonnage adaptatif, basée sur le contrôle de la fréquence d'échantillonnage en fonction du processus d'apprentissage, selon les schémas fixe, déterministe et adaptatif. Enfin, nous présentons comment transformer une implémentation GP existante (DEAP) en distribuant les évaluations sur un cluster Spark. Nous démontrons comment cette implémentation peut être exécutée sur des clusters à nombre de nœuds réduit grâce à l’échantillonnage. Les expériences montrent les grands avantages de l'utilisation de Spark pour la parallélisation de GP.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Extension des Programmes Génétiques pour l’apprentissage supervisé à partir de très larges Bases de Données (Big data)

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Extension des Programmes Génétiques pour l’apprentissage supervisé à partir de très larges Bases de Données (Big data)

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses