Contributions to unsupervised learning from massive high-dimensional data streams : structuring, hashing and clustering | Theses.fr

Anne Morvan

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Contributions à l'apprentissage non supervisé à partir de flux de données massives en grande dimension : structuration, hashing et clustering

FR |

EN

Auteur / Autrice :	Anne Morvan
Direction :	Jamal Atif
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 12/11/2018
Etablissement(s) :	Paris Sciences et Lettres (ComUE)
Ecole(s) doctorale(s) :	Ecole doctorale SDOSE (Paris)
Partenaire(s) de recherche :	Laboratoire : Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision (Paris)
	établissement de préparation de la thèse : Université Paris Dauphine-PSL (1968-....)
Jury :	Président / Présidente : Rémi Gribonval
	Examinateurs / Examinatrices : Jamal Atif, Rémi Gribonval, Albert Bifet, Liva Ralaivola, Florence d' Alché-Buc, Krzysztof Choromanski, Cédric Gouy-Pailler
	Rapporteurs / Rapporteuses : Albert Bifet, Liva Ralaivola

Mots clés

FR |

EN

Mots clés contrôlés

Adressage calculé (informatique)

Approximation numérique

Recherche à voisinage variable

Apprentissage supervisé (intelligence artificielle)

Mots clés libres

Apprentissage non supervisé

Recherche des plus proches voisins

Flux

Clustering

Approximation

Réduction de dimension

Hachage

Résumés minimalistes

Résumé

FR |

EN

Cette thèse étudie deux tâches fondamentales d'apprentissage non supervisé: la recherche des plus proches voisins et le clustering de données massives en grande dimension pour respecter d'importantes contraintes de temps et d'espace.Tout d'abord, un nouveau cadre théorique permet de réduire le coût spatial et d'augmenter le débit de traitement du Cross-polytope LSH pour la recherche du plus proche voisin presque sans aucune perte de précision.Ensuite, une méthode est conçue pour apprendre en une seule passe sur des données en grande dimension des codes compacts binaires. En plus de garanties théoriques, la qualité des sketches obtenus est mesurée dans le cadre de la recherche approximative des plus proches voisins. Puis, un algorithme de clustering sans paramètre et efficace en terme de coût de stockage est développé en s'appuyant sur l'extraction d'un arbre couvrant minimum approché du graphe de dissimilarité compressé auquel des coupes bien choisies sont effectuées.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Contributions à l'apprentissage non supervisé à partir de flux de données massives en grande dimension : structuration, hashing et clustering

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Contributions à l'apprentissage non supervisé à partir de flux de données massives en grande dimension : structuration, hashing et clustering

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses