Nettoyage de corpus web pour le traitement automatique des langues

Otman Manad

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Otman Manad
Direction :	Gilles Bernard
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 06/03/2018
Etablissement(s) :	Paris 8
Ecole(s) doctorale(s) :	École doctorale Sciences sociales (Saint-Denis, Seine-Saint-Denis ; 2000-....)
Partenaire(s) de recherche :	Equipe de recherche : Laboratoire d' informatique avancée de Saint-Denis
Jury :	Président / Présidente : Arab Ali Chérif
	Examinateurs / Examinatrices : Kurosh Madani, Anna Pappa
	Rapporteurs / Rapporteuses : Mustapha Lebbah, Salima Benbernou

Mots clés

FR

Mots clés contrôlés

Analyse des données

Web 2.0

Classification automatique

Corpus linguistique

Traitement automatique du langage naturel

Mots clés libres

Web 2.0

Corpus

Clustering par matching

Traitement automatique du langage

Boilerplate

Nettoyage et filtrage

Forums

Crawling Web

Résumé

FR |

EN

Le corpus est la matière première de la linguistique informatique et du traitement automatique du langage. Peu de langues disposent de corpus riches en ressources web (forums, blogs, etc.), et ce bien qu'elles soient parfois les seules disponibles. Or ces ressources contiennent beaucoup de bruit (menus, publicités, etc.). Le filtrage des données parasites et des répétitions nécessite un nettoyage à grand échelle que les chercheurs font en général à la main.Cette thèse propose un système automatique de constitution de corpus web nettoyés de leur bruit. Il est constitué de trois modules : (a) un module de construction de corpus en n'importe quelle langue et sur tout type de données, prévu pour être collaboratif et historisé ; (b) un module d'aspiration des pages web orienté sur les forums et des blogs ; (c) un module d'extraction de données pertinentes, utilisant des techniques de clustering selon différentes distances à partir de la structure de la page. Le système est évalué sous l'angle de l’efficacité de la suppression du bruit et du temps d’exécution. Nos expérimentations, faites sur quatre langues, sont évaluées à l'aide de notre propre corpus de référence. Pour mesurer la qualité, nous utilisons rappel, précision et F-mesure. Deux distances, la feature-distance et la distance de Jaro, donnent les meilleurs résultats, mais pas dans les mêmes contextes, la feature-distance ayant la meilleure qualité moyenne.Nous comparons notre méthode avec trois méthodes traitant du même problème que la nôtre, Nutch, BootCat et JusText. Les performances de notre système sont meilleures pour la qualité d’extraction, même si pour le temps de calcul, Nutch et BootCat dominent.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Nettoyage de corpus web pour le traitement automatique des langues

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Nettoyage de corpus web pour le traitement automatique des langues

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses