Thèse soutenue

Nettoyage de corpus web pour le traitement automatique des langues

FR  |  
EN
Auteur / Autrice : Otman Manad
Direction : Gilles Bernard
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 06/03/2018
Etablissement(s) : Paris 8
Ecole(s) doctorale(s) : École doctorale Sciences sociales (Saint-Denis, Seine-Saint-Denis ; 2000-....)
Partenaire(s) de recherche : Equipe de recherche : Laboratoire d' informatique avancée de Saint-Denis
Jury : Président / Présidente : Arab Ali Chérif
Examinateurs / Examinatrices : Kurosh Madani, Anna Pappa
Rapporteurs / Rapporteuses : Mustapha Lebbah, Salima Benbernou

Résumé

FR  |  
EN

Le corpus est la matière première de la linguistique informatique et du traitement automatique du langage. Peu de langues disposent de corpus riches en ressources web (forums, blogs, etc.), et ce bien qu'elles soient parfois les seules disponibles. Or ces ressources contiennent beaucoup de bruit (menus, publicités, etc.). Le filtrage des données parasites et des répétitions nécessite un nettoyage à grand échelle que les chercheurs font en général à la main.Cette thèse propose un système automatique de constitution de corpus web nettoyés de leur bruit. Il est constitué de trois modules : (a) un module de construction de corpus en n'importe quelle langue et sur tout type de données, prévu pour être collaboratif et historisé ; (b) un module d'aspiration des pages web orienté sur les forums et des blogs ; (c) un module d'extraction de données pertinentes, utilisant des techniques de clustering selon différentes distances à partir de la structure de la page. Le système est évalué sous l'angle de l’efficacité de la suppression du bruit et du temps d’exécution. Nos expérimentations, faites sur quatre langues, sont évaluées à l'aide de notre propre corpus de référence. Pour mesurer la qualité, nous utilisons rappel, précision et F-mesure. Deux distances, la feature-distance et la distance de Jaro, donnent les meilleurs résultats, mais pas dans les mêmes contextes, la feature-distance ayant la meilleure qualité moyenne.Nous comparons notre méthode avec trois méthodes traitant du même problème que la nôtre, Nutch, BootCat et JusText. Les performances de notre système sont meilleures pour la qualité d’extraction, même si pour le temps de calcul, Nutch et BootCat dominent.