Nettoyage de corpus web pour le traitement automatique des langues
Auteur / Autrice : | Otman Manad |
Direction : | Gilles Bernard |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 06/03/2018 |
Etablissement(s) : | Paris 8 |
Ecole(s) doctorale(s) : | École doctorale Sciences sociales (Saint-Denis, Seine-Saint-Denis ; 2000-....) |
Partenaire(s) de recherche : | Equipe de recherche : Laboratoire d' informatique avancée de Saint-Denis |
Jury : | Président / Présidente : Arab Ali Chérif |
Examinateurs / Examinatrices : Kurosh Madani, Anna Pappa | |
Rapporteurs / Rapporteuses : Mustapha Lebbah, Salima Benbernou |
Résumé
Le corpus est la matière première de la linguistique informatique et du traitement automatique du langage. Peu de langues disposent de corpus riches en ressources web (forums, blogs, etc.), et ce bien qu'elles soient parfois les seules disponibles. Or ces ressources contiennent beaucoup de bruit (menus, publicités, etc.). Le filtrage des données parasites et des répétitions nécessite un nettoyage à grand échelle que les chercheurs font en général à la main.Cette thèse propose un système automatique de constitution de corpus web nettoyés de leur bruit. Il est constitué de trois modules : (a) un module de construction de corpus en n'importe quelle langue et sur tout type de données, prévu pour être collaboratif et historisé ; (b) un module d'aspiration des pages web orienté sur les forums et des blogs ; (c) un module d'extraction de données pertinentes, utilisant des techniques de clustering selon différentes distances à partir de la structure de la page. Le système est évalué sous l'angle de l’efficacité de la suppression du bruit et du temps d’exécution. Nos expérimentations, faites sur quatre langues, sont évaluées à l'aide de notre propre corpus de référence. Pour mesurer la qualité, nous utilisons rappel, précision et F-mesure. Deux distances, la feature-distance et la distance de Jaro, donnent les meilleurs résultats, mais pas dans les mêmes contextes, la feature-distance ayant la meilleure qualité moyenne.Nous comparons notre méthode avec trois méthodes traitant du même problème que la nôtre, Nutch, BootCat et JusText. Les performances de notre système sont meilleures pour la qualité d’extraction, même si pour le temps de calcul, Nutch et BootCat dominent.