Thèse de doctorat en Mathématiques, informatique et application aux sciences de l’homme
Sous la direction de Jean-Pierre Desclès et de Rim Faiz.
Soutenue le 08-12-2012
à Paris 4 , dans le cadre de École doctorale Concepts et langages (Paris) , en partenariat avec Langues, logiques, informatique, cognition (Paris) (équipe de recherche) .
Le président du jury était Jean-Gabriel Ganascia.
Le jury était composé de Jean-Pierre Desclès, Rim Faiz, Ghassan Mourad, Abdelmajid Ben Hamadou, Delphine Battistelli.
Les rapporteurs étaient Ghassan Mourad, Abdelmajid Ben Hamadou.
Dans le cadre de notre thèse, nous avons proposé une approche générique d’extraction automatique des événements et de leur exploitation. L’approche est organisée en quatre composantes indépendantes et réutilisables. Une première composante de prétraitement, où les textes sont nettoyés et segmentés. Au cours de la seconde étape, les événements sont extraits en sebasant sur notre algorithme AnnotEC qui dispose d’une complexité polynomiale et qui est associé à des cartes sémantiques et des ressources linguistiques dédiées. Nous avons mis en place deux nouvelles mesures de similarité SimCatégoreille et SimEvent pour regrouper les événementssimilaires dans le cadre de la troisième composante de clustering. Les annotations, ajoutées tout au long des trois premières étapes, sont exploitées au niveau de la dernière composante par le bais des fichiers de synthèse paramétrables par l’utilisateur.L’approche a été évaluée sur un corpus issu du Web 2.0. Nous avons comparé les résultats avec des méthodes d’apprentissage automatique et des méthodes linguistiques par compilation et nous avons obtenu de meilleurs résultats.
Generic Approach for the Automatic Events Extraction and their Exploitation
In the framework of our thesis, we proposed a generic approach for the automatic extraction of events and their exploitation. This approach is divided into four independent and reusable components. The first component of pretreatment, in which texts are cleaned and segmented. During the second stage, events are extracted based on our algorithm AnnotEC which has polynomial complexity. AnnotEC is associated with semantic maps and dedicated linguistic resources. We have proposed two new similarity measures SimCatégoreille and SimEvent to group similar events using clustering algorithms.Annotations, added throughout the first three steps, are used at the last component by summarizing files configurable by users. The approach was evaluated on a corpus of Web 2.0, we compared the obtained results with machine learning methods and linguistic compiling methods and we got good results.