Thèse soutenue

Traitements formels et sémantiques des échanges et des documents textuels liés à des activités collaboratives

FR  |  
EN
Auteur / Autrice : Ruslan Kalitvianski
Direction : Christian BoitetValérie Bellynck
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 20/03/2018
Etablissement(s) : Université Grenoble Alpes (ComUE)
Ecole(s) doctorale(s) : École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 199.-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de Grenoble
Jury : Président / Présidente : Marie-Christine Rousset
Examinateurs / Examinatrices : Anne Vilnat, Emmanuel Morin, Violaine Prince, Frédérique Segond
Rapporteurs / Rapporteuses : Adeline Nazarenko, Anne Vilnat

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Cette thèse s’inscrit dans la problématique de l’extraction de sens à partir de textes et flux textuels, produits dans notre cas lors de processus collaboratifs. Plus précisément, nous nous intéressons aux courriels de travail et aux documents textuels objets de collaboration, avec une première application aux documents éducatifs. La motivation de cet intérêt est d’aider les utilisateurs à accéder plus rapidement aux informations utiles ; nous cherchons donc à les repérer dans les textes. Ainsi, nous nous intéressons aux tâches dans les courriels, et aux fragments de documents éducatifs qui concernent les thèmes de leurs intérêts. Deux corpus, un de courriels et un de documents éducatifs, principalement en français, ont été constitués. Cela était indispensable, car il n’y a pratiquement pas de travaux antérieurs sur ce type de données en français.Notre première contribution théorique est une modélisation générique de la structure de ces données. Nous l’utilisons pour spécifier le traitement formel des documents, prérequis au traitement sémantique. Nous démontrons la difficulté du problème de segmentation, normalisation et structuration de documents en différents formats source, et présentons l’outil SEGNORM, première contribution logicielle de cette thèse. SEGNORM segmente et normalise les documents (en texte brut ou balisé), récursivement et en unités de taille paramétrable. Dans le cas des courriels, il segmente les messages contenant des messages cités en messages individuels, en conservant l’information du chaînage entre les fragments entremêlés. Il analyse également les métadonnées des messages pour reconstruire les fils de discussions, et retrouve dans les citations les messages dont on ne possède pas le fichier source.Nous abordons ensuite le traitement sémantique de ces documents. Nous proposons une modélisation (ontologique) de la notion de tâche, puis décrivons l’annotation d’un corpus de plusieurs centaines de messages issus du contexte professionnel de VISEO et du GETALP. Nous présentons alors la deuxième contribution logicielle de cette thèse, un outil de repérage de tâches et d’extraction de leurs attributs (contraintes temporelles, assignataires, etc.). Cet outil, basé sur une combinaison d’une approche experte et d’apprentissage automatique, est évalué selon des critères classiques de précision, rappel et F-mesure, ainsi que selon la qualité d’usage.Enfin, nous présentons nos travaux sur la plate-forme MACAU-CHAMILO, troisième contribution logicielle, qui aide à l’apprentissage par (1) structuration de documents pédagogiques selon deux ontologies (forme et contenu), (2) accès multilingue à du contenu initialement monolingue. Il s’agit donc de nouveau de structuration selon les deux axes, forme et sens.(1) L’ontologie des formes permet d’annoter les fragments des documents par des concepts comme théorème, preuve, exemple, par des niveaux de difficulté et d’abstraction, et par des relations comme élaboration_de, illustration_de. L’ontologie de domaine modélise les objets formels de l’informatique, et plus précisément les notions de complexité calculatoire. Cela permet de suggérer aux utilisateurs des fragments utiles pour la compréhension de notions d’informatique perçues comme abstraites ou difficiles.(2) L’aspect relatif à l’accès multilingue a été motivé par le constat que nos universités accueillent un grand nombre d’étudiants étrangers, qui ont souvent du mal à comprendre nos cours à cause de la barrière linguistique. Nous avons proposé une approche pour multilingualiser du contenu pédagogique avec l’aide d’étudiants étrangers, par post-édition en ligne de pré-traductions automatiques, puis, si besoin, amélioration incrémentale de ces post-éditions. (Nos expériences ont montré que des versions multilingues de documents peuvent être produites rapidement et sans coût.) Ce travail a abouti à un corpus de plus de 500 pages standard (250 mots/page) de contenu pédagogique post-édité vers le chinois.