Détection de dérivation de texte

Fabien B. Poulard

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Fabien B. Poulard
Direction :	Béatrice Daille
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance en 2011
Etablissement(s) :	Nantes
Ecole(s) doctorale(s) :	École doctorale Sciences et technologies de l'information et mathématiques (Nantes)
Partenaire(s) de recherche :	autre partenaire : Université de Nantes. Faculté des sciences et des techniques

Mots clés

FR

Mots clés contrôlés

Reconnaissance des formes (informatique)

Plagiat

Identification des systèmes

Mots clés libres

Détection de dérivation

Révisions

Approche par signature

Mesures de similarité

Recherche d'information

Résumé

FR |

EN

L'Internet permet la production et la diffusion de contenu sans effort et à grande vitesse. Cela pose la question du contrôle de leur origine. Ce travail s'intéresse à la détection des liens de dérivation entre des textes. Un lien de dérivation unit un texte dérivé et les textes préexistants à partir desquels il a été écrit. Nous nous sommes concentré sur la tâche d'identifcation des textes dérivés étant donné un texte source, et ce pour différentes formes de dérivation. Notre première contribution consiste en la défiinition d'un cadre théorique posant les concepts de la dérivation ainsi qu'un modèle multidimensionnel cadrant les différentes formes de dérivation. Nous avons ensuite mis en place un cadre expérimental constitué d'une infrastructure logicielle libre, de corpus d'évaluation et d'un protocole expérimental inspiré de la RI. Les corpus Piithie et Wikinews que nous avons développé sont à notre connaissance les seuls corpus en français pour la détection de dérivation. Finalement, nous avons exploré différentes méthodes de détection fondées sur l'approche par signature. Nous avons notamment introduit les notions de singularité et d'invariance afin de guider le choix des descripteurs utilisés pour la modélisation des textes en vue de leur comparaison. Nos résultats montrent que le choix motivé des descripteurs, linguistiques notamment, permet de réduire la taille de la modélisation des textes, et par conséquence des coûts de la méthode, tout en offrant des performances comparables à l'approche état de l'art beaucoup plus volumineuse.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Détection de dérivation de texte

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Détection de dérivation de texte

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses