Modélisation ontologique pour la recherche d'information : évaluation de la similarité sémantique de textes et application à la détection de plagiats

Samia Iltache

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Samia Iltache
Direction :	Pierre - Jean Charrel, Malik Si-Mohammed
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 18/11/2018
Etablissement(s) :	Toulouse 2 en cotutelle avec Université Mouloud Mammeri (Tizi-Ouzou, Algérie)
Ecole(s) doctorale(s) :	École doctorale Mathématiques, informatique et télécommunications (Toulouse)
Partenaire(s) de recherche :	Laboratoire : Institut de Recherche en Informatique de Toulouse (1995-....)
Jury :	Président / Présidente : Rachid Ahmed-Ouamer
	Examinateurs / Examinatrices : Pierre - Jean Charrel, Malik Si-Mohammed, Karima Benatchba, Christian Sallaberry, Catherine Comparot
	Rapporteurs / Rapporteuses : Karima Benatchba, Christian Sallaberry

Mots clés

FR |

EN

Mots clés contrôlés

Détection du plagiat

Informatique documentaire

Ontologies (informatique)

Mots clés libres

Ontologie de domaine

Annotation sémantique

Classification

Périmètre sémantique

Similarité de textes

Résumé

FR |

EN

L’expansion du web et le développement des technologies de l’information ont contribué à la prolifération des documents numériques en ligne. Cette disponibilité de l’information présente l’avantage de rendre la connaissance accessible à tous mais soulève de nombreux problèmes quant à l’accès à l’information pertinente, répondant à un besoin utilisateur. Un premier problème est lié à l’extraction de l’information utile parmi celle qui est disponible. Un second problème concerne l’appropriation de ces connaissances qui parfois, se traduit par du plagiat. L’objectif de cette thèse est le développement d’un modèle permettant de mieux caractériser les documents afin d’en faciliter l’accès mais aussi de détecter ceux présentant un risque de plagiat. Ce modèle s’appuie sur des ontologies de domaine pour la classification des documents et pour le calcul de la similarité des documents appartenant à un même domaine. Nous nous intéressons plus spécifiquement aux articles scientifiques, et notamment à leurs résumés, textes courts et relativement structurés. Il s’agit dès lors de déterminer comment évaluer la proximité/similarité sémantique de deux articles à travers l'examen de leurs résumés respectifs. Considérant qu’une ontologie de domaine regroupe les connaissances relatives à un domaine scientifique donné, notre processus est basé sur deux actions :(i) Une classification automatique des documents dans un domaine choisi parmi plusieurs domaines candidats. Cette classification détermine le sens d’un document à partir du contexte global dans lequel s’inscrit son contenu. (ii) Une comparaison des textes réalisée sur la base de la construction de ce que nous appelons le périmètre sémantique de chaque résumé et sur un enrichissement mutuel effectué lors de la comparaison des graphes des résumés. La comparaison sémantique des résumés s’appuie sur une segmentation de leur contenu respectif en zones, unités documentaires, reflétant leur structure logique.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Modélisation ontologique pour la recherche d'information : évaluation de la similarité sémantique de textes et application à la détection de plagiats

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Modélisation ontologique pour la recherche d'information : évaluation de la similarité sémantique de textes et application à la détection de plagiats

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses