Indexation et recherche des documents code source basées sur une caractérisation structuro-sémantique : application à la détection de plagiats

par Mohammed Amine Ouddan

Thèse de doctorat en Information scientifique et technique. Informatique

Sous la direction de Christian Fluhr et de Hassane Essafi.

Soutenue en 2007

à l'Université de Marne-la-Vallée .


  • Résumé

    La caractérisation du contenu d’un code source est une tâche très complexe en raison de la similitude qui existe entre les projets informatiques. Les différentes techniques de plagiat qui sont appliqués sur ce type de documents rendent la tâche de détection des plagiats de plus en plus difficile. Nous proposons un système multilangages de détection de plagiats basé sur une approche de caractérisation à deux niveaux, le premier niveau se porte sur l’aspect syntaxique du code permettant une caractérisation structurelle du code, et le second niveau concerne son aspect fonctionnel permettant une caractérisation sémantique. Notre approche se base sur la notion de Grammaire à Actions concrétisée par un module permettant d’accéder au contenu structurel et sémantique du code par le biais de la grammaire du langage dont ce code est écrit. Les actions de ce module consistent à traduire un code du langage source vers un langage de caractérisation où le code est représenté par un ensemble de séquences dites caractéristiques. Dans le premier niveau de caractérisation nous parlons de séquences structurelles et dans le second niveau nous parlons de séquences génétiques. Nous appliquons par la suite les techniques d’alignement de séquences pour mesurer le taux de similarité entre deux séquences caractéristiques, qui est considéré comme une abstraction au taux de plagiat entre les codes caractérisés

  • Titre traduit

    Source code retrieval on structural-semantic charactérization : application to plagiarism detection


  • Résumé

    Source code characterization is a very complex task due the amount of similarity between computer science assignments. The various transformations that occur within a plagiarized code make the plagiarism detection more difficult. We propose a multilanguage source code retrieval system for plagiarism detection which is based on twolevel characterization approach. The first level reflects the syntactic feature of the code allowing a structural characterization of its content, and the second level relates to its functional feature allowing a semantic characterization. Our approach is based on the concept of Grammar with Actions which consists to assign significance to the parsing process in a context of characterization, and at the same time, allowing access to the structural and semantic content of the code using the grammar of its programming language. The aim idea is to translate the source code into a set of symbols sequences called characteristic sequences. In the first level of characterization we talk about structural sequences and in the second level we talk about genetic sequences. In order to quantify the similarity between characteristic sequences, we use sequence alignment techniques where the similarity rate is considered as an abstraction of the plagiarism rate between the characterized codes

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (210 p.)
  • Notes : Thèse confidentielle jusqu'en 2010
  • Annexes : Bibliogr. p. 191-198 (130 réf.)

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris-Est Marne-la-Vallée. Bibliothèque.
  • Non disponible pour le PEB
  • Cote : 2007 OUD 0340
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.