START, analyse syntaxique automatique de surface sur grand corpus en français

par Anna Pappa

Thèse de doctorat en Informatique

Sous la direction de Gilles Bernard.

Soutenue en 2003

à Paris 8 .


  • Résumé

    Notre étude présente la conception et la réalisation d'un système d'analyse syntaxique de surface dans un grand corpus non annoté en français. Le système START (System of Textual Analysis Recognition and Tagging) effectue les tâches suivantes : détermination des frontières des constituants d'une phrase, extraction des groupes syntaxiques (groupes nominaux, verbaux, prépositionnels, etc. ), étiquetage partiel des mots qui composent des constituants détectés, désambiguïsation des cas ambigus, création d'un dictionnaire à partir des mots qui composent les constituants. Le système n'utilise aucun dictionnaire et il utilise un minimum de règles grammaticales et syntaxiques. Il est basé sur des statistiques issues de l'analyse distributionnelle des mots grammaticaux. Le processus est novateur car il n'utilise pas de corpus étiqueté et aucune connaissance préalable. Les résultats dépassent 92% de reconnaissance pour les GV et des GN et 99,6% pour la désambiguïsation, avec un taux d'erreur inférieur à 1%.

  • Titre traduit

    START, shallow parsing of unrestricted untagged french corpora


  • Résumé

    Our research study presents a rule-based system of shallow parsing : START (System of Textual Analysis Recognition and Tagging) extracts form constituents such as noun and verb phrases from unrestricted untagged french corpora and proceeds in a partially grammatical tagging. The method is based on the distributional analysis of the grammatical words (such as articles, pronouns, negation) which are used as "noyau" for the rules. The rules are based on statistics about grammatical words' distribution in large corpora. The system produces the following : recognition of phrases (disambiguation of punctuation), recognition and extraction of nominal and verbal groups, tagging partially terms of the extracted constituents, disambiguation of french definite article / personal pronoun ambiguity, creation of a dictionary with tagged words in flexional form. Tested accuracy exceeds 92% of precision for NP and VP. The low error rate less than 1% gives us the possibility to automatically annotate corpora.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 228 p.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 175-194

Où se trouve cette thèse ?

  • Bibliothèque : Université Paris 8-Vincennes Saint-Denis (Sciences humaines et sociales-Arts-Lettres-Droit). Service Commun de la Documentation. (Saint-Denis) .
  • Consultable sur place dans l'établissement demandeur
  • Cote : TH 1932
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.