Thèse soutenue

Structuration du lexique et reconnaissance de mots derives

FR
Auteur / Autrice : David Clemenceau
Direction : Maurice Gross
Type : Thèse de doctorat
Discipline(s) : Sciences appliquées
Date : Soutenance en 1993
Etablissement(s) : Paris 7

Résumé

FR

Les mots simples ont souvent des possibilites de derivation qui ne sont pas enregistrees dans les dictionnaires. Dans un dictionnaire electronique, ces omissions sont un grave handicap pour l'analyse automatique de textes car de tels mots derives sont relativement frequents dans les textes et l'echec d'une consultation dans le dictionnaire bloque generalement le reste de l'analyse. Nous presentons une etude tendant au recensement systematique des possibilites de derivation des 12000 emplois verbaux du francais enregistres dans le lexique-grammaire du ladl. Ce travail nous a conduit a construire des arbres qui contiennent tous les mots derives a partir d'une entree du lexique-grammaire. Nous avons alors regroupe ces derives dans des transducteurs permettant de les reconnaitre dans les textes, et ainsi de generer des informations syntaxiques utilisables par un programme d'analyse syntaxique. La description systematique du comportement derivationnel de 12000 emplois verbaux necessite un certain temps, et, de plus, devrait s'accompagner d'une etude similaire sur les noms et adjectifs. Dans l'attente d'une description complete, nous avons choisi de developper un systeme d'analyse morphologique afin de compenser les lacunes de notre description syntaxique. Cet analyseur est compose d'environ 70 regles qui prennent en compte la plupart des phenomenes morphologiques regissant la formation des mots derives en francais. Ces regles ont ete exprimees a l'aide du formalisme two-level afin de pouvoir les compiler par la suite en un transducteur unique. Cependant, cet analyseur base sur des phenomenes purement morphologiques ne fournit que des informations partielles. Afin de valider ces outils d'analyse de mots derives, nous les avons incorpores dans un outil plus general d'analyse de textes que nous avons teste sur un corpus de reference contenant environ 1300000 mots