Structuration du lexique et reconnaissance de mots derives

par DAVID CLEMENCEAU

Thèse de doctorat en Sciences appliquées

Sous la direction de Maurice Gross.

Soutenue en 1993

à Paris 7 .

    mots clés mots clés


  • Résumé

    Les mots simples ont souvent des possibilites de derivation qui ne sont pas enregistrees dans les dictionnaires. Dans un dictionnaire electronique, ces omissions sont un grave handicap pour l'analyse automatique de textes car de tels mots derives sont relativement frequents dans les textes et l'echec d'une consultation dans le dictionnaire bloque generalement le reste de l'analyse. Nous presentons une etude tendant au recensement systematique des possibilites de derivation des 12000 emplois verbaux du francais enregistres dans le lexique-grammaire du ladl. Ce travail nous a conduit a construire des arbres qui contiennent tous les mots derives a partir d'une entree du lexique-grammaire. Nous avons alors regroupe ces derives dans des transducteurs permettant de les reconnaitre dans les textes, et ainsi de generer des informations syntaxiques utilisables par un programme d'analyse syntaxique. La description systematique du comportement derivationnel de 12000 emplois verbaux necessite un certain temps, et, de plus, devrait s'accompagner d'une etude similaire sur les noms et adjectifs. Dans l'attente d'une description complete, nous avons choisi de developper un systeme d'analyse morphologique afin de compenser les lacunes de notre description syntaxique. Cet analyseur est compose d'environ 70 regles qui prennent en compte la plupart des phenomenes morphologiques regissant la formation des mots derives en francais. Ces regles ont ete exprimees a l'aide du formalisme two-level afin de pouvoir les compiler par la suite en un transducteur unique. Cependant, cet analyseur base sur des phenomenes purement morphologiques ne fournit que des informations partielles. Afin de valider ces outils d'analyse de mots derives, nous les avons incorpores dans un outil plus general d'analyse de textes que nous avons teste sur un corpus de reference contenant environ 1300000 mots


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 210 P.
  • Annexes : 48 REF.

Où se trouve cette thèse ?

  • Bibliothèque : Ecole Polytechnique de l’Université François Rabelais . Départements Electronique et Energie, Informatique, Mécanique et Systèmes. Centre de documentation.
  • Disponible pour le PEB
  • Cote : DI-TH-332
  • Bibliothèque : Université Paris Diderot - Paris 7. Service commun de la documentation. Bibliothèque Universitaire des Grands Moulins.
  • Accessible pour le PEB
  • Cote : TS1993
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.