Apprentissage de grammaires catégorielles pour simuler l'acquisition du langage naturel à l'aide d'informations sémantiques

par Daniela Dudau

Thèse de doctorat en Informatique

Sous la direction de Rémi Gilleron et de Dumitru Todoroi.

Soutenue en 2004

à Lille 1 en cotutelle avec l'Universitatea Alexandru Ioan Cuza (Iaşi, Roumanie) .


  • Résumé

    L'apprentissage automatique du langage naturel reste encore un challenge pour la recherche moderne, d'autant plus que cette tâche nécessite une approche pluridisciplinaire, englobant les sciences cognitives, la linguistique et l'informatique. Cette thèse traite une sous partie de ce vaste domaine, l'acquisition de la syntaxe d'une langue à l'aide de la sémantique, formalisée comme un processus d'inférence grammaticale. La théorie des langages formels, la logique et la théorie de l'apprentissage y apportent leurs contributions en offrant trois modèles formels: les grammaires catégorielles pour représenter la syntaxe, la logique de Montague d'où une sémantique simplifiée est extraite et le modèle d'identification à la limite, par exemples positifs, de Gold, comme support du processus d'inférence. Le choix de ces modèles résulte d'une exploration des études psycholinguistiques et cognitives sur l'acquisition enfantine qui soutiennent les hypothèses suivantes: l'acquisition a lieu en présence d'exemples positifs seuls; il existe des connaissances d'ordre sémantique qui sont innées ou qui peuvent être extraites directement de l'environnement. Nos recherches se sont concentrées sur la classe des grammaires catégorielles dites AB ou classiques qui a donné lieu ces dernières années à des résultats d'apprenabilité au sens de Gold (principalement dus à Kanazawa) intéressants.

  • Titre traduit

    Categorial grammars inference to simulate natural language acquisition with semantic help


  • Résumé

    Cette classe mérite d'être étudiée parce que ses membres permettent de générer l'ensemble des langages hors-contexte ou algébriques et parce que l'interface qu'elle permet avec une interprétation sémantique la rend apte à modéliser certaines particularités des langues naturelles. Mais les résultats d'apprenabilité connus ne concernent que des sous-classes triviales (classe des grammaires rigides) ou donnent lieu à des algorithmes rédhibitoires (classes des grammaires k-valuées avec k > 1). Nous définissons une nouvelle sous-classe de grammaires catégorielles classiques à la fois intéressante d'un point de vue de la théorie des langages (puisque ses représentants permettent de générer l'ensemble des langages de structures de toutes les grammaires catégorielles classiques) et d'un point de vue de l'apprentissage automatique (puisqu'elle est apprenable au sens de Gold à condition de fournir des données adaptées). Pour tester la validité et l'efficacité de notre proposition nous avons constitué un corpus de textes en français avec des annotations sémantiques. Les résultats des expérimentations sont prometteurs, spécialement en ce qui concerne l'influence de certains facteurs comme l'ordre des phrases (de la plus courte à la plus longue) et la redondance du vocabulaire, qui s'avère bénéfique, confirmant certaines hypothèses psycholinguistiques.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (200 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 186-191. Index

Où se trouve cette thèse ?

  • Bibliothèque : Centre de recherche en informatique de Lens. Bibliothèque.
  • Disponible sous forme de reproduction pour le PEB
  • Cote : THE 04 DUD
  • Bibliothèque : Université des sciences et technologies de Lille (Villeneuve d'Ascq, Nord). Service commun de la documentation.
  • Disponible pour le PEB
  • Cote : 50376-2004-33
  • Bibliothèque : Université des sciences et technologies de Lille (Villeneuve d'Ascq, Nord). Service commun de la documentation.
  • Disponible pour le PEB
  • Cote : 50376-2004-34
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.