Thèse soutenue

Définitions et caractérisations de modèles à base d'analogies pour l'apprentissage automatique des langues naturelles

FR  |  
EN
Auteur / Autrice : Nicolas Stroppa
Direction : François Yvon
Type : Thèse de doctorat
Discipline(s) : Informatique et réseaux
Date : Soutenance en 2005
Etablissement(s) : Paris, ENST

Mots clés

FR

Résumé

FR  |  
EN

Cette thèse a pour objet l'étude de modèles à base d'analogies dans un cadre d'Apprentissage Automatique pour le Traitement Automatique des Langues Naturelles. L'approche analogique apporte une alternative à la fois aux méthodes déductives (inférence de connaissances particulières à partir de connaissances générales) et aux méthodes inductives (inférence de connaissances générales à partir de connaissances particulières). Selon ce mode de raisonnement, l'analyse d'une nouvelle entité s'effectue par comparaison avec les données disponibles ; l'inférence s'effectue directement du particulier au particulier. Dans cette approche, l'abstraction que constitue la connaissance générale impliquée à la fois dans les approches déductives et inductives n'apparaît plus comme une composante nécessaire du modèle. Par ailleurs, cette approche s'accorde bien avec l'organisation paradigmatique des données linguistiques, qui permet de mettre aisément une entité linguistique en relation avec d'autres selon des schémas spécifiques ; la connaissance linguistique reste alors implicitement représentée dans le corpus accumulé et les relations systématiques qu'entretiennent les entités le composant. Cette organisation paradigmatique invite en particulier à considérer des proportions analogiques. Un modèle d'apprentissage est présenté, qui repose sur l'exploitation de proportions analogiques. Nous introduisons la notion d'extension analogique, qui permet d'exprimer la méthode et d'identifier clairement son biais d'apprentissage. Nous proposons également un cadre algébrique formel permettant de donner un sens à la notion de proportion analogique entre objets structurés.