Définitions et caractérisations de modèles à base d'analogies pour l'apprentissage automatique des langues naturelles

par Nicolas Stroppa

Thèse de doctorat en Informatique et réseaux

Sous la direction de François Yvon.

Soutenue en 2005

à Paris, ENST .


  • Résumé

    Cette thèse a pour objet l'étude de modèles à base d'analogies dans un cadre d'Apprentissage Automatique pour le Traitement Automatique des Langues Naturelles. L'approche analogique apporte une alternative à la fois aux méthodes déductives (inférence de connaissances particulières à partir de connaissances générales) et aux méthodes inductives (inférence de connaissances générales à partir de connaissances particulières). Selon ce mode de raisonnement, l'analyse d'une nouvelle entité s'effectue par comparaison avec les données disponibles ; l'inférence s'effectue directement du particulier au particulier. Dans cette approche, l'abstraction que constitue la connaissance générale impliquée à la fois dans les approches déductives et inductives n'apparaît plus comme une composante nécessaire du modèle. Par ailleurs, cette approche s'accorde bien avec l'organisation paradigmatique des données linguistiques, qui permet de mettre aisément une entité linguistique en relation avec d'autres selon des schémas spécifiques ; la connaissance linguistique reste alors implicitement représentée dans le corpus accumulé et les relations systématiques qu'entretiennent les entités le composant. Cette organisation paradigmatique invite en particulier à considérer des proportions analogiques. Un modèle d'apprentissage est présenté, qui repose sur l'exploitation de proportions analogiques. Nous introduisons la notion d'extension analogique, qui permet d'exprimer la méthode et d'identifier clairement son biais d'apprentissage. Nous proposons également un cadre algébrique formel permettant de donner un sens à la notion de proportion analogique entre objets structurés.

  • Titre traduit

    Definitions and characterizations of analogy-based models for natural language learning


  • Résumé

    In this work, we study analogy-based models for Machine Learning of Natural Language. The analogical approach offers an alternative to both deductive methods (in which specific knowledge is infered from general knowledge) and inductive methods (in which general knowledge is infered from specific knowledge). In this setting, the analysis of a new entity is performed by comparison with available data; inference is directly achieved from specific knowledge to specific knowledge. In this approach, abstraction, which is involved in both deductive and inductive models is no longer required. Moreover, this approach correctly account for the paradigmatic organization of linguistic data, which easily relates one linguistic entity with others through specific schemes; the linguistic knowledge is thus implicitly represented within the corpus. In particular, this paradigmatic organization suggests to consider analogical proportions. A learning model is presented, which relies on the exploitation of analogical proportions. We introduce the notion of analogical extension, which allows for the expression of its learning bias. We also propose a formal algebraic framework which gives a meaning to the notion of analogical proportion between structured objects.

Autre version

Cette thèse a donné lieu à une publication en 2006 par École nationale supérieure des télécommunications à Paris

Définitions et caractérisations de modèles à base d'analogies pour l'apprentissage automatique des langues naturelles


Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (193 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : 153 réf.bibliogr.. Index

Où se trouve cette thèse ?

  • Bibliothèque : Télécom ParisTech. Bibliothèque scientifique et technique.
  • Disponible pour le PEB
  • Cote : 0.32 STRO
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.
Cette thèse a donné lieu à 1 publication .

Consulter en bibliothèque

Cette thèse a donné lieu à une publication en 2006 par École nationale supérieure des télécommunications à Paris

Informations

  • Sous le titre : Définitions et caractérisations de modèles à base d'analogies pour l'apprentissage automatique des langues naturelles
  • Dans la collection : ENST , 2005E043 , 0751-1353
  • Détails : 1 vol. (XI-181 p.)
  • Annexes : Bibliogr. p. 163-173. Index. Résumé en français et en anglais
La version de soutenance de cette thèse existe aussi sous forme papier.

Où se trouve cette thèse ?

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.