Le pronom "il" en traduction assistée par ordinateur : étude théorique

par Jean-Luc Pétry

Thèse de doctorat en Linguistique

Sous la direction de Jean-Claude Lejosne.

Soutenue en 1996

à Metz .


  • Résumé

    Le but de notre recherche en linguistique porte sur l'analyse du pronom "il" en langue française et sur la recherche de son antécédent. Pour effectuer cette recherche, nous sommes imposés la nécessité de la formaliser dans une perspective de traduction assistée par ordinateur (T. A. O. ). Il ne s'agit donc pas d'un traité sur l'anaphore, bien que cette notion soit au coeur de l'étude. Notre travail concerne essentiellement la première phase de la T. A. O. : l'analyse ; nous considérons l'impersonnel "il" et le calcul de son antécédent à l'intérieur d'un corpus composé d'oeuvre littéraire : Les mots de Jean-Paul Sartre et d'un rapport administratif de la C. E. E. : Esprit ; l'angle d'étude est donc théorique. Notre interrogation porte en effet sur la possibilité de construire une grammaire de type logique et modulaire ainsi qu'un dictionnaire, utilisables par une intelligence artificielle dans le repérage automatique de cet antécédent. Cette réflexion a exclu l'intuition dont la T. A. O. S'accommode très mal. L'utilisation d'une connaissance du monde a, quant à elle, été exploitée. La validation de ces opérations n'a été faite que si la formalisation était possible. Le cadre de cette étude concerne donc le dialogue homme/machine. A l'issue de cette étude il apparaît que l'impersonnel "il" a pu être identifié dans 96% des cas ; l'antécédent du pronom "il" a pu être reconnu dans 95,52% des occurences étudiées. L'analyse quantitative ainsi que la représentation des connaissances en pragmatique, et l'utilisation de grammaires d'unification, de la D. R. S. , de la D. R. T. Et des fonctions lexicales ont apporté des solutions intéressantes, lors de la recherche de l'antécédent des 5% de cas ambigus. Enfin, la suite logique et passsionnante de cette étude théorique du calcul de la nature du morphème "il" et des antécédents du pronom personnel, serait bien entendu la phase d'implémentation des données que nous avons recueillies ; celle-ci pourrait donner lieu à une simulation consécutive à la rédaction du programme. L'emploi de l'outil informatique permettrait de vérifier la vigueur des modèles proposés

  • Titre traduit

    The french personal pronoun "il" in computer-aided translation : theorical research


  • Résumé

    The object of our research in linguistics was basically the identification process of the referent of french personal pronoun il. The process calls for a formalisation procedure in the perspective of computer-aided translation (CAT) systems. Consequently, this research is not a study on anaphora, even if this concept remains central to the investigation. The study refers essentially to the first stage of the CAT procedures : analysis. We examined il successively as an impersonal and personal pronoun, and tried to identify or rather "calculate" the right antecedent. The corpora used for experimentation were of two types : literary (Les mots by Jean-Paul Sartre) and legal / technical (Esprit Report published by the EEC Commission). The research is therefore primarily theoritical. The point was to investigate the possibility of elborating a grammar of logic or modular type, and a dictionnary or data base that could be used at a later stage by an expert system designed to identify automatically the right antecedent. The process had to leave no room to intuitive procedures that cannot be supported by CAT systems in current state-of-the-art conditions. As a consequence, operations can be validated only if formalisation is possible. However, some amount of knowledge can be integrated into the process. In short, the study can be considered as a contribution to some of the issues involved in the man-machine dialogue issue. The application of the model provided following results : il is properly identified as an impersonal pronoun in 96% cases and the antecedent of the personal pronoun is recognised in 95. 52 occurences. Various methods including quantitative analysis, knowledge representation in pragmatics, application of unification-based grammars, Discourse Representation Theory (DRT), lexical functions, pointed at interesting solutions to solve the remaining 5% ambiguous cases. The obvious follow-up to this study would consist in the writing of a program and an implementation of the data collected to check on the valididity of the results mentioned above

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (VII-282 f.)
  • Notes : Reproduction non autorisée par le jury
  • Annexes : Bibliogr. f. 241-251

Où se trouve cette thèse ?

  • Bibliothèque : Université de Lorraine. Direction de la documentation et de l'édition. Bibliothèque du Saulcy.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.