Thèse de doctorat en Informatique linguistique
Sous la direction de Jean-Pierre Desclès.
Soutenue en 2005
à Paris 4 .
Ce travail a pour sujet le repérage automatique des expressions définitoires du français, et il a trois objectifs principaux : décrire formellement les expressions définitoires du français contemporain et implémenter les règles de repérage correspondantes dans le logiciel e-doc Finder de la société e-doc Labs ; contribuer à l'élaboration d'un modèle pour le repérage d'informations textuelles ; contribuer à l'automatisation de la tâche d'élaboration des ressources linguistiques. La description des expressions définitoires donne lieu à une modélisation de cette information comme un énoncé dans lequel un locuteur met en relation définitoire un terme et une expression définitoire, eu égard à un domaine d'activité et à une inscription temporelle. Les relations définitoires sont l'identification, la catégorisation, la spécification et l'attribution. Nous décrivons les patrons linguistiques permettant de repérer le terme, la relation définitoire et les composantes de l'expression définitoire. Nous décrivons un certain nombre de phénomènes d'intégration textuelle (transformations syntaxiques, négation, coordination, anaphores, cataphores ellipses). Nous décrivons en second lieu un modèle de repérage d'informations textuelles, inspirée de l'exploration contextuelle, qui comporte trois caractéristiques : externalisation, adaptabilité des ressources linguistiques, fort pouvoir expressif des règles de repérage. Enfin, dans ce modèle, nous donnons des éléments méthodologiques permettant de développer rapidement et efficacement des ressources linguistiques (dictionnaires et grammaires) pour une information donnée.
Definitory statements automatic extraction: definitory statements conceptual model, contextual exploration method, methodology for setting up linguistic resources, french definitory statements formal description, implementation into e-doc finder
This work deals with automatic extraction of definitory statements. It has three main goals : formal description of French definitory statements and implementation into e-doc Labs software e-doc Finder; contribution to a software specification for text mining; contribution to the methodology and autoomatization of linguistic resources development. We describe a conceptuel model of definitory statements, composed of a term, a definitory semantic relation, a definition, a domain field and a temporal assignment. Definitory semantic relations are identification, categorisation, specification, attribution. We describe the linguistic patterns for each of these elements as well as textual integration phenomena (syntactiv transformations, negation, coordination, anaphora). Second, we describe a model for text mining, inspired from the Contextual Exploration Method, that has three main properties : externality, adaptability of linguistic resources; high expressive power of grammar rules. Last, we give methodological elements to set up linguistic ressources in such a system and evoke the steps toward an automatic learning system of semantic classes and patterns.