Thèse de doctorat en Linguistique de corpus
Sous la direction de Geoffrey Williams.
Soutenue en 2011
à Lorient , dans le cadre de École doctorale Arts, Lettres, Langues (Rennes) , en partenariat avec Université européenne de Bretagne (2007-2016) (autre partenaire) .
La dimension phraséologique s'impose dans la production langagière, car les séquences lexicales conventionnelles, que sont spécialement les collocations, assurent la naturalité dans le discours, et facilitent sa compréhension. La naturalité est indépendante de la grammaticalité et de la compatibilité sémantique des mots entre eux dans la chaîne parlée. L'organisation du lexique d'une langue repose ainsi sur des liens syntagmatiques étroits entre les mots. La question de la combinatoire des mots occupe une place importante au sein de plusieurs disciplines comme la Sémantique, la Lexicographie ou la Didactique des langues, favorisant ainsi l'émergence d'outils d'extraction automatique de collocations, laissant transparaître l'intérêt croissant qu'elle suscite. Les méthodes existantes d’extraction automatique de collocations ne tiennent pas compte des acceptions des mots. Or, nous pensons qu’un outil générant une classification sémantique des collocations des mots permet d’obtenir des relations lexicales (du type NOM-ADJECTIF, NOM de NOM, NOM-VERBE, etc. ) beaucoup plus exploitables, parce qu’elles-mêmes catégorisées en fonction des usages. Le sujet de ce mémoire est l'acquisition automatique de base de données sémantiques de collocations à partir de ressources textuelles issues du World Wide Web. Nous présentons une méthode endogène de discrimination sémantique automatique des classes d'usages des mots, au sein desquelles les collocations, basées sur une extraction syntaxique, sont rangées. Les résultats montrent qu'une catégorisation sémantique des collocations permet d'obtenir des collocations pertinentes pour des usages très peu fréquents, alors qu’une extraction indifférenciée « noierait » ces relations au milieu de celles correspondant aux usages les plus fréquents.
Automatic acquisition of disambiguated lexical relations from the web
Phraseological dimension is essential in language use, because conventional lexical sequences, notably collocations, ensure the naturality in the speech and facilitate its comprehension. Naturality is independent of the grammaticality and the semantic compatibility of the words between them in the connected speech. The organization of the language lexicon rests on close syntagmatic links between words. The question of lexical combinatorics occupies an important place within several disciplines, thus supporting the emergence of tools for automatic collocations extraction. Nevertheless, the existing methods of automatic extraction of collocations do not take account of the meanings of the words. However, we think that a tool generating a semantic classification of collocations makes it possible to obtain lexical relations much more exploitable, because themselves categorized according to meanings. The subject of this work is to propose a protocol for automatically building, from the Web, semantic database of collocations of French nouns. An endogenous method of automatic word sense discrimination is elaborated, leading to the construction of a set of semantic classes, filled with significant collocates of the target word. The semantic classes serve to proceed to the automatic categorization within the semantic classes of ‘syntactic’ collocations, that have been extracted from Web corpus. The results show that a semantic categorization of collocations makes it possible to obtain relevant collocations for meanings, notably the ones far from frequent, whereas an undifferentiated extraction “would drown” these relations in those corresponding to the most frequent meanings