Thèse soutenue

Méthodes pour informatiser des langues et des groupes de langues "peu dotées"

FR  |  
EN
Auteur / Autrice : Vincent Berment
Direction : Christian Boitet
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2004
Etablissement(s) : Université Joseph Fourier (Grenoble ; 1971-2015)
Partenaire(s) de recherche : Laboratoire : Communication Langagière et interaction personne-système (Grenoble1995-2006)
Jury : Président / Présidente : Bruno Oudet
Examinateurs / Examinatrices : Christian Boitet, Gilles Delouche, Mathieu Lafourcade, Claude Del Vigna
Rapporteurs / Rapporteuses : Yves Lepage, Jean Véronis

Résumé

FR  |  
EN

En 2004, moins de 1% des 6800 langues du monde bénéficie d'un niveau d"informatisation élevé, incluant un large éventail de services allant du traitement de textes à la traduction automatique. Cette thèse, qui s'intéresse aux autres langues-les langues-pi-s'attache à proposer des solutions pour remédier à leur sous-développement informatique. Dans une première partie destinée à montrer la complexité du problème, nous présentons la diversité des langues, les technologies utilisées, ainsi que les approches des différents acteurs impliqués : populations linguistiques, éditeurs de logiciels, Nations Unies, Etats. . . Un degré d'informatisation des langues-l'indice sigma-ainsi que plusieurs méthodes sont proposées. La seconde partie traite de l'informatisation du laotien et présente concrètement les travaux réalisés pour cette langue en appliquant les méthodes décrites précédemment. Les réalisations décrites ont permis d'améliorer l'indice-sigma de la langue laotienne d'environ 4 points, cet indice étant actuellement évalué à 8. 7/20. Dans la troisième partie, nous montrons qu'une approche par groupe de langues peut encore réduire les coûts d'informatisation grâce à l'utilisation d'une architecture modulaire associant des logiciels grand public et des compléménts spécifiques. Pour les parties intimement liées aux langues, des outils linguiciels génériques complémentaires permettent aux populations d'informatiser elles-mêmes leurs langues. Nous avons validé cette méthode en l'appliquant à la segmentation syllabique de langues à écritures non segmentées d'Asie du Sud-Est, telles que le birman, le khmer, le laotien et la siamois (thai͏̈).