Adaptation des modèles de langage dans le cadre du dialogue homme-machine

par David Janiszek

Thèse de doctorat en Informatique

Sous la direction de Renato De Mori.

Soutenue en 2005

à Avignon .


  • Résumé

    Actuellement, la plupart des systèmes de reconnaissance automatique de la parole (SRAP) sont basés sur des modèles de langage statistiques (MLS). Ces modèles sont estimés à partir d'ensembles d'observations. La mise en oeuvre d'un SRAP nécessite un corpus en adéquation avec le domaine de l'application. Or, à cause des difficultés posées par leur collecte, les corpora disponibles peuvent s'avérer insuffisants pour estimer correctement des MLS. Pour surmonter cela, on souhaite utiliser d'autres données et les adapter au contexte applicatif du SRAP afin d'améliorer les performances du syste��me de dialogue correspondant. Dans ce cadre, nous avons défini et mis en oeuvre un nouveau paradigme : la représentation matricielle des données linguistiques. Cette approche, au centre de nos travaux; permet de nouveaux traitements des données linguistiques grâce à l'utilisation de l'algèbre linéaire. Par exemple, on peut définir une similarité sémantico-fonctionnelle entre plusieurs mots. En nous basant sur la représentation matricielle, nous avons étudié et mis au point plusieurs techniques d'adaptation selon plusieurs axes de recherche : Le filtrage des données : basé sur la technique des blocs minimaux. La transformation linéaire : par le calcul d’un opérateur algébrique transformant les données linguistiques. L'augmentation de données : technique réestimant les occurrences d'un mot observé en fonction de sa similarité avec d'autres mots. La combinaison sélective d'historiques : technique généralisant l'interpolation linéaire de différents modèles de langage. Combinaison de techniques : nous avons cherché les meilleures combinaisons. Les résultats expérimentaux obtenus nous donnent des améliorations relatives du taux d'erreur mot sous certaines conditions. En particulier, nos expériences montrent que l'augmentation de données et la combinaison sélective d'historiques, lorsqu'elles sont associées, donnent des résultats intéressants


  • Résumé

    Currently, most of the automatic speech recognition (ASR) systems are based on statistical language models (SLM). These models are estimated from sets of observations. So, the implementation of an ASR system requires having a corpus in adequacy with the aimed application. Because of the difficulties occurring while collecting these data, the available corpora may be insufficient to estimate SLM correctly. To raise this insufficiency, one may wish to use other data and to adapt them to the application context. The main objective is to improve the performances of the corresponding dialogue system. Within this framework, we've defined and implemented a new paradigm: the matrix representation of the linguistic data. This approach is the basis of our work; it allows a new linguistic data processing thanks to the use of the linear algebra. For example, we've defined a semantic and functional similarity between words. Moreover, we have studied and developed several techniques of adaptation based on the matrix representation. During our study, we've investigated several research orientations: Filtering the data: we've used the technique of the minimal blocks. The linear transformation: this technique consists in defining an algebraic operator to transform the linguistic data. The data augmentation: this technique consists in reestimating the occurrences of a word observed according to its functional similarity with other words. The selective combination of histories: this technique is a generalization of the linear interpolation of language models. Combining techniques: each technique having advantages and drawbacks, we've sought the best combinations. The experimental results obtained within our framework of study give us relative improvements in term of word error rate. In particular, our experiments show that associating the data augmentation and the selective combination of histories gives interesting results

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XIV-215 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p. 209-215

Où se trouve cette thèse ?

  • Bibliothèque : Université d'Avignon et des Pays de Vaucluse. Bibliothèque universitaire.
  • Disponible pour le PEB
  • Cote : T 17.05.265

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université d'Avignon et des Pays de Vaucluse. Bibliothèque universitaire.
  • Non disponible pour le PEB
  • Cote : T MF 117
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.