Un système neuro- prédictif pour la reconnaissance automatique de la parole continue

par Abdelhamid Mellouk

Thèse de doctorat en Informatique

Sous la direction de Patrick Gallinari.

Soutenue en 1994

à Paris 11 .


  • Résumé

    Cette thèse décrit le développement d'un système hybride pour le décodage acoustico- phonétique basé sur la coopération entre réseaux de neurones et programmation dynamique. La première partie est consacrée aux approches et techniques courantes les plus intéressantes pour la reconnaissance automatique de la parole, elle développe principalement la programmation dynamique, les modèles de Markov cachés et les réseaux connexionnistes. Nous présentons ensuite dans une deuxième partie notre modèle. Un état de l'art du domaine nous permet de le situer parmi l'ensemble des systèmes hybrides qui ont été récemment développés. Notre système met en oeuvre un ensemble de réseaux prédictifs pour capturer la dynamique du signal de parole. Ces réseaux permettent de modéliser des phonèmes et fournissent des scores à un module de programmation dynamique chargé de réaliser la segmentation. L'apprentissage est réalisé de façon itérative par des algorithmes de gradient stochastique. Nous développons une interprétation statistique du système qui permet d'établir les liens avec des approches markoviennes. Nous présentons des versions successives du système qui permettent de tester différentes hypothèses sur l'ensemble des composants: ordre et type de prédiction, discrimination. Pour cette dernière. Nous proposons et testons plusieurs critères locaux au niveau des trames et globaux au niveau phonétique et développons les liens avec d'autres approches discriminantes développées en parole. Les différentes versions du système ont été testées sur une base de données internationale qui nous a servi d'étalon, la base Timit. Le système final incorpore des modèles prédictifs avec un contexte gauche-droit et une discrimination réalisant un bon compromis efficacité- coût, ses performances en décodage le placent au niveau de l'état de l'art des systèmes actuels

  • Titre traduit

    A neuro-predictive system for the automatic recognition of continuous speech


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 311 p.
  • Notes : Publication autorisée par le jury
  • Annexes : 174 REF.Bibliogr. p. 301-311

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Ecole Polytechnique de l’Université de Tours. Départements Electronique et Energie, Informatique, Mécanique et Systèmes. Centre de documentation.
  • Disponible pour le PEB
  • Cote : DI-TH-366
  • Bibliothèque : Université de Versailles Saint-Quentin-en-Yvelines. Direction des Bibliothèques et de l'Information Scientifique et Technique-DBIST. Bibliothèque universitaire Sciences et techniques.
  • Disponible pour le PEB
  • Cote : T940616
  • Bibliothèque : Université de Versailles Saint-Quentin-en-Yvelines. Direction des Bibliothèques et de l'Information Scientifique et Technique-DBIST. Bibliothèque universitaire Sciences et techniques.
  • Non disponible pour le PEB
  • Cote : T940616
  • Bibliothèque : Université Paris-Saclay. DIBISO. BU Orsay.
  • Accessible pour le PEB
  • Bibliothèque : Centre Technique du Livre de l'Enseignement supérieur (Marne-la-Vallée, Seine-et-Marne).
  • Disponible pour le PEB
  • Cote : TH2014-012073

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université de Lille. Service commun de la documentation. Bibliothèque universitaire de Sciences Humaines et Sociales.
  • Non disponible pour le PEB
  • Cote : 1994PA112476
  • Bibliothèque : Université Paris-Est Créteil Val de Marne. Service commun de la documentation. Section multidisciplinaire.
  • PEB soumis à condition
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.