Système d'apprentissage par auto-observation : Application au jeu de go

par Tristan Cazenave

Thèse de doctorat en Sciences appliquées

Sous la direction de Jacques Pitrat.

Soutenue en 1996

à Paris 6 .


  • Résumé

    Cette thèse dècrit un système d'apprentissage par auto-observation, Introspect, qui crée automatiquement, pour un domaine donné, les connaissances qui font des coupes dans les arbres de recherche développés dans ce domaine. Introspect utilise une représentation des connaissances à base de logique des prédicats. Il représente ses connaissances de façon différente suivant qu'il veut apprendre de nouvelles connaissances ou qu'il veut utiliser les connaissances qu'il a apprises. Dans la phase d'apprentissage il utilise une représentation générale qui lui permet d'apprendre des règles générales en utilisant peu d'exemples. Il possède un mécanisme de compilation logique qui lui permet de filtrer les règles apprises rapidement. Introspect utilise l'évaluation partielle de certaines prémisses des règles pour pouvoir filtrer les règles apprises encore plus rapidement lorsqu'il les utilise dans un autre but que l'apprentissage. De plus, afin de pouvoir s'auto-observer en phase d'apprentissage, Introspect résout les problèmes avec une représentation qu'il peut manipuler. Il interprète ses règles et mémorise leurs déclenchements. Ceci n'est plus utile en phase d'utilisation, c'est pourquoi il compile ses règles en programmes C++ pour pouvoir les utiliser efficacement. Une extension de la théorie combinatoire des jeux à des valeurs inconnues est définie qui permet de représenter des connaissances partielles sur des jeux complexes. Introspect ne possède au départ qu'une définition simple et concise des buts qu'il doit atteindre et un ensemble de règles décrivant les conséquences directes d'une action. A partir des exemples qu'il rencontre, il se spécialise automatiquement en un autre programme qui permet de prévoir efficacement à long terme les conséquences de ses actions sur l'achévement des buts définis. La combinaison de ces diverses méthodes m'a permis d'écrire en une année un programme de go qui a sa place dans les compétitions mondiales de programmes de go. Ma méthode d'apprentissage est générale et peut être appliquée à d'autres domaines que celui du jeu de go. Je donne des exemples d'applications pour le jeu d'abalone et pour la prévision en gestion. Dans ces domaines aussi, Introspect remplace la recherche combinatoire par le filtrage d'une base de règles apprises.


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (227 p.)
  • Annexes : Bibliogr. p. 155-160

Où se trouve cette thèse ?

  • Bibliothèque : Centre de recherche en informatique de Lens. Bibliothèque.
  • Disponible sous forme de reproduction pour le PEB
  • Cote : THE 96 CAZ
  • Bibliothèque : Université de la Nouvelle Calédonie (Nouméa). Bibliothèque universitaire.
  • PEB soumis à condition
  • Cote : TH EXT 1996 CAZ
  • Bibliothèque : Université Paris-Dauphine (Paris). Service commun de la documentation.
  • Disponible pour le PEB
  • Bibliothèque : Université Pierre et Marie Curie. Bibliothèque Universitaire Pierre et Marie Curie . Section Mathématiques-Informatique Recherche.
  • Consultable sur place dans l'établissement demandeur
  • Cote : T Paris 6 1996 511
  • Bibliothèque : Centre Technique du Livre de l'Enseignement supérieur (Marne-la-Vallée, Seine-et-Marne).
  • Disponible pour le PEB
  • Cote : PMC RT P6 1996
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.