Christophe Thiéry
IdRefMots clés
FR
Contrôle optimal stochastique
Apprentissage par renforcement
Programmation dynamique
Processus Décisionnels de Markov
Least-Squares Policy Iteration
[lambda]-Policy Iteration
Approximation de la fonction de valeur
Compromis biais-variance, Fonctions de base
Tetris
Méthode d'entropie croisée
Itération (mathématiques)
Markov, Processus de -- Solutions numériques
Approximation stochastique
Intelligence artificielle répartie
Systèmes adaptatifs