Les bases du planning en RL

08/04/2022

Comment fonctionne l’intelligence artificielle qui a battu le champion de Go Lee Sedol lors de cette fameuse partie historique de 2016 ? Quels sont les grands principes algorithmiques qui ont permis à cette IA d’évaluer les positions complexes du jeu de Go avec tant de pertinence ?

Pour répondre à cette question, il faut s’intéresser au Model-Based Reinforcement Learning, une branche du RL qui consiste construire un modèle de l’environnement dans lequel l’agent de RL pourra continuer à s’entrainer sans nécessairement interagir avec le « vrai » environnement. C’est en particulier le cas du fameux algorithme MCTS (Monte Carlo Tree Search) qui anticipe les trajectoires à venir en construisant un arbre des futurs états possibles grâce au modèle de l’environnement.

Dans ce séminaire, nous avons également fait un point sur la gestion du dilemme exploration-exploitation, centrale en RL, en introduisant la stratégie d’exploration UCB1 (pour Upper Confidence Bound). Cette stratégie est celle qu’on utilise habituellement dans les MCTS pour explorer l’arbre des futurs états possibles plus efficacement.