Le Reinforcement Learning (RL) est un domaine du Machine Learning qui permet d’entrainer des agents virtuels à accomplir des tâches complexes (jeux de stratégie, véhicules autonomes, automatisation industrielle, trading algorithmique etc.)
En pratique, ces algorithmes nécessitent bien souvent un grand nombre de données d’entrainement pour apprendre des stratégies optimales, ce qui implique de créer un environnement virtuel dans lequel les agents peuvent s’entrainer en accéléré (plusieurs millions d’itérations).
L’algorithme de Soft-Actor Critic (publié en 2018) rebat les cartes en proposant une technique d’entrainement extrêmement rapide et efficace (on parle de sample efficiency), ce qui rend possible l’entrainement de certains agents de RL directement dans le monde réel ! (Cf le robot qui apprend à marcher tout seul ci-dessous).
Le secret de cette approche réside dans la technique d’exploration de l’algorithme, basée sur un système de maximisation de l’entropie, qui pousse l’agent à explorer son environnement de façon plus « intelligente ».