“Trust Region Policy Optimization” (TRPO) est un algorithme phare du Deep Reinforcement Learning, conçu pour remédier à deux limites majeures de l’approche classique “Vanilla Policy Gradient”.
Cette dernière n’est pas sample efficient et elle présente des problèmes de convergence. Pour remédier à ces défauts, TRPO propose une méthode d’optimisation basée sur la mise en place de « régions de confiance », garantissant une amélioration de la policy à chaque itération et permettant la réutilisation de données anciennes.