Le Reinforcement Learning a montré des résultats impressionnants sur de nombreuses tâches où il est facile de définir une récompense pour l’algorithme (comme le jeu de Go où on perd ou on gagne). Pour autant, créer une récompense pour certaines tâches n’est pas toujours évident : comment en effet définir une récompense pour un robot à qui l’on demande de faire un salto ?
Dans l’article qu’on présente aujourd’hui, les auteurs présentent une méthode où on entraîne une fonction de récompense pour qu’elle calque aux préférences des humains. Des annotateurs comparent différentes trajectoires (deux saltos, par exemple) en sélectionnant celle qu’il préfère pour constituer un jeu de données permettant d’entraîner la fonction de récompense.
Pourquoi est-ce intéressant dans le cadre de TALia ? Car c’est une méthode alternative pour fine-tuner des modèles de langue ! En effet, les modèles comme GPT-3 ont montré des résultats impressionnants en zero-shot learning mais aussi des biais dangereux qu’on ne cite plus. Une possibilité pour mieux contrôler ces modèles est de les fine-tuner avec des jeux de données de manière supervisé. Malheureusement, la création de jeu de données est difficile et nécessite une compréhension fine du problème et des algorithmes mis en jeu. Avec la méthode de comparaison tiré du Reinforcement Learning, on peut fine-tuner nos modèles pour qu’ils correspondent au jugement humain avec des annotateurs non-experts. Et c’est précisément ce qu’on fait openAI dans leur article InstructGPT présenté aussi à la fin du séminaire !