Aujourd’hui on parle de RETRO, l’architecture des chercheurs de DeepMind obtenant les mêmes performances que GPT-3 en étant 96% plus petit.
Les chercheurs remarquent que l’amélioration des résultats due à l’augmentation des paramètres vient de deux aspects : la capacité de calcul augmentée permettant d’encoder des informations linguistiques complexes et l’apprentissage par cœur de plus d’exemples.
Leur objectif est de découpler ces informations « par cœur » des informations propres à la langue. Ils créent et utilisent une base de données extérieure leur permettant d’aller pêcher les informations factuelles, leur réseau de neurones pouvant donc se concentrer uniquement sur l’apprentissage linguistique avec (beaucoup) moins de paramètres.
C’est l’objet de ce séminaire !