Par Nathanael BEAU, doctorant CIFRE onepoint – université de Paris

Les gros modèles de langue (LLM) tels que GPT-3, OPT, BLOOM, etc. ont montré des performances remarquables dans de nombreuses tâches du traitement automatique du langage (TAL). Ces modèles ont été entraîné sur des corpus à l’échelle d’internet à prédire le mot consécutif à une suite de mots.

Récemment, ces LLM ont été amélioré par l’exploitation de bases de données (KB) de grande taille taille. Ainsi sont nés des modèles tels que kNN-LM, RETRO. Ces KB contiennent une grande liste de textes parmi lesquels on va chercherales k plus proches d’un texte dont on souhaite prédire le mot suivant. La clé utilisée est le plongement de cette phrase.

Dans ce séminaire, nous étudierons ces modèles de langue augmentés pour comprendre l’origine exacte de leurs meilleures performances.

Lien de connexion