Par Nathanaël BEAU, doctorant à l’université Paris-Cité
Récemment, des modèles pré-entraînés ont montré des résultats prometteurs dans le problème de la génération de code grâce à la quantité importe de textes et de codes disponible(Github Copilot, ChatGPT, etc.). Ces modèles utilisent généralement une approche de fine-tuning supervisée, en s’entraînant sur des paires de descriptions de problèmes en langage naturel et de programmes correspondants. Si l’augmentation du nombre de paramètres peut améliorer les performances, elle augmente également le coût calcul et peut conduire à un surapprentissage des données d’entraînement. On présente RETROcode, un plug-in de l’architecture classique du transformer pour la synthèse de programmes, qui utilise une importante base de données de codes comme méthode complémentaire pour passer à l’échelle. Plutôt que de simplement augmenter la taille du modèle et de s’entraîner sur plus de données, RETROcode permet aux modèles d’accéder directement à une grande base de données pour faire des prédictions, fournissant un moyen efficace d’améliorer les modèles avec une mémoire à grande échelle.
Lien de connexion