Ce séminaire présente le principe de fonctionnement et l’architecture des Transformers qui sont des modèles de Deep Learning conçus pour le NLP.
Extrêmement performants et basés sur l’idée du mécanisme d’attention on les retrouve dans une grande diversité d’applications du NLP où ils remplacent désormais les réseaux de neurones récurrents (LSTM ou GRU). Ces réseaux constituent en particulier le cœur des systèmes de traduction automatique comme DeepL ou Google Translate, des systèmes de génération automatique de code comme github copilot ou des modèles de langue comme GPT-3. Dans ce séminaire nous décrivons l’architecture des Transformers, le mécanisme d’attention ainsi que l’encodage des tokens.