L’un des problèmes fondamentaux rattaché aux modèles de séquences est de parvenir à modéliser les dépendances à longue distance entre leurs éléments constitutifs (mots, tokens, phonèmes, molécules etc.). Différentes architectures de réseaux de neurones comme les 1D-CNN, les LSTM enrichis d’un mécanisme d’attention ou, plus récemment, les Transformers apportent chacune une réponse partielle à cette problématique. Toutefois aucun de ces modèles ne parvient à modéliser de très longues séquences (>10.000 éléments).
Dans ce séminaire, nous introduirons le modèle S4 développé récemment à partir d’idées issues de la théorie du contrôle et qui parvient à relever ce défi. S4 repose sur une formulation mathématique précise de l’idée de mémoire instantanée d’un historique et peut s’utiliser tel quel, sans adaptation d’architecture, à toutes sortes de données séquentielles (textes, sons, séquences ADN, …). S4 dépasse l’état de l’art dans un grand nombre de situations et a permis de résoudre certains problèmes ardus restés jusqu’ici sans solution comme la tâche Path-X. Nous discuterons la pertinence de S4 pour le traitement automatique du langage.