Dans ce deuxième séminaire de notre série consacrée à la causalité nous examinons comme on peut construire des embeddings de texte (de phrases) ajustés pour répondre à des questions causales. Comment par exemple déterminer l’influence causale sur la popularité d’une publication d’un réseau social d’une icône indiquant le genre de son auteur ? Selon toute vraisemblance cette popularité dépendra simultanément de son contenu et du genre affiché. Par ailleurs le genre affiché influera sur le contenu de l’article, typiquement par le choix du sujet ou le style d’écriture. Le texte devient alors une variable de confusion. Dans les situations dites identifiables, les théories de la causalité (Pearl ou Potential outcome) permettent d’ajuster les estimations pour prendre en compte de telles variables de confusion. Mais le TAL pose des problèmes spécifiques liés à la grande dimensionalité des représentations d’un texte. Dans l’article qui présenté, nous examinons des adaptations des modèles BERT et ATM (un topic model simple) à ce problème. Nous évoquons également la question délicate de la construction d’un benchmark destiné à valider une méthode d’identification d’un effet causal.
Les autres séminaires de la série :