Par Pirmin Lemberger, directeur scientifique chez onepoint
Dans ce deuxième séminaire de notre série consacrée à la causalité nous examinerons comme on peut construire des embeddings de texte (de phrases) ajustés pour répondre à des questions causales. Comment par exemple déterminer l’influence causale sur la popularité d’une publication d’un réseau social d’une icône indiquant le genre de son auteur ? Selon toute vraisemblance cette popularité dépendra simultanément de son contenu et du genre affiché. Par ailleurs le genre affiché influera sur le contenu de l’article, typiquement par le choix du sujet ou le style d’écriture. Le texte devient alors une variable de confusion. Dans les situations dites identifiables, les théories de la causalité (Pearl ou Potential outcome) permettent d’ajuster les estimations pour prendre en compte de telles variables de confusion. Mais le TAL pose des problèmes spécifiques liés à la grande dimensionalité des représentations d’un texte. Dans l’article qui sera présenté, nous examinerons une adaptation du modèle BERT et une du modèle génératif LDA a ce problème.
Lien de connexion