Le phénomène de « data-leak » est bien connu des data scientists. Il désigne une situation dans laquelle un modèle de machine learning supervisé exploite, sans qu’on le souhaite, des données sans relation causale avec la cible à prédire. C’est le cas par exemple lorsqu’un modèle de langue auquel on demande de prédire la profession d’une personne prédira systématiquement « Elle est infirmière » mais « Il est médecin ». Un autre exemple est celui de la prédiction de l’utilité d’un commentaire d’un produit ou d’un service. Dans ce cas il n’y a aucune raison pour que la tonalité émotionnelle d’un commentaire, qu’elle soit positive ou négative, ait un impact sur son utilité, c’est pourtant souvent le cas. Dans ce séminaire nous examinerons comment il est possible de formaliser rigoureusement le concept de prédicteur invariant sous des modifications contrefactuelles. Pour cela nous utiliserons les outils de l’inférence causale. Nous montrerons ensuite comment on peut procéder à une régularisation causale des prédicteurs pour améliorer leur robustesse et nous illustrerons le propos sur des données de commentaires de produits sur Amazon.

Les slides de la présentation

Les autres séminaires de la série :