Par Pirmin Lemberger, directeur scientifique chez onepoint
Le phénomène de « data-leak » est bien connu des data scientists. Il désigne une situation dans laquelle un modèle de machine learning supervisé exploite, sans qu’on le souhaite, des données sans relation causale avec la cible à prédire. C’est le cas par exemple lorsqu’un modèle de langue auquel on demande de prédire la profession d’une personne prédira systématiquement « Elle est … infirmière » mais « Il est… médecin ». Un autre exemple est celui de la prédiction de l’utilité d’un commentaire d’un produit ou d’un service. Dans ce cas il n’y a aucune raison pour que la tonalité émotionnelle d’un commentaire, qu’elle soit positive ou négative, ait un impact sur son utilité, c’est pourtant souvent le cas pour des prédicteurs mal conçus. Dans ce troisième séminaire de notre série consacrée à la causalité, nous examinerons comment il est possible de formaliser rigoureusement le concept de prédicteur invariant sous des modifications contrefactuelles. Pour cela nous utiliserons les outils de l’inférence causale. Nous montrerons ensuite comment on peut procéder à une régularisation causale des prédicteurs pour améliorer leur robustesse et nous illustrerons le propos sur des données de commentaires de produits sur Amazon.
Lien de connexion