Comment détecter des documents anormaux dans un corpus ? Et, avant cela, comment définir ce que l’on entend par un document anormal ?
Nul besoin d’insister sur l’importance pratique d’une telle question. Du point de vue scientifique il s’agit par ailleurs d’un problème difficile au croisement du machine learning non supervisé et du NLP.
Dans ce séminaire, on fait un rapide tour d’horizon des stratégies disponibles pour attaquer ce problème et l’on présente un article récent qui propose une méthode simple basée sur la factorisation en matrices non négative (TONMF) dont le code est disponible librement.