Une anomalie, au sens général du terme, est considérée comme une observation, un signal inhabituel qui nécessiterait une attention particulière. Dans le cadre de données textuelles, donner une définition d’anomalies n’est pas chose aisée. Si certains modèles, basés sur des architectures transformers, sont capables de détecter des anomalies dites sémantiques (articles sportifs vs politiques par exemple), peu d’entre eux adressent les anomalies factuelles. Une anomalie factuelle apparaît dans un texte au sein duquel une ou plusieurs entités, par la façon dont elles sont agencées, créent une contradiction avec un fait vérifié présent dans une base de connaissance. On propose ici d’étendre un modèle conçu pour la détection d’anomalies sémantiques aux anomalies factuelles, en y injectant de la connaissance. Ce sujet est d’autant plus actuel que c’est précisément ce type d’erreurs que sont susceptibles de commettre les populaires grands modèles de langue (LLM), ceux-ci générant des textes statistiquement plausibles pouvant malgré tout être factuellement erronés.
Les slides du séminaire