Détection d’anomalies dans les graphes de documents

Équipe d’encadrement : Jean-Louis Dessalles (Telecom Paris), Pirmin Lemberger (OnePoint), Tiphaine Viard (Telecom Paris)

Nous souhaitons nous intéresser à la détection d’anomalies dans des contextes où la donnée possède à la fois une composante textuelle et une structure de graphe. Les exemples de telles données sont nombreux : il peut s’agir d’articles sur Wikipédia, de tweets, d’articles de presse, de bases de logs informatiques, de publications scientifiques… Dans tous les cas, on a un graphe où des nœuds sont reliés entre eux, et où du texte est associé ; ainsi, pour Wikipédia, les nœuds contiennent la page Wikipédia, et deux nœuds sont reliés s’il y a un lien hypertexte entre ces pages. De nombreux travaux s’intéressent à la modélisation de ces données ainsi qu’à diverses tâches, telles que la classification d’entités nommées [Viard et al. 2020], ou la détection d’anomalies [Venturini 2020]. La recherche autour de ces données est très active.

Par ailleurs, l’apprentissage en contexte semble de prime abord contradictoire avec l’approche data (qui vise à anticiper l’ensemble des contextes possibles). Certaines approches ”one-shot” (Lake et al. 2011) apprennent au préalable à représenter les données dans un espace plus restreint (rappelant les espaces latents) où discriminer devient facile. La notion de contraste étend cette idée. Elle opère dans un espace géométrique (par ex. un espace latent). Le principe consiste non seulement à séparer deux données (par exemple une observation de son prototype le plus proche), mais de plus à interpréter la différence obtenue. Cela est possible dans un espace géométrique : la différence vectorielle est un vecteur du même espace. Extraire des contextes pertinents, les caractériser, et construire une algèbre du contraste sont autant de problèmes ouverts du domaine.

Nous pensons que la tâche de détection d’anomalie offre une interface idéale pour explorer la façon dont ces idées interagissent, et pour proposer un cadre unificateur. Dans ce contexte, une anomalie peut aussi bien être un événement au sens statistique du terme –c’est-à-dire un point dans des données qui dévie significativement de la norme – qu’au sens applicatif, par exemple une fake news ou un sujet émergent. [Akoglu et al., 2015] propose un état de l’art des méthodes de détection d’anomalies sur des graphes, tandis que [Wang et al. 2020], [Fan et al. 2020] présentent des avancées récentes permises par l’apprentissage profond, et notamment les réseaux de neurones de graphes. Cependant, c’est une tâche particulièrement difficile : par définition, il y a très peu d’anomalies comparativement au cas ”normaux” (il s’agit d’apprentissage déséquilibré), la définition même d’anomalie est très contextuelle et sujette au changement au sein d’une même application. Enfin, le volume typique des données considérées nécessite des algorithmes très efficaces, voire capable d’opérer en streaming.

Cependant, c’est une tâche particulièrement difficile : par définition, il y a très peu d’anomalies comparativement au cas ”normaux” (il s’agit d’apprentissage déséquilibré), la définition même d’anomalie est très contextuelle et sujette au changement au sein d’une même application. Enfin, le volume typique des données considérées nécessite des algorithmes très efficaces, voire capable d’opérer en streaming.

Dans ce contexte, il semble judicieux de traiter ce problème de front, et non pas soit comme un problème de traitement du langage naturel, soit comme un problème de graphe, ou en simplifiant a priori l’une des deux composantes (par exemple, remplacer la dimension langage naturel par un ensemble d’attributs sur le graphe, ou, à l’inverse, réduire le graphe à quelques features). Nous pensons qu’être capable de traiter cet objet dans sa globalité permet de ne pas avoir a priori à choisir une dimension par rapport à l’autre (textuelle ou structurelle), et être capable de tirer parti des avantages de deux domaines.

Ainsi, nous proposons quelques pistes afin d’approcher ce sujet : La plupart des approches à base de réseaux de neurones reposent sur de l’échantillonnage (positif ou négatif) afin de rester efficaces malgré une quantité de données et une complexité théorique conséquentes. Cet échantillonnage a pour dommage collatéral de représenter le comportement normal plutôt que les anomalies ; une première piste est d’étudier des méthodes d’échantillonnage préservant les anomalies, voire de proposer des modèles n’ayant pas recours à l’échantillonnage ; De récents modèles étendent des modèles d’apprentissage classiques tels que les auto-encodeurs variationnels [Kipf et al. 2016, Jinwon et al. 2015] et les séparateurs à vaste marge (SVM) [Wang et al. 2020] aux graphes. Cependant, ces graphes sont ”simples” (c’est-à-dire qu’ils sont non dirigés, non attribués, statiques…), ce qui ne permet pas de les appliquer directement dans un contexte riche. Étendre ces modèles est une direction envisagée ; Bien que le lien entre contraste, détection d’anomalie et explicabilité soit très intuitif, l’état-de-l’art manque encore d’éléments formels permettant de quantifier les liens entre ces concepts. Être capable de caractériser des anomalies dans leur contexte textuel et structurel nous semble être une étape clef vers la formalisation du concept de contraste.

Ainsi, ce sujet se situe au croisement de nombreux domaines de recherche, et demandera à la personne retenue d’être capable d’explorer des bibliographies très hétéroclites, bien que se recoupant. Ce sujet est rendu possible par l’expertise conjointe de l’équipe d’encadrement, en raisonnement et contraste, traitement du langage naturel et apprentissage automatique, et en analyse de graphes de données réelles.

Références

[Jinwon et al., 2015] Jinwon An, S. Cho, Variational Autoencoder based Anomaly Detection using Reconstruction Probability
[Kingma et al., 2014] Diederik P Kingma, Max Welling, Auto-Encoding Variational Bayes,
[Kipf et al., 2016] Thomas N. Kipf, Max Welling, Variational Graph Auto-Encoders,
[Akoglu et al., 2015] Graph-based anomaly detection and description : a survey,
[Wang et al. 2020] One-Class Graph Neural Networks for Anomaly Detection in Attributed Networks,
[Fan et al. 2020] AnomalyDAE : Dual autoencoder for anomaly detection on attributed networks,
[Lin et al. 2013] Dynamic Sampling Approach to Training Neural Networks for Multiclass Imbalance Classification
[Venturini 2020] Diving in magma : how to explore controversies with actor-network theory
[Viard et al. 2020] Classifying Wikipedia in a fine-grained hierarchy : what graphs can contribute