Recherche d’information : analyse croisée des approches (BM25/BERT) et de la solution Weaviate

25/03/2022

La recherche d’information est une discipline scientifique visant l’identification d’une ou plusieurs ressources pertinentes au sein d’un corpus conséquent. Concevoir un moteur de recherche capable d’analyser une requête et de produire une liste ordonnée de documents textes en adéquation avec cette dernière, constitue une problématique particulière au sein de cette thématique.

Introduit en 2016, la méthode de pondération BM25 a permis à des moteurs de recherche tel que Elasticsearch d’améliorer significativement la qualité des résultats retournés. Les origines de cette fonction de score remontent au modèle probabiliste de pertinence, proposé en 1976 par Robertson et al. Ainsi BM25 découle d’un premier postulat, stipulant qu’il existe une variable cachée binaire, la « pertinence », indiquant si un document répond ou non à une requête. Si nous classons les documents d’un corpus en fonction de leur probabilité d’être pertinent vis-à-vis d’une requête, nous obtenons un classement optimal. Cette probabilité ne pouvant être calculée directement, BM25 est conçu sur la base d’un certain nombre d’hypothèses simplificatrices.

Aujourd’hui les réseaux de neurones dans la lignée de BERT offrent la possibilité de revenir sur une partie de ces hypothèses et donc de proposer une évaluation plus fine de la pertinence d’un document. Néanmoins les temps de calcul nécessaire pour comparer une requête à tous les documents sont trop élevés pour une utilisation réelle. Plusieurs travaux de recherche (Passage re-ranking with Bert,Multi-stage document ranking with BERT) proposent donc des modèles qui combinent BM25 et BERT, BM25 fournissant un premier ensemble de résultats que BERT pourra nettoyer et classer.

L’un des verrous de ces approches réside dans le fait que la requête est comparée à l’ensemble des ressources du corpus. En particulier les liens entre les documents ne sont pas explorés, suivant ainsi l’une des premières hypothèses simplificatrices du modèle probabiliste de pertinence : la probabilité qu’un document soit pertinent au regard d’une requête s’évalue en ayant connaissance uniquement du document et en ignorant le reste du corpus. Avec l’algorithme Hierarchical Navigable Small Word, la solution open source Weaviate tente de relâcher ce postulat. BERT y est utilisé pour transformer les documents en vecteurs numériques et ces derniers sont organisés dans un graphe dont les arêtes facilitent l’exploration du corpus. Les documents suggérés constituent alors une approximation des plus proches voisins du vecteur numérique associé à la requête.

L’ensemble de ces travaux montrent la complexité des problématiques constitutives du Search. Nous disposons de nombreuses briques permettant de les dénouer. Toutefois comment les combiner de manière harmonieuse et surtout comment évaluer de manière fiable les différentes approches demeurent des questions ouvertes.

Les slides de la présentation