WordNet, PageRank et désambiguïsation du sens

21/01/2022

La plupart des mots sont polysémiques, être capable de déterminer automatiquement le sens d’un mot dans un contexte donné (désambiguïsation) est une tâche importante qui a donné lieu à de nombreux travaux dans les domaines de la traduction automatique, de question answering ou encore de résumé automatique.

Plusieurs approches ont été envisagées pour mener à bien cette tâche, certaines d’entre elles consistent à tirer parti de bases de données lexicales qui répertorient les différents sens de mots ainsi que des relations lexicales qui les lient (homonymie, synonymie, hypéronymie, etc.). Wordnet est l’une de ces bases de données lexicales pour l’anglais, accessible ici.

Chez TALia, nous mettons tout particulièrement l’accent sur les données représentées sous forme de graphes. Les relations lexicales définissent des liens entre des sens de mots assimilables à des nœuds, une base de données lexicale possède donc assez naturellement une structure de graphe sous-jacente. Mais comment tirer parti de ce graphe pour mener à bien une tache de désambiguïsation ?

Dans ce séminaire, nous vous présentons une approche basée sur une version personnalisée de l’algorithme PageRank (PPR), historiquement utilisé pour le classement par popularité des pages web dans le moteur de recherche de Google. Dans le cadre d’une tâche de désambiguïsation d’un mot, l’utilisation de PPR permet de déterminer un classement par pertinence des sens de ce mot basé sur la structure du graphe lexical et des mots du contexte dans lequel ce mot se trouve.

Les slides de la présentation