La représentation vectorielle des mots (word embedding) est un problème central du TALN, et un élément clé de nombreux systèmes. La plupart des techniques de word embedding représentent chaque mot par un unique vecteur et ce en dépit de la polysémie de nombreux mots.

La plupart des systèmes de TALN actuels apprennent, à partir de cette unique représentation, à identifier le sens d’un mot en fonction du contexte (par exemple dans des systèmes à base d’attention). Cependant, plusieurs études ont montré qu’avoir de multiples représentations pour un même mot, une représentation par sens du mot, peut être bénéfique dans certaines situations.

Ce séminaire présente trois approches pour la génération de représentations des sens des mots (word sense embedding) et s’inscrit dans le cadre d’un axe de recherche initié autour des questions de polysémie dans le TALN.

Les slides de la présentation