Les progrès réalisés dans le domaine de l’OCR (de l’anglais Optical Caracter Recognition) permettent actuellement une extraction à grande échelle du texte contenus dans des documents aussi variés que des tickets de caisse, des factures, des flyers, des baux, etc. Pour toutes ces données, le texte mais également la mise en page sont porteurs de sens.
En étudiant l’architecture du modèle CUTIE, inspiré des réseaux de neurones de segmentation sémantique, nous verrons les défis qu’impliquent ces données riches visuellement. Nous montrerons en quoi les approches classiques de NER (Named Entity Recognition) rencontrent des difficultés. Nous conclurons en étudiant ce que peuvent apporter des démarches telle que l’inférence causale ou l’utilisation d’une base de connaissances.
Les slides du séminaire