La synthèse d’images à partir de descriptions en langage naturel suscite un fort intérêt qui s’étend bien au-delà de la communauté scientifique. Les derniers mois ont vu l’apparition de nombreux systèmes performants parmi lesquels on trouve Imagen, Midjourney ou encore DALL-E 2. Ce dernier repose sur un modèle contrastif nommé CLIP (pour Contrastive Language-Image Pre-training). CLIP permet la génération de représentations d’images robustes et de taille réduite qui contiennent de l’information d’ordre sémantique et de style. DALL-E 2, aussi nommé unCLIP, exploite ces représentations robustes dans le cadre d’un processus de génération d’image basé sur des modèles de diffusion. Ce séminaire a pour ambition, au travers l’analyse des composants du système DALL-E 2, d’illustrer l’apport du TAL dans les approches modernes de la synthèse d’images.

Les slides de la présentation