Peut-on vraiment faire confiance aux intelligences artificielles pour illustrer nos idées ? Une équipe scientifique a passé au crible les capacités de Midjourney et DALL·E — deux logiciels d'Intelligence Artificielle Générative (IAG) — à produire des images à partir de simples phrases. Le verdict est nuancé ... entre prouesses esthétiques et erreurs de débutant, les machines ont encore du chemin à faire.
Depuis l’émergence des IAG comme Midjourney et DALL·E, la création d’images à partir de simples phrases est devenue une réalité fascinante, voire parfois inquiétante. Pourtant derrière cette prouesse technique se cache une question essentielle : comment ces machines traduisent-elles des mots en visuels ? C’est ce qu’ont voulu comprendre quatre chercheurs issus de l’Université de Liège, de l’Université de Lorraine et de l’EHESS, en menant une étude interdisciplinaire mêlant sémiotique, informatique et histoire de l’art.
« Notre approche repose sur une série de tests rigoureux, » explique Maria Giulia Dondero, sémioticienne à l'Université de Liège. « Nous avons soumis à ces deux IAG des requêtes très précises et nous avons analysé les images produites selon des critères issus des sciences humaines comme la disposition des formes, des couleurs, des regards, le dynamisme spécifique à l’image fixe, le rythme de son déploiement, etc. » Résultat ? Les IA sont capables de générer des images prétendues esthétiques, mais peinent souvent à respecter les consignes les plus simples.
L’étude révèle des difficultés surprenantes, comme le fait que les IAG ne comprennent pas bien la négation (« un chien sans queue » montre un chien avec une queue ou un cadrage tel à la cacher), ni les relations spatiales complexes, ni le positionnement correct des éléments ou le rendu des relations de regard et de distance cohérentes (« deux femmes derrière une porte »). Elles traduisent parfois des actions simples comme « se battre » en scènes de danse, et peinent à représenter des séquences temporelles comme les débuts et fins de gestes (« commencer à manger » ou « avoir fini de manger »). « Ces IAG nous permettent de réfléchir à notre propre manière de voir et de représenter le monde », reprend Enzo D'Armenio, ex-chercheur à l'ULiège, professeur junior à l’université de Lorraine et premier auteur de l'article. « Elles reproduisent des stéréotypes visuels issus de ses bases de données, souvent construites à partir d’images occidentales, et révèlent les limites de la traduction entre langage verbal et langage visuel. »
Répéter, valider et analyser
Les résultats obtenus par l'équipe de recherche ont été validés par répétition - jusqu’à cinquante générations par prompt - afin d’établir leur robustesse statistique. Les modèles présentent aussi des signatures esthétiques distinctes, Midjourney privilégie des rendus « esthétisés », avec des artefacts ou textures qui enjolivent l’image, parfois au détriment de l’instruction stricte tandis que DALL·E, plus « neutre » sur la texture, offre un contrôle compositionnel accru mais peut varier davantage sur l’orientation ou le nombre d’objets. Les séries de 50 tests sur le prompt « trois lignes blanches verticales sur fond noir » illustrent ces tendances : consistance relative mais artefacts fréquents pour Midjourney ; variabilité du nombre et de l’orientation des lignes pour DALL·E.
L’étude rappelle que ces IA sont statistiques. « Les IAG produisent le résultat le plus plausible selon leurs bases d’entraînement et les réglages (parfois éditoriaux) de leurs concepteurs, explique Adrien Deliège, mathématicien à l'ULiège, « des choix qui peuvent standardiser le regard et véhiculer ou réorienter des stéréotypes. » Un exemple parlant : sur le prompt « PDG donnant un discours », DALL·E peut générer majoritairement des femmes, tandis que d’autres modèles produisent quasi exclusivement des hommes blancs d’âge mûr, signe que l’empreinte des concepteurs et des jeux de données influe sur la « vision » du monde que délivre la machine.
Les chercheurs soulignent que pour évaluer ces technologies, il ne suffit pas de mesurer leur efficacité statistique, il faut aussi mobiliser les outils des sciences humaines pour comprendre leur fonctionnement culturel et symbolique. « Les IAG ne sont pas de simples outils automatiques » conclu Enzo D'Armenio. « Elles traduisent nos mots selon des logiques propres, influencées par leurs bases de données et leurs algorithmes. Pour les comprendre et les évaluer, les sciences humaines ont un rôle essentiel à jouer. » Et si ces IA peuvent déjà nous aider à illustrer nos idées, elles ont encore du chemin à faire avant d'arriver à les traduire parfaitement.
Article Title
For a Semiotic Approach to Generative Image AI: On Compositional Criteria
Article Publication Date
25-Apr-2025