S'appuyant sur la mise à jour d'images ChatGPT d'hier, OpenAI a détaillé GPT Image 1.5, un modèle multimodal permettant des éditions photo conversationnelles précises. Il répond à des rivaux comme Nano Banana de Google tout en introduisant des garde-fous contre les abus.
La mise à jour d'images d'OpenAI, déployée le 16 décembre et détaillée davantage le 17 décembre, introduit GPT Image 1.5 — un système multimodal natif qui traite les invites textuelles et les pixels d'image comme des jetons unifiés. Cela permet des éditions conversationnelles fluides, comme modifier les poses, supprimer des objets, ajuster les vêtements ou affiner les détails tout en préservant les visages, s'appuyant sur la génération plus rapide et le suivi d'instructions mis en avant précédemment.
Quatre fois plus rapide et 20 % moins cher via l'API que son prédécesseur, le modèle s'intègre dans un nouvel espace latéral ChatGPT avec des préréglages et des invites. Fidji Simo, PDG des applications d'OpenAI, a noté : « Créer et éditer des images est une tâche d'un genre différent et mérite un espace conçu pour le visuel. »
La sortie contrebalance Nano Banana de Google (également appelé Nano Banana Pro), loué pour ses éditions réalistes et son rendu de texte depuis août. GPT Image 1.5 s'améliore dans ces domaines mais accuse un retard dans certains styles de dessin et en précision scientifique.
Les risques éthiques s'amplifient avec l'édition avancée, incluant les deepfakes et contenus non consensuels. OpenAI déploie des filtres pour matériel sexuel/violent, métadonnées C2PA (supprimables) et affinements continus. Des problèmes plus larges incluent les réactions des créateurs sur les ressemblances et droits d'auteur, contrastés par des accords comme celui d'OpenAI avec Disney pour l'usage de personnages en 2026 au milieu de poursuites de Ziff Davis.
OpenAI affirme : « Nous pensons être encore au début de ce que la génération d'images peut permettre », signalant plus d'avancées multimodales.