Bygger på gårdagens ChatGPT-bilduppgradering har OpenAI detaljerat GPT Image 1.5, en multimodal modell som möjliggör precisa konversationella fotoediteringar. Den svarar på konkurrenter som Googles Nano Banana samtidigt som den inför skyddsåtgärder mot missbruk.
OpenAIs bilduppdatering, utrullad 16 december och detaljerad vidare 17 december, introducerar GPT Image 1.5 – ett inhemskt multimodalt system som behandlar textprompts och bildpixlar som enhetliga tokens. Detta möjliggör sömlösa konversationella editeringar, såsom att ändra poser, ta bort objekt, justera kläder eller förfina detaljer samtidigt som ansikten bevaras, byggt på den snabbare genereringen och instruktionsföljningen som framhölls tidigare.
Fyra gånger snabbare och 20 % billigare via API än föregångaren integreras modellen i en ny ChatGPT-sidopanel med förinställningar och prompts. Fidji Simo, OpenAIs VD för applikationer, noterade: «Att skapa och redigera bilder är en annan typ av uppgift och förtjänar en plats byggd för visuellt.»
Utgåvan motverkar Googles Nano Banana (även kallad Nano Banana Pro), hyllad för realistiska editeringar och textåtergivning sedan augusti. GPT Image 1.5 förbättras i dessa områden men halkar efter i vissa teckningstilar och vetenskaplig noggrannhet.
Etiska risker växer med avancerad redigering, inklusive deepfakes och icke-samtyckesmaterial. OpenAI deployar filter för sexuellt/våldsamt material, C2PA-metadata (borttagbar) och pågående förfiningar. Bredare frågor inkluderar skapares motreaktioner mot likheter och upphovsrätt, kontrasterat av avtal som OpenAIs med Disney för karaktärsanvändning 2026 mitt i stämningar från Ziff Davis.
OpenAI hävdar: «Vi tror att vi fortfarande är i början av vad bildgenerering kan möjliggöra», signalerande fler multimodala framsteg.