Baseando-se na atualização de imagens do ChatGPT de ontem, a OpenAI detalhou o GPT Image 1.5, um modelo multimodal que permite edições precisas de fotos conversacionais. Responde a rivais como o Nano Banana do Google enquanto introduz salvaguardas contra uso indevido.
A atualização de imagens da OpenAI, lançada em 16 de dezembro e detalhada mais em 17 de dezembro, introduz o GPT Image 1.5 — um sistema multimodal nativo que trata prompts de texto e pixels de imagem como tokens unificados. Isso permite edições conversacionais perfeitas, como alterar poses, remover objetos, ajustar roupas ou refinar detalhes enquanto preserva rostos, construindo sobre a geração mais rápida e o seguimento de instruções destacados anteriormente.
Quatro vezes mais rápido e 20% mais barato via API que seu antecessor, o modelo se integra a um novo espaço lateral do ChatGPT com predefinições e prompts. Fidji Simo, CEO de aplicações da OpenAI, observou: «Criar e editar imagens é um tipo diferente de tarefa e merece um espaço construído para visuais.»
O lançamento contrapõe o Nano Banana do Google (também chamado Nano Banana Pro), elogiado por edições realistas e renderização de texto desde agosto. O GPT Image 1.5 melhora nessas áreas, mas fica atrás em alguns estilos de desenho e precisão científica.
Riscos éticos crescem com a edição avançada, incluindo deepfakes e conteúdo não consensual. A OpenAI implanta filtros para material sexual/violento, metadados C2PA (removíveis) e refinamentos contínuos. Questões mais amplas incluem reação negativa de criadores sobre semelhanças e direitos autorais, contrastadas por acordos como o da OpenAI com a Disney para uso de personagens em 2026 em meio a processos da Ziff Davis.
A OpenAI afirma: «Acreditamos que ainda estamos no início do que a geração de imagens pode habilitar», sinalizando mais avanços multimodais.