Basándose en la actualización de imágenes de ChatGPT de ayer, OpenAI ha detallado GPT Image 1.5, un modelo multimodal que permite ediciones precisas de fotos mediante conversación. Responde a rivales como Nano Banana de Google mientras introduce salvaguardas contra el mal uso.
La actualización de imágenes de OpenAI, implementada el 16 de diciembre y detallada más a fondo el 17 de diciembre, introduce GPT Image 1.5, un sistema multimodal nativo que trata los prompts de texto y los píxeles de imagen como tokens unificados. Esto permite ediciones conversacionales fluidas, como cambiar poses, eliminar objetos, ajustar ropa o refinar detalles mientras se preservan los rostros, basándose en la generación más rápida y el seguimiento de instrucciones destacados previamente.
Cuatro veces más rápido y un 20% más barato a través de la API que su predecesor, el modelo se integra en un nuevo espacio lateral de ChatGPT con preajustes y prompts. Fidji Simo, CEO de aplicaciones de OpenAI, señaló: «Crear y editar imágenes es una tarea diferente y merece un espacio diseñado para lo visual».
El lanzamiento contrarresta a Nano Banana de Google (también llamado Nano Banana Pro), alabado por sus ediciones realistas y renderizado de texto desde agosto. GPT Image 1.5 mejora en estas áreas, pero se queda atrás en algunos estilos de dibujo y precisión científica.
Los riesgos éticos son mayores con la edición avanzada, incluyendo deepfakes y contenido no consensuado. OpenAI implementa filtros para material sexual/violento, metadatos C2PA (eliminables) y refinamientos continuos. Problemas más amplios incluyen el rechazo de los creadores por semejanzas y derechos de autor, contrastado por acuerdos como el de OpenAI con Disney para uso de personajes en 2026 en medio de demandas de Ziff Davis.
OpenAI mantiene: «Creemos que aún estamos al principio de lo que la generación de imágenes puede habilitar», señalando más avances multimodales.