A OpenAI lançou um novo modelo de IA, o GPT-5.4-Cyber, exclusivamente para profissionais de cibersegurança verificados. A versão ajustada do seu modelo GPT-5.4 tem como objetivo testar defesas contra jailbreaks e ataques adversários. Este movimento segue o recente anúncio da Anthropic sobre seu próprio modelo poderoso.
A OpenAI anunciou o GPT-5.4-Cyber na terça-feira por meio de uma postagem em seu blog, limitando o acesso aos participantes do seu programa ampliado Trusted Access for Cyber. A empresa afirmou que os testadores ajudarão a identificar lacunas, possíveis jailbreaks e riscos, enquanto melhoram a resiliência a ataques adversários e capacidades defensivas. A OpenAI enfatizou o uso de feedback para entender os benefícios do modelo e mitigar danos em um cenário de cibersegurança de IA contra IA. O modelo é uma variante ajustada do GPT-5.4, adaptada para tarefas de cibersegurança com filtros de segurança menos restritivos, tornando menos provável que recuse solicitações arriscadas relacionadas à segurança. Isso permite que especialistas avaliem como ele poderia ser transformado em arma por agentes mal-intencionados. O lançamento da OpenAI parece ser uma resposta ao Project Glasswing da Anthropic, revelado na semana passada, que introduziu o Claude Mythos Preview. A Anthropic relatou ter encontrado vulnerabilidades de segurança em todos os principais sistemas operacionais e navegadores web com aquele modelo. A OpenAI descreveu suas próprias salvaguardas como suficientes para reduzir o risco cibernético por enquanto, em meio à concorrência contínua com a Anthropic por contratos governamentais e empresariais. Ambas as empresas estão aprimorando a segurança da IA à medida que os modelos se tornam mais poderosos, com profissionais de cibersegurança ganhando acesso antecipado para fortalecer as defesas.