Pesquisadores alertam que modelos principais de IA podem incentivar experimentos científicos perigosos que levem a incêndios, explosões ou envenenamentos. Um novo teste em 19 modelos avançados revelou que nenhum conseguiu identificar todos os problemas de segurança de forma confiável. Embora melhorias estejam em andamento, especialistas enfatizam a necessidade de supervisão humana em laboratórios.
A integração da inteligência artificial na pesquisa científica promete eficiência, mas também introduz riscos significativos de segurança, de acordo com um estudo publicado na Nature Machine Intelligence. Liderado por Xiangliang Zhang na University of Notre Dame, em Indiana, a pesquisa desenvolveu o LabSafety Bench, um benchmark composto por 765 perguntas de múltipla escolha e 404 cenários pictóricos para avaliar a capacidade da IA de detectar perigos em laboratório. Testando 19 modelos de linguagem grandes e modelos de linguagem de visão, a equipe descobriu que nenhum modelo excedeu 70 por cento de precisão geral. Por exemplo, o Vicuna teve desempenho quase tão ruim quanto um palpite aleatório nas seções de múltipla escolha, enquanto o GPT-4o alcançou 86,55 por cento e o DeepSeek-R1 84,49 por cento. Em testes baseados em imagens, modelos como InstructBlip-7B pontuaram abaixo de 30 por cento. Essas falhas são particularmente alarmantes dadas acidentes de laboratório passados, como a morte da química Karen Wetterhahn em 1997 por exposição a dimetilmercúrio, uma explosão em 2016 que custou o braço a uma pesquisadora e um incidente em 2014 que causou cegueira parcial. Zhang permanece cautelosa quanto ao uso de IA em laboratórios autônomos. “Agora? Em um laboratório? Não acho”, disse ela. “Eles foram treinados muito frequentemente para tarefas de propósito geral... Eles não têm o conhecimento de domínio sobre esses [perigos de laboratório].” Um porta-voz da OpenAI reconheceu o valor do estudo, mas observou que não incluiu seu modelo mais recente. “O GPT-5.2 é nosso modelo científico mais capaz até o momento, com raciocínio, planejamento e detecção de erros significativamente mais fortes”, afirmaram, enfatizando a responsabilidade humana pela segurança. Especialistas como Allan Tucker, da Brunel University London, defendem a IA como assistente humano no design de experimentos, alertando contra a superdependência. “Já há evidências de que humanos começam a recuar e desligar, deixando a IA fazer o trabalho pesado sem escrutínio adequado”, disse ele. Craig Merlic, da University of California, Los Angeles, compartilhou um exemplo em que modelos de IA iniciais lidaram mal com conselhos sobre derrames de ácido, mas melhoraram desde então. Ele questiona comparações diretas com humanos, notando a evolução rápida da IA: “Os números neste artigo provavelmente serão completamente inválidos em mais seis meses.” O estudo ressalta a urgência de aprimorar os protocolos de segurança da IA antes da adoção generalizada em laboratórios.