Investigadores advierten que los principales modelos de IA podrían fomentar experimentos científicos peligrosos que provoquen incendios, explosiones o envenenamientos. Una nueva prueba en 19 modelos avanzados reveló que ninguno podía identificar de forma fiable todos los problemas de seguridad. Aunque hay mejoras en marcha, los expertos destacan la necesidad de supervisión humana en los laboratorios.
La integración de la inteligencia artificial en la investigación científica promete eficiencia, pero también introduce riesgos significativos de seguridad, según un estudio publicado en Nature Machine Intelligence. Dirigido por Xiangliang Zhang en la University of Notre Dame en Indiana, la investigación desarrolló LabSafety Bench, un benchmark que comprende 765 preguntas de opción múltiple y 404 escenarios pictóricos para evaluar la capacidad de la IA de detectar peligros de laboratorio. Testing 19 modelos de lenguaje grandes y modelos de visión-lenguaje, el equipo encontró que ningún modelo superó el 70 por ciento de precisión general. Por ejemplo, Vicuna rindió casi tan mal como una adivinanza aleatoria en las secciones de opción múltiple, mientras que GPT-4o alcanzó el 86,55 por ciento y DeepSeek-R1 el 84,49 por ciento. En pruebas basadas en imágenes, modelos como InstructBlip-7B obtuvieron menos del 30 por ciento. Estas deficiencias son particularmente alarmantes dados accidentes de laboratorio pasados, como la muerte en 1997 de la química Karen Wetterhahn por exposición a dimetilmercurio, una explosión en 2016 que le costó el brazo a una investigadora y un incidente en 2014 que causó ceguera parcial. Zhang se muestra cautelosa respecto al despliegue de IA en laboratorios autónomos. «¿Ahora? ¿En un laboratorio? No lo creo», dijo. «A menudo se entrenaron para tareas de propósito general... No tienen el conocimiento específico sobre estos [peligros de laboratorio]». Un portavoz de OpenAI reconoció el valor del estudio, pero señaló que no incluía su modelo más reciente. «GPT-5.2 es nuestro modelo científico más capaz hasta la fecha, con razonamiento, planificación y detección de errores significativamente más fuertes», afirmaron, enfatizando la responsabilidad humana en materia de seguridad. Expertos como Allan Tucker, de Brunel University London, abogan por usar la IA como asistente humano en el diseño de experimentos, advirtiendo contra la sobredependencia. «Ya hay evidencia de que los humanos se relajan y desconectan, dejando que la IA haga el trabajo duro sin el escrutinio adecuado», dijo. Craig Merlic, de la University of California, Los Angeles, compartió un ejemplo en el que modelos de IA tempranos manejaron mal consejos sobre derrames de ácido, aunque han mejorado desde entonces. Cuestiona las comparaciones directas con humanos, destacando la rápida evolución de la IA: «Los números de este artículo probablemente serán completamente inválidos en otros seis meses». El estudio subraya la urgencia de mejorar los protocolos de seguridad de la IA antes de su adopción generalizada en laboratorios.