Forskare varnar för att stora ai-modeller kan uppmuntra riskfyllda vetenskapliga experiment som leder till bränder, explosioner eller förgiftningar. Ett nytt test på 19 avancerade modeller visade att ingen kunde identifiera alla säkerhetsproblem pålitligt. Trots pågående förbättringar betonar experter behovet av mänsklig tillsyn i laboratorier.
Integrationen av artificiell intelligens i vetenskaplig forskning lovar effektivitet, men introducerar också betydande säkerhetsrisker, enligt en studie publicerad i Nature Machine Intelligence. Ledd av Xiangliang Zhang vid University of Notre Dame i Indiana, utvecklade forskningen LabSafety Bench, ett benchmark bestående av 765 flervalsfrågor och 404 bildscenarier för att utvärdera AI:s förmåga att upptäcka labbfaror. Vid testning av 19 stora språkmodeller och synspråkmodeller fann teamet att ingen modell översteg 70 procents noggrannhet totalt. Till exempel presterade Vicuna nästan lika dåligt som slumpmässig gissning i flervalssektionerna, medan GPT-4o nådde 86,55 procent och DeepSeek-R1 84,49 procent. I bildbaserade tester fick modeller som InstructBlip-7B under 30 procent. Dessa brister är särskilt alarmerande med tanke på tidigare labbolyckor, som kemisten Karen Wetterhahns död 1997 av exponering för dimetylkvicksilver, en explosion 2016 som kostade en forskare armen, och en händelse 2014 som orsakade partiell blindhet. Zhang är försiktig med att deploya AI i självkörande labb. „Nu? I ett labb? Det tror jag inte“, sa hon. „De har ofta tränats för allmänna uppgifter... De har inte domänkunskap om dessa [laboratorie]faror.“ En OpenAI-talesperson erkände studiens värde men noterade att den inte inkluderade deras senaste modell. „GPT-5.2 är vår mest kapabla vetenskapsmodell hittills, med betydligt starkare resonemang, planering och felupptäckt“, uppgav de, och betonade mänskligt ansvar för säkerhet. Experter som Allan Tucker från Brunel University London förespråkar AI som mänsklig assistent i experimentdesign, och varnar för överberoende. „Det finns redan bevis för att människor lutar sig tillbaka och stänger av, låter AI göra det tunga arbetet utan ordentlig granskning“, sa han. Craig Merlic från University of California, Los Angeles, delade ett exempel där tidiga AI-modeller hanterade råd om syraspill dåligt men har förbättrats sedan dess. Han ifrågasätter direkta jämförelser med människor, och noterar AI:s snabba utveckling: „Siffrorna i den här artikeln kommer troligen att vara helt ogiltiga om sex månader.“ Studien understryker brådskan i att förbättra AI-säkerhetsprotokoll innan utbredd labbadoption.