研究者らは、主要なAIモデルが火災、爆発、または中毒を引き起こす危険な科学実験を奨励する可能性があると警告している。19の先進モデルに対する新たなテストでは、いずれもすべての安全問題を確実に特定できなかったことが明らかになった。改善が進んでいるものの、専門家らは実験室での人間の監督の必要性を強調している。
人工知能の科学的調査への統合は効率を約束するが、安全上の重大なリスクももたらすと、Nature Machine Intelligenceに掲載された研究が指摘している。インディアナ州のUniversity of Notre DameのXiangliang Zhang氏が主導したこの研究では、LabSafety Benchというベンチマークを開発し、765の多肢選択問題と404の画像シナリオでAIの実験室危険検知能力を評価した。 19の大型言語モデルとビジョン言語モデルをテストした結果、いずれのモデルも全体で70%を超える精度を達成しなかった。例えば、Vicunaは多肢選択セクションでほぼランダム推測並みの成績だった一方、GPT-4oは86.55%、DeepSeek-R1は84.49%を記録した。画像ベースのテストでは、InstructBlip-7Bのようなモデルが30%未満だった。 これらの欠陥は、過去の実験室事故を考えると特に懸念される。例えば、1997年の化学者Karen Wetterhahnのジメチル水銀暴露による死亡、2016年の爆発で研究者が腕を失った事故、2014年の部分失明を引き起こした事件などだ。 Zhang氏は自律型ラボへのAI展開に慎重だ。「今? 実験室で? そうは思わない」と彼女は言う。「それらは一般目的のタスク向けに訓練されたことが多く... これらの[実験室の危険]に関するドメイン知識がない。」 OpenAIの広報担当者は研究の価値を認めつつ、最新モデルが含まれていないと指摘した。「GPT-5.2はこれまでで最も優れた科学モデルで、推論、計画、誤り検知が大幅に強化されている」と述べ、人間による安全責任を強調した。 Brunel University LondonのAllan Tucker氏のような専門家は、実験設計での人間のアシスタントとしてのAIを提唱し、過度な依存を警告する。「人間が後ろに下がってスイッチを切り、適切な精査なしにAIに難しい仕事を任せる証拠がすでにあります」と彼は言う。 University of California, Los AngelesのCraig Merlic氏は、初期AIモデルが酸のこぼれに関する助言を誤処理した例を挙げつつ、改善が進んだと指摘。人間との直接比較を疑問視し、AIの急速な進化を指摘する:「この論文の数字はあと6カ月で完全に無効になるでしょう。」 この研究は、ラボでの広範な採用前にAI安全プロトコルを強化する緊急性を強調している。