يحذر الباحثون من أن نماذج الذكاء الاصطناعي الكبرى قد تشجع على تجارب علمية خطرة تؤدي إلى حرائق أو انفجارات أو تسمم. كشفت اختبارات جديدة على 19 نموذجًا متقدمًا أن أيًا منها لم يتمكن من تحديد جميع المشكلات المتعلقة بالسلامة بشكل موثوق. رغم التحسينات الجارية، يؤكد الخبراء على الحاجة إلى الإشراف البشري في المختبرات.
تعد تكامل الذكاء الاصطناعي في البحث العلمي وعدًا بالكفاءة، لكنه يثير أيضًا مخاطر أمان كبيرة، وفقًا لدراسة نشرت في Nature Machine Intelligence. بقيادة Xiangliang Zhang في University of Notre Dame في إنديانا، طورت البحوث LabSafety Bench، وهو معيار يتكون من 765 سؤال اختيار متعدد و404 سيناريو مصور لتقييم قدرة الذكاء الاصطناعي على كشف مخاطر المختبر. اختبر الفريق 19 نموذج لغة كبير ونماذج لغة رؤية، ووجد أن لا نموذج تجاوز 70 في المئة دقة عامة. على سبيل المثال، كان أداء Vicuna قريبًا من التخمين العشوائي في أقسام الاختيار المتعدد، بينما حقق GPT-4o 86.55 في المئة وDeepSeek-R1 84.49 في المئة. في الاختبارات القائمة على الصور، سجل نماذج مثل InstructBlip-7B أقل من 30 في المئة. هذه النقائص مقلقة بشكل خاص نظرًا لحوادث المختبرات السابقة، مثل وفاة الكيميائية Karen Wetterhahn في 1997 بسبب التعرض للديميثيلmercure، وانفجار في 2016 أدى إلى فقدان باحثة لذراعها، وحادث في 2014 تسبب في عمى جزئي. تظل Zhang حذرة بشأن نشر الذكاء الاصطناعي في مختبرات القيادة الذاتية. «الآن؟ في مختبر؟ لا أعتقد ذلك»، قالت. «تم تدريبهم غالبًا لمهام عامة... ليس لديهم المعرفة المتخصصة بهذه [مخاطر المختبر]». أقر متحدث باسم OpenAI بقيمة الدراسة لكنه أشار إلى عدم تضمين نموذجهم الأحدث. «GPT-5.2 هو نموذجنا العلمي الأكثر قدرة حتى الآن، مع استدلال وتخطيط وكشف أخطاء أقوى بكثير»، قالوا، مشددين على مسؤولية الإنسان عن السلامة. يدعو خبراء مثل Allan Tucker من Brunel University London إلى استخدام الذكاء الاصطناعي كمساعد بشري في تصميم التجارب، محذرين من الاعتماد المفرط. «هناك بالفعل أدلة على أن البشر يبدأون في الاسترخاء والانفصال، تاركين الذكاء الاصطناعي يقوم بالعمل الشاق دون تدقيق مناسب»، قال. شارك Craig Merlic من University of California, Los Angeles، مثالاً حيث تعاملت نماذج الذكاء الاصطناعي المبكرة بشكل سيء مع نصائح حول تسربات الأحماض لكنها تحسنت منذ ذلك الحين. يشكك في المقارنات المباشرة بالبشر، مشيرًا إلى تطور الذكاء الاصطناعي السريع: «الأرقام في هذه الورقة ستكون غير صالحة تمامًا في ستة أشهر أخرى». تؤكد الدراسة على الحاجة الملحة لتعزيز بروتوكولات سلامة الذكاء الاصطناعي قبل اعتماده الواسع في المختبرات.