فشل روبوتات الدردشة بالذكاء الاصطناعي في 60% من استفسارات صحة المرأة العاجلة

نماذج الذكاء الاصطناعي الشائعة الاستخدام، بما في ذلك ChatGPT وGemini، غالباً ما تفشل في تقديم نصائح كافية لقضايا صحة المرأة العاجلة، وفقاً لاختبار معيار جديد. وجد الباحثون أن 60% من الردود على الاستفسارات المتخصصة كانت غير كافية، مما يبرز التحيزات في بيانات تدريب الذكاء الاصطناعي. يدعو الدراسة إلى تحسين المحتوى الطبي لسد هذه الفجوات.

قام فريق مكون من 17 باحثاً في صحة المرأة وصيادلة وأطباء من الولايات المتحدة وأوروبا بإنشاء 345 استفساراً طبياً عبر تخصصات مثل الطب الطارئ والنسائية وعلم الأعصاب. تم اختبار هذه الاستفسارات على 13 نموذجاً كبيراً للغة من شركات مثل OpenAI وGoogle وAnthropic وMistral AI وxAI. راجع الخبراء ردود الذكاء الاصطناعي، وحددوا الإخفاقات وأعدوا معياراً يتكون من 96 استفساراً. بشكل عام، فشلت النماذج في تقديم نصيحة طبية كافية لـ60% من هذه الأسئلة. حقق GPT-5 أفضل أداء بنسبة فشل 47%، بينما سجل Ministral 8B أعلى معدل عند 73%. قالت فيكتوريا-إليزابيث غروبر، عضو في الفريق في Lumos AI، إن الدافع وراء الدراسة: «رأيت المزيد والمزيد من النساء في دائرتي الخاصة يلجأن إلى أدوات الذكاء الاصطناعي لأسئلة الصحة ودعم القرارات». سلطت الضوء على المخاطر الناتجة عن وراثة الذكاء الاصطناعي لفجوات النوع الاجتماعي في المعرفة الطبية، وفوجئت بالتباين في أداء النماذج. شرحت كارا تاننباوم من جامعة مونتريال أن نماذج الذكاء الاصطناعي تُدرب على بيانات تاريخية تحتوي على تحيزات مدمجة، داعية إلى تحديث مصادر الصحة عبر الإنترنت بمعلومات صريحة تتعلق بالجنس والنوع الاجتماعي. ومع ذلك، حذر جوناثان إتش. تشين من جامعة ستانفورد من أن الرقم 60% قد يكون مضللاً، حيث كانت العينة محدودة ومصممة من قبل خبراء، غير ممثلة للاستفسارات النموذجية. أشار إلى سيناريوهات محافظة، مثل توقع الاشتباه الفوري في تسمم الحمل لآلام الرأس بعد الولادة. اعترفت غروبر بهذه النقاط، مشددة على أن المعيار يضع معياراً صارماً مبنياً على أساس سريري: «هدفنا لم يكن الادعاء بأن النماذج غير آمنة بشكل عام، بل تحديد معيار واضح مبني على أساس سريري للتقييم». رد متحدث باسم OpenAI بأن ChatGPT مصمم لدعم الرعاية الطبية لا استبدالها، وأن نموذجهم الأحدث GPT 5.2 يأخذ بعين الاعتبار السياق مثل الجنس بشكل أفضل. لم تعلق الشركات الأخرى. تؤكد النتائج، المنشورة على arXiv (DOI: arXiv:2512.17028)، على الحاجة إلى استخدام الذكاء الاصطناعي بحذر في الرعاية الصحية.

مقالات ذات صلة

Illustration of Swedes in a Stockholm cafe using AI chatbots amid survey stats on rising usage and skepticism.
صورة مولدة بواسطة الذكاء الاصطناعي

Increased AI chatbot use among Swedes – but also concerns

من إعداد الذكاء الاصطناعي صورة مولدة بواسطة الذكاء الاصطناعي

According to the latest SOM survey from the University of Gothenburg, the share of Swedes chatting with an AI bot weekly rose from 12 to 36 percent between 2024 and 2025. At the same time, skepticism toward AI has grown, with 62 percent viewing it as a greater risk than opportunity for society.

في تقييم مقارن لنماذج الذكاء الاصطناعي الرائدة، أظهر جيميناي 3.2 فاست من جوجل تفوقاً في الدقة الواقعية على شات جي بي تي 5.2 من أوبن إيه آي، خاصة في المهام المعلوماتية. أبرزت الاختبارات، التي دفعها الشراكة بين أبل وجوجل لتعزيز سيري، التطورات في قدرات الذكاء الاصطناعي التوليدي منذ 2023. رغم قرب النتائج، تجنب جيميناي الأخطاء الكبيرة التي أضعفت موثوقية شات جي بي تي.

من إعداد الذكاء الاصطناعي

كشفت دراسة جديدة من جامعة براون عن مخاوف أخلاقية كبيرة بشأن استخدام روبوتات الدردشة بالذكاء الاصطناعي مثل ChatGPT لتقديم نصائح الصحة النفسية. وجد الباحثون أن هذه الأنظمة تنتهك معايير مهنية غالبًا حتى عندما يُطلب منها أن تعمل كمعالجين. وتدعو الدراسة إلى حمايات أفضل قبل نشر مثل هذه الأدوات في مجالات حساسة.

كشف تقرير لـ«الغارديان» أن أحدث نموذج ذكاء اصطناعي من OpenAI، GPT-5.2، يستمد من «Grokipedia»، وهي موسوعة إلكترونية مدعومة بـxAI، عند التعامل مع قضايا حساسة مثل الهولوكوست وسياسة إيران. رغم الترويج للنموذج للمهام المهنية، إلا أن الاختبارات تشكك في موثوقية مصادره. يدافع OpenAI عن نهجه بالتأكيد على عمليات بحث واسعة على الويب مع تدابير أمان.

من إعداد الذكاء الاصطناعي

يحذر الباحثون من أن نماذج الذكاء الاصطناعي الكبرى قد تشجع على تجارب علمية خطرة تؤدي إلى حرائق أو انفجارات أو تسمم. كشفت اختبارات جديدة على 19 نموذجًا متقدمًا أن أيًا منها لم يتمكن من تحديد جميع المشكلات المتعلقة بالسلامة بشكل موثوق. رغم التحسينات الجارية، يؤكد الخبراء على الحاجة إلى الإشراف البشري في المختبرات.

قررت شركة OpenAI تعليق خطتها لإطلاق "وضع البالغين" لـ ChatGPT إلى أجل غير مسمى، مع التركيز بدلاً من ذلك على منتجاتها الأساسية. وتأتي هذه الخطوة بعد أيام من إيقاف أداة الفيديو Sora. ويعطي الرئيس التنفيذي سام ألتمان الأولوية حالياً لـ ChatGPT وCodex ومتصفح الذكاء الاصطناعي Atlas وسط ضغوط تنافسية متزايدة.

من إعداد الذكاء الاصطناعي

أطلقت أوبن إيه آي نموذجًا محدثًا لتوليد الصور لشات جي بي تي، مما يجعله أسرع بأربع مرات وأفضل في اتباع تعليمات المستخدم. تشمل التحديث قدرات تحرير محسنة وعرض نص محسن. يأتي هذا بعد فترة قصيرة من إصدار GPT-5.2 وبين المنافسة من جيميناي جوجل.

 

 

 

يستخدم هذا الموقع ملفات تعريف الارتباط

نستخدم ملفات تعريف الارتباط للتحليلات لتحسين موقعنا. اقرأ سياسة الخصوصية الخاصة بنا سياسة الخصوصية لمزيد من المعلومات.
رفض