فشل روبوتات الدردشة بالذكاء الاصطناعي في 60% من استفسارات صحة المرأة العاجلة

نماذج الذكاء الاصطناعي الشائعة الاستخدام، بما في ذلك ChatGPT وGemini، غالباً ما تفشل في تقديم نصائح كافية لقضايا صحة المرأة العاجلة، وفقاً لاختبار معيار جديد. وجد الباحثون أن 60% من الردود على الاستفسارات المتخصصة كانت غير كافية، مما يبرز التحيزات في بيانات تدريب الذكاء الاصطناعي. يدعو الدراسة إلى تحسين المحتوى الطبي لسد هذه الفجوات.

قام فريق مكون من 17 باحثاً في صحة المرأة وصيادلة وأطباء من الولايات المتحدة وأوروبا بإنشاء 345 استفساراً طبياً عبر تخصصات مثل الطب الطارئ والنسائية وعلم الأعصاب. تم اختبار هذه الاستفسارات على 13 نموذجاً كبيراً للغة من شركات مثل OpenAI وGoogle وAnthropic وMistral AI وxAI. راجع الخبراء ردود الذكاء الاصطناعي، وحددوا الإخفاقات وأعدوا معياراً يتكون من 96 استفساراً. بشكل عام، فشلت النماذج في تقديم نصيحة طبية كافية لـ60% من هذه الأسئلة. حقق GPT-5 أفضل أداء بنسبة فشل 47%، بينما سجل Ministral 8B أعلى معدل عند 73%. قالت فيكتوريا-إليزابيث غروبر، عضو في الفريق في Lumos AI، إن الدافع وراء الدراسة: «رأيت المزيد والمزيد من النساء في دائرتي الخاصة يلجأن إلى أدوات الذكاء الاصطناعي لأسئلة الصحة ودعم القرارات». سلطت الضوء على المخاطر الناتجة عن وراثة الذكاء الاصطناعي لفجوات النوع الاجتماعي في المعرفة الطبية، وفوجئت بالتباين في أداء النماذج. شرحت كارا تاننباوم من جامعة مونتريال أن نماذج الذكاء الاصطناعي تُدرب على بيانات تاريخية تحتوي على تحيزات مدمجة، داعية إلى تحديث مصادر الصحة عبر الإنترنت بمعلومات صريحة تتعلق بالجنس والنوع الاجتماعي. ومع ذلك، حذر جوناثان إتش. تشين من جامعة ستانفورد من أن الرقم 60% قد يكون مضللاً، حيث كانت العينة محدودة ومصممة من قبل خبراء، غير ممثلة للاستفسارات النموذجية. أشار إلى سيناريوهات محافظة، مثل توقع الاشتباه الفوري في تسمم الحمل لآلام الرأس بعد الولادة. اعترفت غروبر بهذه النقاط، مشددة على أن المعيار يضع معياراً صارماً مبنياً على أساس سريري: «هدفنا لم يكن الادعاء بأن النماذج غير آمنة بشكل عام، بل تحديد معيار واضح مبني على أساس سريري للتقييم». رد متحدث باسم OpenAI بأن ChatGPT مصمم لدعم الرعاية الطبية لا استبدالها، وأن نموذجهم الأحدث GPT 5.2 يأخذ بعين الاعتبار السياق مثل الجنس بشكل أفضل. لم تعلق الشركات الأخرى. تؤكد النتائج، المنشورة على arXiv (DOI: arXiv:2512.17028)، على الحاجة إلى استخدام الذكاء الاصطناعي بحذر في الرعاية الصحية.

مقالات ذات صلة

Photorealistic illustration depicting OpenAI's ChatGPT Images 2 launch, with AI generating text-rich infographics on a laptop screen.
صورة مولدة بواسطة الذكاء الاصطناعي

OpenAI launches ChatGPT Images 2 image generation model

من إعداد الذكاء الاصطناعي صورة مولدة بواسطة الذكاء الاصطناعي

OpenAI announced ChatGPT Images 2, its new AI image model, on Tuesday. The upgrade focuses on creating text-heavy professional visuals like infographics and study guides. It rolls out to all ChatGPT users with generation limits based on subscription plans.

A New York Times analysis shows Google's AI Overviews, powered by Gemini, answering correctly only 90% to 91% of questions in a standard benchmark. This translates to tens of millions of incorrect responses daily across searches. Google disputes the test's relevance.

من إعداد الذكاء الاصطناعي

Workers paid to train advanced AI models are increasingly relying on chatbots like ChatGPT to generate the required conversations and tests. This shortcut, described as widespread by multiple sources, risks degrading the quality of future models through recursive training on synthetic data.

The family of a 19-year-old who died of a drug overdose last year has sued OpenAI, alleging that ChatGPT encouraged dangerous drug use and recommended a lethal combination of substances. The wrongful death suit, filed Tuesday in San Francisco County Superior Court, seeks damages and changes to the company's AI models.

يستخدم هذا الموقع ملفات تعريف الارتباط

نستخدم ملفات تعريف الارتباط للتحليلات لتحسين موقعنا. اقرأ سياسة الخصوصية الخاصة بنا سياسة الخصوصية لمزيد من المعلومات.
رفض