نماذج الذكاء الاصطناعي الشائعة الاستخدام، بما في ذلك ChatGPT وGemini، غالباً ما تفشل في تقديم نصائح كافية لقضايا صحة المرأة العاجلة، وفقاً لاختبار معيار جديد. وجد الباحثون أن 60% من الردود على الاستفسارات المتخصصة كانت غير كافية، مما يبرز التحيزات في بيانات تدريب الذكاء الاصطناعي. يدعو الدراسة إلى تحسين المحتوى الطبي لسد هذه الفجوات.
قام فريق مكون من 17 باحثاً في صحة المرأة وصيادلة وأطباء من الولايات المتحدة وأوروبا بإنشاء 345 استفساراً طبياً عبر تخصصات مثل الطب الطارئ والنسائية وعلم الأعصاب. تم اختبار هذه الاستفسارات على 13 نموذجاً كبيراً للغة من شركات مثل OpenAI وGoogle وAnthropic وMistral AI وxAI. راجع الخبراء ردود الذكاء الاصطناعي، وحددوا الإخفاقات وأعدوا معياراً يتكون من 96 استفساراً. بشكل عام، فشلت النماذج في تقديم نصيحة طبية كافية لـ60% من هذه الأسئلة. حقق GPT-5 أفضل أداء بنسبة فشل 47%، بينما سجل Ministral 8B أعلى معدل عند 73%. قالت فيكتوريا-إليزابيث غروبر، عضو في الفريق في Lumos AI، إن الدافع وراء الدراسة: «رأيت المزيد والمزيد من النساء في دائرتي الخاصة يلجأن إلى أدوات الذكاء الاصطناعي لأسئلة الصحة ودعم القرارات». سلطت الضوء على المخاطر الناتجة عن وراثة الذكاء الاصطناعي لفجوات النوع الاجتماعي في المعرفة الطبية، وفوجئت بالتباين في أداء النماذج. شرحت كارا تاننباوم من جامعة مونتريال أن نماذج الذكاء الاصطناعي تُدرب على بيانات تاريخية تحتوي على تحيزات مدمجة، داعية إلى تحديث مصادر الصحة عبر الإنترنت بمعلومات صريحة تتعلق بالجنس والنوع الاجتماعي. ومع ذلك، حذر جوناثان إتش. تشين من جامعة ستانفورد من أن الرقم 60% قد يكون مضللاً، حيث كانت العينة محدودة ومصممة من قبل خبراء، غير ممثلة للاستفسارات النموذجية. أشار إلى سيناريوهات محافظة، مثل توقع الاشتباه الفوري في تسمم الحمل لآلام الرأس بعد الولادة. اعترفت غروبر بهذه النقاط، مشددة على أن المعيار يضع معياراً صارماً مبنياً على أساس سريري: «هدفنا لم يكن الادعاء بأن النماذج غير آمنة بشكل عام، بل تحديد معيار واضح مبني على أساس سريري للتقييم». رد متحدث باسم OpenAI بأن ChatGPT مصمم لدعم الرعاية الطبية لا استبدالها، وأن نموذجهم الأحدث GPT 5.2 يأخذ بعين الاعتبار السياق مثل الجنس بشكل أفضل. لم تعلق الشركات الأخرى. تؤكد النتائج، المنشورة على arXiv (DOI: arXiv:2512.17028)، على الحاجة إلى استخدام الذكاء الاصطناعي بحذر في الرعاية الصحية.