أنظمة الذكاء الاصطناعي المصممة لتشخيص السرطان من شرائح الأنسجة تتعلم استنتاج الديموغرافيا للمرضى، مما يؤدي إلى أداء تشخيصي غير متساوٍ عبر المجموعات العرقية والجنسية وعمرية. حدد باحثون في كلية هارفارد الطبية وشركاؤهم المشكلة وطوّروا طريقة تقلل بشكل حاد من هذه الاختلافات، مما يؤكد الحاجة إلى فحوصات روتينية للتحيز في الذكاء الاصطناعي الطبي.
اعتمدت علم الأمراض منذ زمن طويل على فحص شرائح أنسجة رقيقة تحت المجاهر لتشخيص السرطان، وهي عملية لا تكشف عادةً عن خصائص ديموغرافية للمريض للعين البشرية. ومع ذلك، تظهر أبحاث جديدة أن نماذج الذكاء الاصطناعي التي تدخل معامل علم الأمراض لا تشارك هذه القيد.
دراسة بقيادة كون-هيسينغ يو، أستاذ مشارك في الإعلاميات الطبية الحيوية في معهد بلافاتنيك بكلية هارفارد الطبية وأستاذ مساعد في علم الأمراض بمستشفى بريغهام آند ويمنز، حللت عدة أنظمة قياسية لعلم الأمراض بالتعلم العميق مدربة على مجموعات كبيرة من الشرائح المسماة لتشخيص السرطان.
وفقاً لكلية هارفارد الطبية والدراسة المنشورة في Cell Reports Medicine، قيّم الفريق أربعة نماذج ذكاء اصطناعي شائعة لعلم الأمراض في مستودع كبير متعدد المؤسسات لشرائح علم الأمراض تغطي 20 نوعاً من السرطان.
وجد الباحثون أن جميع النماذج الأربعة أظهرت أداءً غير متساوٍ عبر المجموعات الديموغرافية المحددة بناءً على العرق والجنس والعمر الذي أبلغ عنه المرضى بأنفسهم. في تحليل بان-سرطاني، حددوا اختلافات أداء كبيرة في حوالي 29 في المئة من المهام التشخيصية.
أشارت تقارير المتابعة من وسائل إعلام مثل News-Medical إلى أن الاختلافات كانت واضحة بشكل خاص في مهام فرعية معينة لسرطان الرئة والثدي، مع أداء ضعيف لدى المرضى الأمريكيين من أصل أفريقي وبعض الرجال في تمييز سرطان الرئة، ولدى المرضى الأصغر سناً في عدة تمييزات فرعية لسرطان الثدي.
ربط فريق البحث هذه الفجوات بعدة عوامل. كان أحدها التمثيل غير المتساوي للمجموعات الديموغرافية في بيانات التدريب. وآخر يتعلق باختلافات في معدلات الإصابة بالمرض والبيولوجيا عبر السكان. كما أفاد ورقة Cell Reports Medicine بأن الاختلافات في انتشار الطفرات الجسدية بين السكان ساهمت في اختلافات الأداء، مما يشير إلى أن النماذج كانت تلتقط أنماطاً جزيئية دقيقة مرتبطة بالديموغرافيا بالإضافة إلى المرض.
"يُعتبر قراءة الديموغرافيا من شريحة علم أمراض 'مهمة مستحيلة' لطبيب الأمراض البشري، لذا كان التحيز في ذكاء الأمراض الاصطناعي مفاجأة لنا"، قال يو، وفقاً لكلية هارفارد الطبية.
لمعالجة المشكلة، طور الباحثون FAIR-Path (Fairness-aware Artificial Intelligence Review for Pathology)، إطار عمل لتخفيف التحيز يبني على مفهوم تعلم آلي موجود يُعرف بالتعلم التبايني. يشجع النهج النماذج على التأكيد على الاختلافات بين أنواع السرطان مع التقليل من الاختلافات المرتبطة بالفئات الديموغرافية.
في دراسة Cell Reports Medicine، خفف FAIR-Path 88.5 في المئة من الاختلافات في الأداء المقاسة عبر المجموعات الديموغرافية في التحليل البان-سرطاني الرئيسي وقلل فجوات الأداء بنسبة 91.1 في المئة في التحقق الخارجي عبر 15 مجموعة مستقلة.
أفاد يو وزملاؤه بأن FAIR-Path حسّن العدالة دون الحاجة إلى مجموعات بيانات متوازنة تماماً وبتغييرات متواضعة نسبياً في خطوط تدريب النماذج الحالية.
العمل، الذي وُصف في 16 ديسمبر 2025 في Cell Reports Medicine، يبرز أهمية اختبار أنظمة الذكاء الاصطناعي الطبي بشكل منهجي للتحيز الديموغرافي قبل نشرها في الرعاية السريرية.
وفقاً لتغطية المتابعة من كلية هارفارد الطبية وSciTechDaily، يستكشف الفريق الآن كيفية توسيع FAIR-Path إلى بيئات ببيانات محدودة وفهم أفضل كيف يساهم التحيز المدفوع بالذكاء الاصطناعي في اختلافات أوسع في نتائج الصحة. هدفهم طويل الأمد هو تطوير أدوات ذكاء اصطناعي لعلم الأمراض تدعم الخبراء البشريين بتقديم تشخيصات سريعة ودقيقة وعادلة للمرضى من جميع الخلفيات.