Artificiell intelligens-system utformade för att diagnostisera cancer från vävnadsbilder lär sig att härleda patientdemografi, vilket leder till ojämn diagnostisk prestanda över ras-, kön- och åldersgrupper. Forskare vid Harvard Medical School och samarbetspartners identifierade problemet och utvecklade en metod som kraftigt minskar dessa skillnader, och understryker behovet av rutinmässiga bias-kontroller i medicinsk AI.
Patologi har länge byggt på undersökning av tunna vävnadsskivor under mikroskop för att diagnostisera cancer, en process som vanligtvis inte avslöjar en patients demografiska egenskaper för blotta ögat. Ny forskning visar dock att AI-modeller som kommer in i patologilabb inte delar denna begränsning.
En studie ledd av Kun-Hsing Yu, biträdande professor i biomedicinsk informatik vid Blavatnik Institute på Harvard Medical School och biträdande professor i patologi vid Brigham and Women's Hospital, analyserade flera standarddjupinlärningspatologisystem tränade på stora samlingar märkta bilder för cancerdiagnos.
Enligt Harvard Medical School och studien publicerad i Cell Reports Medicine utvärderade teamet fyra vanligt använda patolog-AI-modeller på ett stort multi-institutionellt arkiv av patologibilder som spänner över 20 cancertyper.
Forskare fann att alla fyra modeller visade ojämn prestanda över demografiska grupper definierade av patienters självrapporterade ras, kön och ålder. I en pan-cancer-analys identifierade de signifikanta prestandaskillnader i cirka 29 procent av diagnostiska uppgifter.
Uppföljningsrapportering från medier inklusive News-Medical noterar att skillnaderna var särskilt tydliga i vissa lung- och bröstcancertypuppgifter, med underprestation för afroamerikaner och vissa manliga patienter i lungcancer-distinktioner, och för yngre patienter i flera bröstcancer-subtypdistinktioner.
Forskarteamet spårade dessa gap till flera faktorer. En var ojämn representation av demografiska grupper i träningsdata. En annan involverade skillnader i sjukdomsförekomst och biologi över populationer. Cell Reports Medicine-artikeln rapporterar vidare att variationer i förekomsten av somatiska mutationer bland populationer bidrog till prestandaskillnader, vilket tyder på att modellerna fångade subtila molekylära mönster kopplade till demografi såväl som sjukdom.
"Att läsa demografi från en patologibild betraktas som en 'omöjlig mission' för en mänsklig patolog, så biasen i patolog-AI var en överraskning för oss," sade Yu enligt Harvard Medical School.
För att åtgärda problemet utvecklade forskarna FAIR-Path (Fairness-aware Artificial Intelligence Review for Pathology), ett bias-mitigeringsramverk som bygger på ett befintligt maskininlärningskoncept känt som kontrastivt lärande. Metoden uppmuntrar modeller att betona skillnader mellan cancertyper samtidigt som de tonar ner skillnader kopplade till demografiska kategorier.
I Cell Reports Medicine-studien mildrade FAIR-Path 88,5 procent av de uppmätta prestandaskillnaderna över demografiska grupper i den primära pan-cancer-analysen och minskade prestandagap med 91,1 procent i extern validering över 15 oberoende kohorter.
Yu och kollegor rapporterar att FAIR-Path förbättrade rättvisan utan att kräva perfekt balanserade dataset och med relativt blygsamma förändringar i befintliga modelltränings-pipelines.
Arbetet, beskrivet den 16 december 2025 i Cell Reports Medicine, belyser vikten av att systematiskt testa medicinska AI-system för demografisk bias innan de sätts in i klinisk vård.
Enligt uppföljningsbevakning från Harvard Medical School och SciTechDaily undersöker teamet nu hur man utökar FAIR-Path till miljöer med begränsad data och bättre förstå hur AI-driven bias bidrar till bredare skillnader i hälsoutfall. Deras långsiktiga mål är att utveckla patolog-AI-verktyg som stöder mänskliga experter genom att ge snabba, korrekta och rättvisa diagnoser för patienter från alla bakgrunder.