Sistemas de inteligência artificial projetados para diagnosticar câncer a partir de lâminas de tecido estão aprendendo a inferir a demografia dos pacientes, levando a um desempenho diagnóstico desigual entre grupos raciais, de gênero e etários. Pesquisadores da Harvard Medical School e colaboradores identificaram o problema e desenvolveram um método que reduz drasticamente essas disparidades, sublinhando a necessidade de verificações rotineiras de viés em IA médica.
A patologia tem dependido há muito tempo da exame de fatias finas de tecido sob microscópios para diagnosticar câncer, um processo que tipicamente não revela as características demográficas de um paciente aos olhos humanos. No entanto, nova pesquisa mostra que modelos de IA que entram em laboratórios de patologia não compartilham essa limitação.
Um estudo liderado por Kun-Hsing Yu, professor associado de informática biomédica no Blavatnik Institute da Harvard Medical School e professor assistente de patologia no Brigham and Women's Hospital, analisou vários sistemas padrão de patologia de deep learning treinados em grandes coleções de lâminas rotuladas para diagnóstico de câncer.
De acordo com a Harvard Medical School e o estudo publicado em Cell Reports Medicine, a equipe avaliou quatro modelos de IA para patologia comumente usados em um grande repositório multi-institucional de lâminas de patologia abrangendo 20 tipos de câncer.
Os pesquisadores descobriram que todos os quatro modelos apresentaram desempenho desigual entre grupos demográficos definidos pela raça, gênero e idade auto-relatados pelos pacientes. Em uma análise pan-câncer, identificaram disparidades significativas de desempenho em cerca de 29 por cento das tarefas diagnósticas.
Reportagens de acompanhamento por veículos como News-Medical observam que as disparidades foram especialmente evidentes em certas tarefas de subtipos de câncer de pulmão e mama, com subdesempenho para pacientes afro-americanos e alguns pacientes do sexo masculino em distinções de câncer de pulmão, e para pacientes mais jovens em várias distinções de subtipos de câncer de mama.
A equipe de pesquisa rastreou essas lacunas a vários fatores. Um foi a representação desigual de grupos demográficos nos dados de treinamento. Outro envolveu diferenças na incidência e biologia da doença entre populações. O artigo da Cell Reports Medicine relata ainda que variações na prevalência de mutações somáticas entre populações contribuíram para disparidades de desempenho, sugerindo que os modelos estavam captando padrões moleculares sutis ligados à demografia, bem como à doença.
"Ler a demografia de uma lâmina de patologia é considerado uma 'missão impossível' para um patologista humano, então o viés na IA de patologia foi uma surpresa para nós", disse Yu, de acordo com a Harvard Medical School.
Para abordar o problema, os pesquisadores desenvolveram FAIR-Path (Fairness-aware Artificial Intelligence Review for Pathology), um framework de mitigação de viés que se baseia em um conceito existente de machine learning conhecido como aprendizado contrastivo. A abordagem incentiva os modelos a enfatizar diferenças entre tipos de câncer enquanto minimiza diferenças ligadas a categorias demográficas.
No estudo da Cell Reports Medicine, o FAIR-Path mitigou 88,5 por cento das disparidades de desempenho medidas entre grupos demográficos na análise pan-câncer principal e reduziu as lacunas de desempenho em 91,1 por cento na validação externa em 15 coortes independentes.
Yu e colegas relatam que o FAIR-Path melhorou a equidade sem exigir conjuntos de dados perfeitamente equilibrados e com mudanças relativamente modestas nas pipelines de treinamento de modelos existentes.
O trabalho, descrito em 16 de dezembro de 2025 na Cell Reports Medicine, destaca a importância de testar sistematicamente sistemas de IA médica para viés demográfico antes de serem implantados no atendimento clínico.
De acordo com a cobertura de acompanhamento da Harvard Medical School e SciTechDaily, a equipe agora está explorando como estender o FAIR-Path para cenários com dados limitados e entender melhor como o viés impulsionado por IA contribui para disparidades mais amplas nos resultados de saúde. Seu objetivo de longo prazo é desenvolver ferramentas de IA para patologia que apoiem especialistas humanos fornecendo diagnósticos rápidos, precisos e justos para pacientes de todos os backgrounds.