Los sistemas de inteligencia artificial diseñados para diagnosticar cáncer a partir de muestras de tejido están aprendiendo a inferir la demografía de los pacientes, lo que lleva a un rendimiento diagnóstico desigual entre grupos raciales, de género y de edad. Investigadores de la Harvard Medical School y colaboradores identificaron el problema y desarrollaron un método que reduce drásticamente estas disparidades, subrayando la necesidad de revisiones rutinarias de sesgos en la IA médica.
La patología ha dependido durante mucho tiempo del examen de secciones delgadas de tejido bajo microscopios para diagnosticar cáncer, un proceso que típicamente no revela las características demográficas de un paciente a la vista humana. Sin embargo, nueva investigación muestra que los modelos de IA que entran en los laboratorios de patología no comparten esta limitación.
Un estudio dirigido por Kun-Hsing Yu, profesor asociado de informática biomédica en el Blavatnik Institute de la Harvard Medical School y profesor asistente de patología en el Brigham and Women's Hospital, analizó varios sistemas estándar de patología de aprendizaje profundo entrenados en grandes colecciones de diapositivas etiquetadas para el diagnóstico de cáncer.
Según la Harvard Medical School y el estudio publicado en Cell Reports Medicine, el equipo evaluó cuatro modelos de IA para patología comúnmente utilizados en un gran repositorio multiinstitucional de diapositivas de patología que abarca 20 tipos de cáncer.
Los investigadores encontraron que los cuatro modelos mostraban un rendimiento desigual entre grupos demográficos definidos por la raza, género y edad autodeclarados de los pacientes. En un análisis pancáncer, identificaron disparidades significativas de rendimiento en aproximadamente el 29 por ciento de las tareas diagnósticas.
Informes de seguimiento de medios como News-Medical señalan que las disparidades fueron especialmente evidentes en ciertas tareas de subtipos de cáncer de pulmón y mama, con bajo rendimiento para pacientes afroamericanos y algunos hombres en distinciones de cáncer de pulmón, y para pacientes más jóvenes en varias distinciones de subtipos de cáncer de mama.
El equipo de investigación rastreó estas brechas a varios factores. Uno fue la representación desigual de grupos demográficos en los datos de entrenamiento. Otro involucró diferencias en la incidencia y biología de la enfermedad entre poblaciones. El artículo de Cell Reports Medicine informa además que variaciones en la prevalencia de mutaciones somáticas entre poblaciones contribuyeron a las disparidades de rendimiento, sugiriendo que los modelos estaban captando patrones moleculares sutiles vinculados a la demografía así como a la enfermedad.
"Leer la demografía de una diapositiva de patología se considera una 'misión imposible' para un patólogo humano, por lo que el sesgo en la IA de patología fue una sorpresa para nosotros", dijo Yu, según la Harvard Medical School.
Para abordar el problema, los investigadores desarrollaron FAIR-Path (Fairness-aware Artificial Intelligence Review for Pathology), un marco de mitigación de sesgos que se basa en un concepto existente de aprendizaje automático conocido como aprendizaje contrastivo. El enfoque anima a los modelos a enfatizar las diferencias entre tipos de cáncer mientras minimiza las diferencias ligadas a categorías demográficas.
En el estudio de Cell Reports Medicine, FAIR-Path mitigó el 88,5 por ciento de las disparidades de rendimiento medidas entre grupos demográficos en el análisis pancáncer principal y redujo las brechas de rendimiento en un 91,1 por ciento en la validación externa en 15 cohortes independientes.
Yu y colegas informan que FAIR-Path mejoró la equidad sin requerir conjuntos de datos perfectamente equilibrados y con cambios relativamente modestos en las tuberías de entrenamiento de modelos existentes.
El trabajo, descrito el 16 de diciembre de 2025 en Cell Reports Medicine, destaca la importancia de probar sistemáticamente los sistemas de IA médica en busca de sesgos demográficos antes de que se implementen en la atención clínica.
Según la cobertura de seguimiento de la Harvard Medical School y SciTechDaily, el equipo ahora está explorando cómo extender FAIR-Path a entornos con datos limitados y comprender mejor cómo el sesgo impulsado por IA contribuye a disparidades más amplias en los resultados de salud. Su objetivo a largo plazo es desarrollar herramientas de IA para patología que apoyen a los expertos humanos proporcionando diagnósticos rápidos, precisos y equitativos para pacientes de todos los orígenes.