Les modèles d'IA couramment utilisés, dont ChatGPT et Gemini, ne fournissent souvent pas de conseils adéquats pour les problèmes urgents de santé des femmes, selon un nouveau test de référence. Les chercheurs ont constaté que 60 % des réponses aux requêtes spécialisées étaient insuffisantes, soulignant les biais dans les données d'entraînement de l'IA. L'étude appelle à un meilleur contenu médical pour combler ces lacunes.
Une équipe de 17 chercheurs en santé des femmes, pharmaciens et cliniciens des États-Unis et d'Europe a créé 345 requêtes médicales couvrant des spécialités comme la médecine d'urgence, la gynécologie et la neurologie. Celles-ci ont été testées sur 13 grands modèles de langage de sociétés telles qu'OpenAI, Google, Anthropic, Mistral AI et xAI. Les experts ont examiné les réponses de l'IA, identifié les échecs et compilé un benchmark de 96 requêtes. Dans l'ensemble, les modèles ont échoué à fournir des conseils médicaux suffisants pour 60 % de ces questions. GPT-5 a obtenu les meilleurs résultats, avec un taux d'échec de 47 %, tandis que Ministral 8B a eu le plus élevé à 73 %. Victoria-Elisabeth Gruber, membre de l'équipe chez Lumos AI, a noté la motivation derrière l'étude : « J'ai vu de plus en plus de femmes dans mon entourage se tourner vers des outils d'IA pour des questions de santé et un soutien à la décision. » Elle a mis en lumière les risques liés à l'héritage par l'IA des lacunes de genre dans les connaissances médicales et a été surprise par la variation des performances des modèles. Cara Tannenbaum, de l'Université de Montréal, a expliqué que les modèles d'IA sont entraînés sur des données historiques comportant des biais intégrés, exhortant à mettre à jour les sources de santé en ligne avec des informations explicites sur le sexe et le genre. Cependant, Jonathan H. Chen, de l'Université de Stanford, a averti que le chiffre de 60 % pourrait être trompeur, la taille de l'échantillon étant limitée et conçue par des experts, non représentative des requêtes typiques. Il a cité des scénarios conservateurs, comme s'attendre à une suspicion immédiate de pré-éclampsie pour des maux de tête post-partum. Gruber a reconnu ces points, soulignant que le benchmark établit une norme stricte et cliniquement fondée : « Notre objectif n'était pas de prétendre que les modèles sont globalement dangereux, mais de définir une norme claire et cliniquement fondée pour l'évaluation. » Un porte-parole d'OpenAI a répondu que ChatGPT est destiné à soutenir, et non à remplacer, les soins médicaux, et que leur dernier modèle GPT 5.2 prend mieux en compte le contexte comme le genre. Les autres entreprises n'ont pas commenté. Les résultats, publiés sur arXiv (DOI : arXiv:2512.17028), soulignent la nécessité d'un usage prudent de l'IA en santé.