Les chatbots d'IA échouent sur 60 % des requêtes urgentes en santé des femmes

Les modèles d'IA couramment utilisés, dont ChatGPT et Gemini, ne fournissent souvent pas de conseils adéquats pour les problèmes urgents de santé des femmes, selon un nouveau test de référence. Les chercheurs ont constaté que 60 % des réponses aux requêtes spécialisées étaient insuffisantes, soulignant les biais dans les données d'entraînement de l'IA. L'étude appelle à un meilleur contenu médical pour combler ces lacunes.

Une équipe de 17 chercheurs en santé des femmes, pharmaciens et cliniciens des États-Unis et d'Europe a créé 345 requêtes médicales couvrant des spécialités comme la médecine d'urgence, la gynécologie et la neurologie. Celles-ci ont été testées sur 13 grands modèles de langage de sociétés telles qu'OpenAI, Google, Anthropic, Mistral AI et xAI. Les experts ont examiné les réponses de l'IA, identifié les échecs et compilé un benchmark de 96 requêtes. Dans l'ensemble, les modèles ont échoué à fournir des conseils médicaux suffisants pour 60 % de ces questions. GPT-5 a obtenu les meilleurs résultats, avec un taux d'échec de 47 %, tandis que Ministral 8B a eu le plus élevé à 73 %. Victoria-Elisabeth Gruber, membre de l'équipe chez Lumos AI, a noté la motivation derrière l'étude : « J'ai vu de plus en plus de femmes dans mon entourage se tourner vers des outils d'IA pour des questions de santé et un soutien à la décision. » Elle a mis en lumière les risques liés à l'héritage par l'IA des lacunes de genre dans les connaissances médicales et a été surprise par la variation des performances des modèles. Cara Tannenbaum, de l'Université de Montréal, a expliqué que les modèles d'IA sont entraînés sur des données historiques comportant des biais intégrés, exhortant à mettre à jour les sources de santé en ligne avec des informations explicites sur le sexe et le genre. Cependant, Jonathan H. Chen, de l'Université de Stanford, a averti que le chiffre de 60 % pourrait être trompeur, la taille de l'échantillon étant limitée et conçue par des experts, non représentative des requêtes typiques. Il a cité des scénarios conservateurs, comme s'attendre à une suspicion immédiate de pré-éclampsie pour des maux de tête post-partum. Gruber a reconnu ces points, soulignant que le benchmark établit une norme stricte et cliniquement fondée : « Notre objectif n'était pas de prétendre que les modèles sont globalement dangereux, mais de définir une norme claire et cliniquement fondée pour l'évaluation. » Un porte-parole d'OpenAI a répondu que ChatGPT est destiné à soutenir, et non à remplacer, les soins médicaux, et que leur dernier modèle GPT 5.2 prend mieux en compte le contexte comme le genre. Les autres entreprises n'ont pas commenté. Les résultats, publiés sur arXiv (DOI : arXiv:2512.17028), soulignent la nécessité d'un usage prudent de l'IA en santé.

Articles connexes

Illustration of Swedes in a Stockholm cafe using AI chatbots amid survey stats on rising usage and skepticism.
Image générée par IA

Increased AI chatbot use among Swedes – but also concerns

Rapporté par l'IA Image générée par IA

According to the latest SOM survey from the University of Gothenburg, the share of Swedes chatting with an AI bot weekly rose from 12 to 36 percent between 2024 and 2025. At the same time, skepticism toward AI has grown, with 62 percent viewing it as a greater risk than opportunity for society.

Dans une évaluation comparative de modèles d'IA leaders, le Gemini 3.2 Fast de Google a démontré des forces en précision factuelle sur le ChatGPT 5.2 d'OpenAI, particulièrement dans les tâches informationnelles. Les tests, motivés par le partenariat d'Apple avec Google pour améliorer Siri, mettent en lumière l'évolution des capacités de l'IA générative depuis 2023. Bien que les résultats fussent serrés, Gemini a évité des erreurs significatives qui ont miné la fiabilité de ChatGPT.

Rapporté par l'IA

Une nouvelle étude de l’université Brown identifie des préoccupations éthiques majeures concernant l’utilisation de chatbots IA comme ChatGPT pour des conseils en santé mentale. Les chercheurs ont constaté que ces systèmes violent souvent les normes professionnelles même lorsqu’on leur demande d’agir comme thérapeutes. L’étude appelle à de meilleures protections avant de déployer de tels outils dans des domaines sensibles.

Un rapport du Guardian a révélé que le dernier modèle d'IA d'OpenAI, GPT-5.2, puise dans Grokipedia, une encyclopédie en ligne alimentée par xAI, lorsqu'il aborde des questions sensibles comme l'Holocauste et la politique iranienne. Bien que vanté pour des tâches professionnelles, des tests remettent en question la fiabilité de ses sources. OpenAI défend son approche en insistant sur des recherches web étendues avec des mesures de sécurité.

Rapporté par l'IA

Des chercheurs mettent en garde contre le fait que les principaux modèles d’IA pourraient encourager des expériences scientifiques hasardeuses menant à des incendies, explosions ou empoisonnements. Un nouveau test sur 19 modèles avancés a révélé qu’aucun ne pouvait identifier de manière fiable tous les problèmes de sécurité. Bien que des améliorations soient en cours, les experts insistent sur la nécessité d’une supervision humaine en laboratoire.

OpenAI a décidé de mettre en suspens pour une durée indéterminée son projet de « mode adulte » pour ChatGPT, choisissant de se concentrer sur ses produits principaux. Cette décision intervient quelques jours après l'arrêt de son outil vidéo Sora. Le PDG Sam Altman donne la priorité à ChatGPT, Codex et au navigateur IA Atlas face à la pression concurrentielle.

Rapporté par l'IA

OpenAI a déployé un modèle de génération d'images mis à jour pour ChatGPT, le rendant quatre fois plus rapide et meilleur pour suivre les instructions des utilisateurs. La mise à jour inclut des capacités d'édition améliorées et un rendu de texte optimisé. Cela intervient peu après la sortie de GPT-5.2 et au cœur de la concurrence avec Gemini de Google.

 

 

 

Ce site utilise des cookies

Nous utilisons des cookies pour l'analyse afin d'améliorer notre site. Lisez notre politique de confidentialité pour plus d'informations.
Refuser