Les chatbots d'IA échouent sur 60 % des requêtes urgentes en santé des femmes

Les modèles d'IA couramment utilisés, dont ChatGPT et Gemini, ne fournissent souvent pas de conseils adéquats pour les problèmes urgents de santé des femmes, selon un nouveau test de référence. Les chercheurs ont constaté que 60 % des réponses aux requêtes spécialisées étaient insuffisantes, soulignant les biais dans les données d'entraînement de l'IA. L'étude appelle à un meilleur contenu médical pour combler ces lacunes.

Une équipe de 17 chercheurs en santé des femmes, pharmaciens et cliniciens des États-Unis et d'Europe a créé 345 requêtes médicales couvrant des spécialités comme la médecine d'urgence, la gynécologie et la neurologie. Celles-ci ont été testées sur 13 grands modèles de langage de sociétés telles qu'OpenAI, Google, Anthropic, Mistral AI et xAI. Les experts ont examiné les réponses de l'IA, identifié les échecs et compilé un benchmark de 96 requêtes. Dans l'ensemble, les modèles ont échoué à fournir des conseils médicaux suffisants pour 60 % de ces questions. GPT-5 a obtenu les meilleurs résultats, avec un taux d'échec de 47 %, tandis que Ministral 8B a eu le plus élevé à 73 %. Victoria-Elisabeth Gruber, membre de l'équipe chez Lumos AI, a noté la motivation derrière l'étude : « J'ai vu de plus en plus de femmes dans mon entourage se tourner vers des outils d'IA pour des questions de santé et un soutien à la décision. » Elle a mis en lumière les risques liés à l'héritage par l'IA des lacunes de genre dans les connaissances médicales et a été surprise par la variation des performances des modèles. Cara Tannenbaum, de l'Université de Montréal, a expliqué que les modèles d'IA sont entraînés sur des données historiques comportant des biais intégrés, exhortant à mettre à jour les sources de santé en ligne avec des informations explicites sur le sexe et le genre. Cependant, Jonathan H. Chen, de l'Université de Stanford, a averti que le chiffre de 60 % pourrait être trompeur, la taille de l'échantillon étant limitée et conçue par des experts, non représentative des requêtes typiques. Il a cité des scénarios conservateurs, comme s'attendre à une suspicion immédiate de pré-éclampsie pour des maux de tête post-partum. Gruber a reconnu ces points, soulignant que le benchmark établit une norme stricte et cliniquement fondée : « Notre objectif n'était pas de prétendre que les modèles sont globalement dangereux, mais de définir une norme claire et cliniquement fondée pour l'évaluation. » Un porte-parole d'OpenAI a répondu que ChatGPT est destiné à soutenir, et non à remplacer, les soins médicaux, et que leur dernier modèle GPT 5.2 prend mieux en compte le contexte comme le genre. Les autres entreprises n'ont pas commenté. Les résultats, publiés sur arXiv (DOI : arXiv:2512.17028), soulignent la nécessité d'un usage prudent de l'IA en santé.

Articles connexes

Illustration depicting OpenAI's ChatGPT-5.2 launch, showing professionals using the AI to enhance workplace productivity amid rivalry with Google's Gemini.
Image générée par IA

OpenAI lance ChatGPT-5.2 pour booster la productivité au travail

Rapporté par l'IA Image générée par IA

OpenAI a lancé ChatGPT-5.2, une nouvelle famille de modèles d’IA conçus pour renforcer le raisonnement et la productivité, en particulier pour les tâches professionnelles. Ce lancement fait suite à une alerte interne du PDG Sam Altman concernant la concurrence de Gemini 3 de Google. La mise à jour comprend trois variantes adaptées à différents besoins des utilisateurs, à partir des abonnés payants.

Dans une évaluation comparative de modèles d'IA leaders, le Gemini 3.2 Fast de Google a démontré des forces en précision factuelle sur le ChatGPT 5.2 d'OpenAI, particulièrement dans les tâches informationnelles. Les tests, motivés par le partenariat d'Apple avec Google pour améliorer Siri, mettent en lumière l'évolution des capacités de l'IA générative depuis 2023. Bien que les résultats fussent serrés, Gemini a évité des erreurs significatives qui ont miné la fiabilité de ChatGPT.

Rapporté par l'IA

Une étude appliquant l’examen d’entrée à l’université chilien, PAES 2026, aux modèles d’IA montre que plusieurs systèmes obtiennent des scores suffisamment élevés pour des programmes sélectifs comme la médecine et l’ingénierie civile. Gemini de Google a mené avec des moyennes proches de 950 points, surpassant des rivaux comme ChatGPT. L’expérience souligne les progrès de l’IA et soulève des questions sur l’efficacité des tests standardisés.

Certains utilisateurs de chatbots d'IA de Google et OpenAI génèrent des images deepfake qui modifient des photos de femmes entièrement vêtues pour les montrer en bikini. Ces modifications se font souvent sans le consentement des femmes, et les instructions pour le processus sont partagées entre utilisateurs. Cette activité met en lumière les risques des outils d'IA générative.

Rapporté par l'IA

Un rapport récent met en lumière des risques graves associés aux chatbots IA intégrés dans les jouets pour enfants, incluant des conversations inappropriées et la collecte de données. Des jouets comme Kumma de FoloToy et Poe the AI Story Bear ont été surpris à engager des enfants dans des discussions sur des sujets sensibles. Les autorités recommandent de s'en tenir aux jouets traditionnels pour éviter tout préjudice potentiel.

S'appuyant sur la mise à jour d'images ChatGPT d'hier, OpenAI a détaillé GPT Image 1.5, un modèle multimodal permettant des éditions photo conversationnelles précises. Il répond à des rivaux comme Nano Banana de Google tout en introduisant des garde-fous contre les abus.

Rapporté par l'IA

Un nouveau rapport OpenAI révèle que, bien que l’adoption de l’IA dans les entreprises explose, la plupart des travailleurs ne gagnent que 40 à 60 minutes par jour. Les résultats proviennent de données sur plus d’un million de clients et d’une enquête auprès de 9 000 employés. Malgré les avantages en vitesse des tâches et nouvelles capacités, les gains de productivité restent modestes pour l’utilisateur moyen.

 

 

 

Ce site utilise des cookies

Nous utilisons des cookies pour l'analyse afin d'améliorer notre site. Lisez notre politique de confidentialité pour plus d'informations.
Refuser