Les chatbots d'IA échouent sur 60 % des requêtes urgentes en santé des femmes

7 janvier 2026

Rapporté par l'IA

Les modèles d'IA couramment utilisés, dont ChatGPT et Gemini, ne fournissent souvent pas de conseils adéquats pour les problèmes urgents de santé des femmes, selon un nouveau test de référence. Les chercheurs ont constaté que 60 % des réponses aux requêtes spécialisées étaient insuffisantes, soulignant les biais dans les données d'entraînement de l'IA. L'étude appelle à un meilleur contenu médical pour combler ces lacunes.

Une équipe de 17 chercheurs en santé des femmes, pharmaciens et cliniciens des États-Unis et d'Europe a créé 345 requêtes médicales couvrant des spécialités comme la médecine d'urgence, la gynécologie et la neurologie. Celles-ci ont été testées sur 13 grands modèles de langage de sociétés telles qu'OpenAI, Google, Anthropic, Mistral AI et xAI. Les experts ont examiné les réponses de l'IA, identifié les échecs et compilé un benchmark de 96 requêtes. Dans l'ensemble, les modèles ont échoué à fournir des conseils médicaux suffisants pour 60 % de ces questions. GPT-5 a obtenu les meilleurs résultats, avec un taux d'échec de 47 %, tandis que Ministral 8B a eu le plus élevé à 73 %. Victoria-Elisabeth Gruber, membre de l'équipe chez Lumos AI, a noté la motivation derrière l'étude : « J'ai vu de plus en plus de femmes dans mon entourage se tourner vers des outils d'IA pour des questions de santé et un soutien à la décision. » Elle a mis en lumière les risques liés à l'héritage par l'IA des lacunes de genre dans les connaissances médicales et a été surprise par la variation des performances des modèles. Cara Tannenbaum, de l'Université de Montréal, a expliqué que les modèles d'IA sont entraînés sur des données historiques comportant des biais intégrés, exhortant à mettre à jour les sources de santé en ligne avec des informations explicites sur le sexe et le genre. Cependant, Jonathan H. Chen, de l'Université de Stanford, a averti que le chiffre de 60 % pourrait être trompeur, la taille de l'échantillon étant limitée et conçue par des experts, non représentative des requêtes typiques. Il a cité des scénarios conservateurs, comme s'attendre à une suspicion immédiate de pré-éclampsie pour des maux de tête post-partum. Gruber a reconnu ces points, soulignant que le benchmark établit une norme stricte et cliniquement fondée : « Notre objectif n'était pas de prétendre que les modèles sont globalement dangereux, mais de définir une norme claire et cliniquement fondée pour l'évaluation. » Un porte-parole d'OpenAI a répondu que ChatGPT est destiné à soutenir, et non à remplacer, les soins médicaux, et que leur dernier modèle GPT 5.2 prend mieux en compte le contexte comme le genre. Les autres entreprises n'ont pas commenté. Les résultats, publiés sur arXiv (DOI : arXiv:2512.17028), soulignent la nécessité d'un usage prudent de l'IA en santé.

Articles connexes

Illustration depicting OpenAI's ChatGPT-5.2 launch, showing professionals using the AI to enhance workplace productivity amid rivalry with Google's Gemini.

OpenAI lance ChatGPT-5.2 pour booster la productivité au travail

11 décembre 2025 Rapporté par l'IA Image générée par IA

OpenAI a lancé ChatGPT-5.2, une nouvelle famille de modèles d’IA conçus pour renforcer le raisonnement et la productivité, en particulier pour les tâches professionnelles. Ce lancement fait suite à une alerte interne du PDG Sam Altman concernant la concurrence de Gemini 3 de Google. La mise à jour comprend trois variantes adaptées à différents besoins des utilisateurs, à partir des abonnés payants.

Le Gemini de Google surpasse ChatGPT dans des tests IA clés

Dans une évaluation comparative de modèles d'IA leaders, le Gemini 3.2 Fast de Google a démontré des forces en précision factuelle sur le ChatGPT 5.2 d'OpenAI, particulièrement dans les tâches informationnelles. Les tests, motivés par le partenariat d'Apple avec Google pour améliorer Siri, mettent en lumière l'évolution des capacités de l'IA générative depuis 2023. Bien que les résultats fussent serrés, Gemini a évité des erreurs significatives qui ont miné la fiabilité de ChatGPT.

Les modèles d’IA surpassent les scores de coupure au test PAES 2026 du Chili

8 janvier 2026 Rapporté par l'IA

Une étude appliquant l’examen d’entrée à l’université chilien, PAES 2026, aux modèles d’IA montre que plusieurs systèmes obtiennent des scores suffisamment élevés pour des programmes sélectifs comme la médecine et l’ingénierie civile. Gemini de Google a mené avec des moyennes proches de 950 points, surpassant des rivaux comme ChatGPT. L’expérience souligne les progrès de l’IA et soulève des questions sur l’efficacité des tests standardisés.

Politique

New Scientist établit un précédent pour la FOI au Royaume-Uni sur l'usage des chatbots IA

Technologie

Les outils d’IA contre le cancer peuvent déduire la démographie des patients, soulevant des inquiétudes sur les biais

Politique

ChatGPT donne des conseils à une mineure cherchant un avortement clandestin dans le Tennessee

Les utilisateurs détournent les chatbots de Google et OpenAI pour des deepfakes de bikinis

Certains utilisateurs de chatbots d'IA de Google et OpenAI génèrent des images deepfake qui modifient des photos de femmes entièrement vêtues pour les montrer en bikini. Ces modifications se font souvent sans le consentement des femmes, et les instructions pour le processus sont partagées entre utilisateurs. Cette activité met en lumière les risques des outils d'IA générative.

Les experts mettent en garde les parents contre les jouets à IA pour enfants

24 décembre 2025 Rapporté par l'IA

Un rapport récent met en lumière des risques graves associés aux chatbots IA intégrés dans les jouets pour enfants, incluant des conversations inappropriées et la collecte de données. Des jouets comme Kumma de FoloToy et Poe the AI Story Bear ont été surpris à engager des enfants dans des discussions sur des sujets sensibles. Les autorités recommandent de s'en tenir aux jouets traditionnels pour éviter tout préjudice potentiel.

GPT Image 1.5 d'OpenAI progresse dans l'édition photo conversationnelle au milieu de préoccupations éthiques

S'appuyant sur la mise à jour d'images ChatGPT d'hier, OpenAI a détaillé GPT Image 1.5, un modèle multimodal permettant des éditions photo conversationnelles précises. Il répond à des rivaux comme Nano Banana de Google tout en introduisant des garde-fous contre les abus.

Rapport OpenAI montre que l’IA fait gagner moins d’une heure par jour aux travailleurs

14 décembre 2025 Rapporté par l'IA

Un nouveau rapport OpenAI révèle que, bien que l’adoption de l’IA dans les entreprises explose, la plupart des travailleurs ne gagnent que 40 à 60 minutes par jour. Les résultats proviennent de données sur plus d’un million de clients et d’une enquête auprès de 9 000 employés. Malgré les avantages en vitesse des tâches et nouvelles capacités, les gains de productivité restent modestes pour l’utilisateur moyen.

mardi 03 février 2026 12h34

Les chatbots d'IA échouent sur 60 % des requêtes urgentes en santé des femmes

Articles connexes

OpenAI lance ChatGPT-5.2 pour booster la productivité au travail

Le Gemini de Google surpasse ChatGPT dans des tests IA clés

Les modèles d’IA surpassent les scores de coupure au test PAES 2026 du Chili

New Scientist établit un précédent pour la FOI au Royaume-Uni sur l'usage des chatbots IA

Les outils d’IA contre le cancer peuvent déduire la démographie des patients, soulevant des inquiétudes sur les biais

ChatGPT donne des conseils à une mineure cherchant un avortement clandestin dans le Tennessee

Les utilisateurs détournent les chatbots de Google et OpenAI pour des deepfakes de bikinis

Les experts mettent en garde les parents contre les jouets à IA pour enfants

GPT Image 1.5 d'OpenAI progresse dans l'édition photo conversationnelle au milieu de préoccupations éthiques

Rapport OpenAI montre que l’IA fait gagner moins d’une heure par jour aux travailleurs

ChatGPT se remet d'une panne de l'après-midi affectant de nombreux utilisateurs

Cadres supérieurs d'OpenAI partent au milieu du focus sur ChatGPT

Google met à niveau les résumés IA vers le modèle Gemini 3

Le modèle GPT-5.2 d'OpenAI cite Grokipedia sur des sujets controversés

Les entreprises d'IA se préparent aux publicités alors que des menaces de manipulation émergent

Les modèles d’IA risquent de promouvoir des expériences de laboratoire dangereuses

Controverse Grok AI: Des milliers d'images sexualisées générées au milieu du débat sur les garde-fous

Gouvernements enquêtent sur Grok AI pour images sexualisées de femmes et mineurs

L’IA booste la productivité scientifique mais érode la qualité des articles

OpenAI met à jour les images ChatGPT pour une génération plus rapide et des éditions précises

Ce site utilise des cookies