ChatGPT Santé minimiserait la gravité de la moitié des urgences médicales
L’intelligence artificielle investit massivement le secteur médical, promettant d’orienter efficacement les patients. Mais qu’en est-il réellement de sa fiabilité face à des situations critiques ? Une enquête scientifique menée par des experts new-yorkais vient écorner sérieusement cette image rassurante.
Une première évaluation indépendante aux résultats alarmants
Des chercheurs de l’Icahn School of Medicine at Mount Sinai ont scruté les performances de l’outil d’OpenAI dans une étude publiée le 23 février dans la prestigieuse revue Nature Medicine. Cette analyse constitue le premier examen indépendant de sécurité concernant ChatGPT Santé.
Le protocole mis en place s’est révélé particulièrement rigoureux. Les scientifiques ont soumis 60 scénarios cliniques couvrant 21 spécialités médicales, déclinés en 16 contextes différents. Genre, origine ethnique, présence d’un proche minimisant les symptômes ou absence d’assurance maladie : autant de variables testées.
Au total, 960 interactions ont été analysées. Les recommandations de l’intelligence artificielle ont ensuite été comparées au consensus établi par trois médecins indépendants, s’appuyant sur les référentiels de 56 sociétés savantes.
Des urgences vitales dangereusement banalisées
Le constat le plus inquiétant concerne le sous-triage des urgences. Dans 52 % des cas jugés critiques par les praticiens, l’outil a minimisé la gravité de la situation.
Des patients souffrant d’acidocétose diabétique ou de détresse respiratoire imminente se voyaient conseiller d’attendre 24 à 48 heures avant de consulter. Un délai potentiellement fatal dans ces circonstances.
Des contradictions internes révélatrices
L’analyse d’un cas d’asthme sévère illustre parfaitement les limites du système. L’IA identifiait correctement les signes d’une insuffisance respiratoire débutante dans son raisonnement, mais aboutissait paradoxalement à un conseil d’attente.
Certaines urgences absolues comme l’AVC ou le choc anaphylactique étaient néanmoins correctement repérées par le système.
Une sensibilité troublante à l’influence extérieure
L’étude révèle une vulnérabilité majeure : lorsqu’un proche simulé minimisait la gravité des symptômes, la probabilité que ChatGPT Santé réduise le niveau d’urgence était multipliée par douze (OR 11,7).
Ce biais d’influence soulève des questions essentielles sur la capacité de l’outil à maintenir une évaluation objective face à des éléments contextuels parasites.
Un excès de prudence pour les cas bénins
Le problème inverse affecte les situations non urgentes. Près de 65 % des patients sans pathologie grave étaient injustement dirigés vers les urgences, contribuant potentiellement à l’engorgement des services hospitaliers.
Détection du risque suicidaire : des failles préoccupantes
ChatGPT Santé intègre un dispositif d’alerte renvoyant vers la ligne de crise 988 aux États-Unis en cas de danger suicidaire. Pourtant, les chercheurs ont observé un fonctionnement paradoxal.
Les alertes apparaissaient davantage quand le patient restait vague sur les moyens d’action. Plus troublant encore : l’ajout de résultats biologiques normaux à un scénario de pensées suicidaires avec mention de comprimés faisait disparaître le bandeau d’alerte dans 100 % des cas.
Un déploiement massif malgré les zones d’ombre
Lancé très discrètement en janvier 2026, l’outil aurait conquis 40 millions d’utilisateurs quotidiens selon OpenAI, quelques semaines seulement après son lancement.
La page de présentation promet une expérience « conçue pour la santé et le bien-être », tout en précisant en petits caractères qu’il n’est « pas destiné au diagnostic ni au traitement ».
Une réponse d’OpenAI contestée
Confrontée à ces résultats, l’entreprise a rétorqué que l’étude ne reflétait pas l’usage réel de son outil et que ses modèles continuaient d’être améliorés.
Un risque déjà identifié par les experts
L’ECRI, organisme indépendant de sécurité des patients, avait classé le mésusage des chatbots de santé comme premier risque technologique de 2026.
Une autre étude menée à Oxford et publiée dans la même revue avait démontré que les modèles de langage, malgré des scores quasi parfaits aux examens de médecine, n’améliorent pas les décisions des patients qui les consultent.
Des travaux appelés à se poursuivre
L’équipe de Mount Sinai annonce vouloir étendre ses évaluations à la pédiatrie, à la sécurité médicamenteuse et aux langues autres que l’anglais.
Leur recommandation reste claire : « en cas de symptômes inquiétants, ne pas demander son avis à une machine. »



Laisser un commentaire