ChatGPT Health : une étude pointe des problèmes dans les recommandations de consultation [Revue de Presse]

ChatGPT Health : une étude pointe des problèmes dans les recommandations de consultation [Revue de Presse] Moins de deux mois après la sortie de l’outil d’OpenAI ciblant spécifiquement l’utilisation en santé, des chercheurs publient une étude sur les recommandations de consultations du chatbot.

Tri peu pertinent

Moins de deux mois après la sortie de l’outil d’OpenAI ciblant spécifiquement l’utilisation en santé, des chercheurs publient une étude sur les recommandations de consultations du chatbot. Ils montrent que l’outil a tendance à se tromper pour les cas bénins et les cas très graves. Ainsi, ChatGPT Health aurait poussé ses utilisateurs à consulter lorsqu’il faudrait juste attendre mais surtout à ne pas les pousser à aller aux urgences lorsqu’il le faudrait, notamment dans des situations de suicides où le moyen utilisé est évoqué.

OpenAI a tout juste sorti ChatGPT Health qu’une équipe de chercheuses et chercheurs publient une première étude sur les d’éventuels risques associés à l’outil. L’entreprise l’a lancé il y a même pas deux mois, profitant de la réduction de la surveillance des dispositifs de santé s’appuyant sur l’IA de la Food & drugs Administration (FDA, agence états-unienne responsable de la régulation concernant les médicaments et les produits alimentaires).

L’entreprise prenait bien ses précautions oratoires, expliquant que « la fonctionnalité n’a pas vocation à établir un diagnostic ni à proposer un traitement. Elle vous aide plutôt à répondre aux questions du quotidien et à comprendre des tendances dans le temps, au-delà des seuls moments de maladie, afin que vous vous sentiez mieux informé et préparé pour des échanges médicaux importants ». Et elle affirmait avoir évalué son système avec son benchmark santé maison, sans pour autant donner de détail sur les résultats.

Une très rapide publication de l’étude

Ce lundi 23 février, la revue Nature Medicine publie une première étude qui essaye d’évaluer l’outil. Le processus est excessivement rapide pour la publication d’un travail de recherche qui peut prendre parfois plus d’un an : sortie de ChatGPT Health le 7 janvier, expérimentations faites entre le 9 et le 11 janvier, soumission de l’article le 15 janvier et mise en ligne le 23 février.

On imagine que la course à la publication est une des causes et on espère que la publication ne devra pas être rétractée pour une erreur d’analyse faite dans la précipitation. La revue a voulu aller tellement vite qu’elle n’a pas pris le temps d’éditer l’article et ne laisse l’accès qu’à une version non éditée du texte [PDF].

ChatGPT Health recommande-t-il bien d’aller ou non consulter ?

Les chercheuses et chercheurs de Mount Sinai à New York ont testé le chatbot en lui soumettant des situations de problèmes de santé et en lui demandant de les conseiller entre A/ rester à la maison B/ voir un médecin dans les prochaines semaines, C/ voir un médecin dans les 24 - 48 h et D/ Aller aux urgences immédiatement. Voici un exemple :

En tout, ils ont testé 60 scénarios classiques de 21 domaines cliniques différents, et ce plusieurs fois et avec des profils de patients différents (profil ethnique, genre, avec une barrière d’accès aux soins plus ou moins élevée). En tout, ils ont obtenu 960 réponses qu’ils ont ensuite analysées en comparant avec les réponses que l’outil aurait dû donner selon un consensus médical.

Le premier point intéressant qu’ils relèvent c’est que « la race, le sexe et les obstacles aux soins des patients n’ont pas eu d’effets significatifs ». Ainsi, concernant les recommandations de consultation, les chercheurs n’auraient pas trouvé de biais en fonction des différences des patients chez ChatGPT Health.

Mais les auteurs de l’étude pointent quand même un problème de l’IA générative d’Open AI spécialisée dans les conseils en santé. Ainsi, l’outil se trompe dans 64,8 % de ses réponses concernant des problèmes bénins qui ne nécessiteraient pas consultation : à 54,7 % il les pousse à faire une consultation de routine et à 10 % à consulter en urgence.

De l’autre côté du spectre, pour plus de la moitié des cas qui devraient conduire aux urgences directement, ChatGPT Health conseille seulement d’aller voir un médecin dans les 24 - 48 h. Pour l’autre moitié, l’outil donne le bon conseil.

Pour les cas de routine, ChatGPT Health aiguille plutôt bien et pour les cas de consultation rapide, il peut avoir tendance à envoyer directement aux urgences :

Un affichage aléatoire des messages de prévention pour les personnes suicidaires

Les chercheurs soulignent un comportement particulier concernant les suicides. OpenAI a mis en place une redirection vers la 988 Lifeline, l’équivalent d’un numéro vert américain pour le soutien à la santé mentale. Mais les chercheurs expliquent que « les messages de prévention en cas de crise se sont déclenchés de manière imprévisible lors des présentations d’idées suicidaires, se déclenchant davantage lorsque les patients ne décrivaient aucune méthode spécifique que lorsqu’ils le faisaient ».

« Ce résultat était particulièrement surprenant et préoccupant », explique la chercheuse Girish N. Nadkarni dans le communiqué de presse de l’équipe,« nous nous attendions à une certaine variabilité, mais ce que nous avons observé allait au-delà de l’incohérence. Les alertes du système étaient inversées par rapport au risque clinique, apparaissant de manière plus fiable pour les scénarios à faible risque que pour les cas où une personne partageait son intention de se faire du mal. Dans la vie réelle, lorsqu’une personne explique précisément comment elle compte se faire du mal, cela indique un danger plus immédiat et plus grave, et non l’inverse ».

ChatGPT Health : une étude pointe des problèmes dans les recommandations de consultation [Revue de Presse]

Tri peu pertinent

Une très rapide publication de l’étude

ChatGPT Health recommande-t-il bien d’aller ou non consulter ?

Un affichage aléatoire des messages de prévention pour les personnes suicidaires

Les étudiants huent l’oratrice : l’IA, prochaine révolution industrielle

Claude : des fictions d’IA derrière des tentatives de chantage

Infrasons des centres IA: nuisances inaudibles et inquiétantes

ChatGPT Health : une étude pointe des problèmes dans les recommandations de consultation [Revue de Presse]

Tri peu pertinent

Une très rapide publication de l’étude

ChatGPT Health recommande-t-il bien d’aller ou non consulter ?

Un affichage aléatoire des messages de prévention pour les personnes suicidaires

Articles connexes

Les étudiants huent l’oratrice : l’IA, prochaine révolution industrielle

Claude : des fictions d’IA derrière des tentatives de chantage

Infrasons des centres IA: nuisances inaudibles et inquiétantes