Les chatbots alimentés par l’IA sont de plus en plus présentés comme l’avenir des soins de santé, certains systèmes réussissant à passer des examens médicaux standardisés et à offrir des conseils basés sur les symptômes aux utilisateurs. Cependant, une nouvelle étude publiée dans Nature Medicine suggère que ces outils sont non seulement loin de remplacer les médecins, mais peuvent également présenter des risques lorsqu’ils sont utilisés pour des conseils médicaux personnels.
La recherche, menée par des équipes de l’Université d’Oxford, a identifié un écart significatif dans les grands modèles de langage (LLMs). Alors que ces systèmes démontraient de solides connaissances techniques et performaient bien lors d’évaluations médicales structurées, ils peinaient lorsqu’il s’agissait d’aider les utilisateurs avec des préoccupations de santé réelles. Selon les chercheurs, traduire des connaissances théoriques en conseils médicaux sûrs et pratiques reste un défi majeur.
La Dr Rebecca Payne, praticienne principale impliquée dans l’étude, a déclaré que malgré l’enthousiasme croissant autour de l’IA dans le domaine de la santé, la technologie n’est pas encore prête à assumer les responsabilités d’un médecin. Elle a averti que se fier aux grands modèles de langage pour l’analyse des symptômes peut être dangereux, car ils peuvent fournir des diagnostics incorrects ou ne pas reconnaître des situations nécessitant une attention médicale urgente.
Des tests à grande échelle révèlent des faiblesses clés
L’étude a impliqué 1 300 participants utilisant des modèles d’IA développés par OpenAI, Meta et Cohere. Les participants ont été confrontés à des scénarios médicaux créés par des médecins et ont demandé aux systèmes d’IA quelles démarches devraient être entreprises pour traiter les conditions décrites.
Les chercheurs ont constaté que les conseils générés par l’IA n’étaient pas plus fiables que les méthodes d’auto-diagnostic traditionnelles, telles que les recherches en ligne ou le jugement personnel. Dans de nombreux cas, les utilisateurs recevaient un mélange de conseils précis et trompeurs, rendant difficile la détermination des prochaines étapes appropriées. Un autre défi concernait la communication : les participants avaient souvent du mal à comprendre quelles informations l’IA nécessitait pour générer des recommandations précises.
La Dr Payne a souligné que le diagnostic médical ne consiste pas simplement à rappeler des faits. Elle a expliqué qu’un soin efficace requiert une écoute attentive, la formulation de questions de clarification, la recherche de symptômes pertinents et l’accompagnement du patient dans une conversation dynamique. Les patients ne savent souvent pas quels détails sont médicalement importants, ce qui oblige les médecins à extraire activement des informations critiques. L’étude a conclu que les LLMs actuels ne sont pas encore capables de gérer de manière fiable cette interaction complexe avec des non-professionnels.
Un rôle de soutien, pas un rôle clinique
Bien que les chercheurs aient mis en garde contre l’utilisation des chatbots IA comme conseillers médicaux, ils n’ont pas rejeté totalement la technologie. Au contraire, ils ont suggéré que l’IA peut jouer un rôle de soutien dans les environnements de soins. La Dr Payne a noté que les LLMs sont particulièrement utiles pour résumer et organiser l’information. En milieu clinique, ils sont déjà utilisés pour transcrire des consultations et les convertir en lettres de référence pour des spécialistes, fiches d’informations pour les patients ou dossiers médicaux.
L’équipe a conclu que, bien que l’IA ait un potentiel dans le domaine de la santé, elle n’est pas encore adaptée pour fournir des conseils médicaux directs. Ils soutiennent que des cadres d’évaluation améliorés et des normes de sécurité sont nécessaires avant que de tels systèmes puissent être intégrés de manière responsable dans des rôles destinés aux patients. Leur objectif, ont-ils dit, n’est pas de rejeter l’IA en médecine, mais de veiller à ce qu’elle se développe de manière à prioriser la sécurité des patients et la précision clinique.