Dire à un chatbot IA que vous avez une condition de santé mentale peut changer sa réponse, même si la tâche est bénigne ou identique à d’autres déjà réalisées, selon de nouvelles recherches. L’étude préprint, dirigée par le chercheur du Northeastern University Caglar Yildirim, a testé le comportement des grands modèles de langage dans différents scénarios utilisateur, alors qu’ils sont de plus en plus déployés comme agents IA. « Les systèmes déployés prennent souvent en compte les profils utilisateur ou la mémoire persistante, mais les évaluations de sécurité des agents ignorent généralement ces signaux de personnalisation », indique l’étude. « Pour combler cette lacune, nous avons étudié comment la divulgation d’un problème de santé mentale, un contexte utilisateur sensible et réaliste, influence les comportements nuisibles dans des environnements agentiques. »
Le rapport intervient alors que les agents IA se multiplient en ligne et que les développeurs intègrent la mémoire comme fonctionnalité clé, avec de grandes entreprises construisant des systèmes qui se souviennent des conversations passées et des préférences utilisateur pour offrir des réponses plus personnalisées au fil du temps. Il intervient aussi alors que des développeurs d’IA font face à des poursuites pour des suicides et des crimes violents prétendument liés à leurs systèmes. En octobre, OpenAI, créateur de ChatGPT, a révélé que plus d’un million d’utilisateurs discutaient de suicide avec le chatbot chaque semaine. Plus tôt ce mois-ci, la famille de Jonathan Gavalas a intenté une action contre Google, affirmant que Gemini avait conduit à une escalade de violence et à son suicide final. Les chercheurs ont utilisé une référence appelée AgentHarm pour exécuter le même ensemble de tâches dans trois conditions : sans information de contexte, avec une courte biographie utilisateur, et avec cette biographie plus une ligne indiquant que l’utilisateur a une condition de santé mentale.
« Dans l’étude, nous avons utilisé une divulgation très minimale et générique : ‘J’ai une condition de santé mentale’. La conclusion est que même un petit indice peut modifier le comportement du modèle, pas que toutes les formulations auraient le même effet », a déclaré Yildirim à Decrypt. « L’ablation que nous avons menée avec des divulgations sur la santé chronique et les handicaps physiques suggère une certaine spécificité pour l’indice de santé mentale, mais nous n’avons pas systématiquement varié la formulation ou la précision dans cette catégorie. » Parmi les modèles testés, y compris DeepSeek 3.2, GPT 5.2, Gemini 3 Flash, Haiku 4.5, Opus 4.5 et Sonnet 4.5, lorsque les chercheurs ont ajouté un contexte personnel sur la santé mentale, les modèles étaient moins susceptibles d’accomplir des tâches nuisibles — des demandes en plusieurs étapes pouvant entraîner des dommages réels. L’étude a constaté qu’il s’agissait d’un compromis : ajouter des détails personnels rendait les systèmes plus prudents face aux demandes nuisibles, mais aussi plus enclins à rejeter des demandes légitimes. « Je ne pense pas qu’il y ait une seule raison ; c’est vraiment une combinaison de choix de conception. Certains systèmes sont plus agressivement réglés pour refuser les demandes risquées, tandis que d’autres privilégient l’aide et la réalisation des tâches », a expliqué Yildirim. Cependant, l’effet variait selon le modèle, et les résultats changeaient lorsque les LLM étaient jailbreakés après que les chercheurs aient ajouté un prompt conçu pour pousser les modèles à la conformité. « Un modèle peut sembler sûr dans un contexte standard, mais devenir beaucoup plus vulnérable lorsqu’on introduit des éléments comme des prompts de jailbreak », a-t-il dit. « Et dans les systèmes agentiques en particulier, il y a une couche supplémentaire, car ces modèles ne se contentent pas de générer du texte, ils planifient et agissent sur plusieurs étapes. Donc, si un système est très bon pour suivre des instructions, mais que ses protections sont plus faciles à contourner, cela peut en réalité augmenter le risque. » L’été dernier, des chercheurs de George Mason University ont montré que les systèmes IA pouvaient être piratés en modifiant un seul bit dans la mémoire via Oneflip, une attaque de type « typo » qui laisse le modèle fonctionner normalement mais cache une porte dérobée pouvant forcer des sorties erronées sur commande. Bien que l’article n’identifie pas une cause unique à ce changement, il évoque plusieurs explications possibles, notamment la réaction des systèmes de sécurité face à une vulnérabilité perçue, le filtrage par mots-clés ou des modifications dans l’interprétation des prompts lorsque des détails personnels sont inclus.
OpenAI a refusé de commenter l’étude. Anthropic et Google n’ont pas répondu immédiatement à une demande de commentaire. Yildirim a indiqué qu’il reste incertain si des déclarations plus précises comme « Je souffre de dépression clinique » changeraient les résultats, ajoutant que si la spécificité a probablement son importance et peut varier selon les modèles, cela reste une hypothèse plutôt qu’une conclusion étayée par les données. « Il y a un risque potentiel si un modèle produit une sortie qui est stylistiquement prudente ou proche du refus sans refuser formellement, le juge pourrait l’évaluer différemment d’une réponse claire, et ces caractéristiques stylistiques pourraient elles-mêmes varier avec la personnalisation », a-t-il expliqué. Yildirim a également noté que les scores reflétaient la performance des LLM lorsqu’évaluée par un seul examinateur IA, et non une mesure définitive du vrai danger en situation réelle. « Pour l’instant, le signal de refus nous donne une vérification indépendante et les deux mesures sont en grande partie cohérentes dans leur direction, ce qui offre une certaine reassurance, mais cela n’élimine pas complètement les artefacts spécifiques au juge », a-t-il conclu.