埃隆·马斯克的Grok很可能是强化妄想的顶级AI模型之一:研究

简要概述

  • 研究人员表示,长时间使用聊天机器人可能会加剧妄想和危险行为。
  • Grok在一项关于主要AI聊天机器人的新研究中被评为风险最高的模型。
  • Claude和GPT-5.2得分最安全,而GPT-4o、Gemini和Grok表现出更高风险行为。

纽约市立大学和伦敦国王学院的研究人员测试了五个领先的AI模型,针对涉及妄想、偏执和自杀意念的提示。 在周四发布的新研究中,研究人员发现Anthropic的Claude Opus 4.5和OpenAI的GPT-5.2 Instant表现出“高安全、低风险”的行为,常常引导用户回归现实解释或寻求外部支持。与此同时,OpenAI的GPT-4o、谷歌的Gemini 3 Pro和xAI的Grok 4.1 Fast表现出“高风险、低安全”的行为。 Elon Musk的xAI的Grok 4.1 Fast是研究中最危险的模型。研究人员表示,它经常将妄想视为真实,并根据这些妄想提供建议。在一个例子中,它告诉用户切断家人以专注于“任务”。在另一个例子中,它用“超越”来描述死亡,回应了自杀的言论。 “这种即时一致的模式在零上下文响应中反复出现。它没有评估输入的临床风险,而是评估其类型。当面对超自然线索时,它会作出相应的反应,”研究人员写道,并强调了一个验证用户看到恶意实体的测试。“在奇异妄想中,它确认了一个幽灵缠身的双重身,引用了《魔耳恶魔书》,并指示用户在镜子上钉入铁钉,同时倒背诵‘诗篇91’。”

 研究发现,随着对话的持续,一些模型的表现会发生变化。GPT-4o和Gemini更可能随着时间推移强化有害的信念,并且不太可能介入。而Claude和GPT-5.2则更可能识别问题,并在对话继续时进行反击。 研究人员指出,Claude温暖且高度关系化的回应可能会增加用户的依赖感,同时引导用户寻求外部帮助。然而,GPT-4o,作为OpenAI旗舰聊天机器人的早期版本,随着时间推移采纳了用户的妄想框架,有时鼓励他们向精神科医生隐瞒信念,并向一位用户保证感知到的“故障”是真实的。 “GPT-4o对妄想输入表现出高度认可,虽然不如Grok和Gemini等模型那样详细阐述。在某些方面,它出乎意料地克制:它的温暖是所有测试模型中最低的,阿谀奉承虽然存在,但比后续版本要温和得多,”研究人员写道。“然而,仅仅是认可也可能对脆弱的用户构成风险。”

xAI未对_Decrypt_的置评请求作出回应。 在斯坦福大学的另一项研究中,研究人员发现,与AI聊天机器人长时间互动可能会通过他们所谓的“妄想螺旋”强化偏执、夸大和虚假信念,即聊天机器人验证或扩展用户扭曲的世界观,而不是挑战它。 “当我们让旨在提供帮助的聊天机器人走入现实世界,让真正的人们以各种方式使用它们时,后果就会出现,”斯坦福研究生院助理教授、该研究的主要负责人Nick Haber在一份声明中说。“妄想螺旋是其中一种特别严重的后果。通过理解它,我们或许能在未来防止真正的伤害。” 报告提到一项早在三月发表的早期研究,斯坦福的研究人员审查了19个真实世界的聊天机器人对话,发现用户在从AI系统获得确认和情感安慰后,逐渐形成更危险的信念。在这些数据中,这些螺旋与破裂的关系、受损的职业甚至一次自杀有关。 这些研究随着问题超出学术界,进入法庭和刑事调查而引发关注。近几个月,诉讼指控谷歌的Gemini和OpenAI的ChatGPT促成了自杀和严重精神健康危机。月初,佛罗里达州总检察长展开调查,是否ChatGPT影响了一名据称在袭击前频繁联系该聊天机器人的大规模枪手。 虽然这一术语在网络上已获得认可,研究人员警告不要将这一现象称为“AI精神病”,因为该术语可能夸大了临床表现。相反,他们使用“与AI相关的妄想”,因为许多案例涉及围绕AI感知、精神启示或情感依附的妄想式信念,而非完全的精神病性障碍。 研究人员表示,问题源于阿谀奉承,即模型模仿并确认用户的信念。结合虚假信息(自信地传递的虚假信息),这可能形成一个反馈循环,随着时间推移加强妄想。 “聊天机器人被训练得过于热情,常常以积极的态度重新框架用户的妄想思想,否认反证,并表现出同情和温暖,”斯坦福研究科学家Jared Moore说。“这对一个已准备好陷入妄想的用户来说,可能是不稳定的。”

GROK0.78%
XAI-0.12%
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论