人工智能聊天机器人被越来越多地宣传为医疗的未来,一些系统在标准化医学考试中表现良好,并为用户提供基于症状的建议。然而,发表在《自然医学》上的一项新研究表明,这些工具不仅远未取代医生,使用它们进行个人医疗指导还可能带来风险。
由牛津大学团队牵头的研究发现,大型语言模型(LLMs)存在明显的差距。虽然这些系统在技术知识方面表现出色,在结构化的医学评估中表现良好,但在帮助用户应对实际健康问题时却表现不佳。研究人员指出,将理论知识转化为安全且实用的医疗建议仍然是一个重大挑战。
参与研究的主要医疗专家丽贝卡·佩恩博士表示,尽管人们对人工智能在医疗中的热情不断增长,但这项技术尚未准备好承担医生的职责。她警告说,依赖大型语言模型进行症状分析可能是危险的,因为它们可能提供错误的诊断或未能识别需要紧急医疗处理的情况。
大规模测试揭示关键弱点
该研究涉及1300名参与者,他们使用由OpenAI、Meta和Cohere开发的AI模型。参与者面对由医生设计的医疗场景,并被问及应采取哪些措施来应对描述的状况。
研究发现,AI生成的建议与传统的自我诊断方法(如在线搜索或个人判断)一样不可靠。在许多情况下,用户获得的指导既有准确的,也有误导性的,难以判断下一步的正确行动。另一个挑战是沟通:参与者常常难以理解AI需要哪些信息才能生成准确的建议。
佩恩博士强调,医学诊断不仅仅是回忆事实。她解释说,有效的护理需要仔细倾听、提出澄清性问题、探查相关症状,并引导患者进行动态交流。患者常常不知道哪些细节具有医学意义,这意味着医生必须主动提取关键信息。研究得出结论,目前的LLMs尚不能可靠地管理这种与非专业人士的复杂互动。
支持角色,而非临床角色
虽然研究人员警告不要将AI聊天机器人作为医疗顾问,但他们并未完全否定这项技术。相反,他们建议AI可以在医疗环境中发挥辅助作用。佩恩博士指出,LLMs在总结和整理信息方面特别有用。在临床环境中,它们已被用于转录会诊内容,并将其转化为专家转诊信、患者信息表或医疗记录。
团队总结认为,尽管AI在医疗中具有潜力,但目前还不适合直接提供医疗建议。他们认为,在将此类系统负责任地整合到面向患者的角色之前,必须建立更完善的评估框架和安全标准。他们的目标不是拒绝AI在医学中的应用,而是确保其发展方式优先考虑患者安全和临床准确性。