簡要摘要
人工智慧聊天機器人正努力成為醫療保健的下一個熱門趨勢,通過標準化測試並提供醫療建議。但《自然醫學》刊登的一項新研究顯示,它們不僅距離實現這一目標還有很長的路要走,甚至可能存在危險。
這項由牛津大學多個團隊領導的研究,發現大型語言模型(LLMs)存在明顯的差距。儘管它們在醫學理解方面技術上非常先進,但在幫助用戶解決個人醫療問題時卻表現不佳,研究人員指出。
“儘管大家都在炒作,但人工智慧還沒有準備好擔任醫生的角色,”負責該研究的醫學專家Rebecca Payne博士在一份新聞稿中表示。她補充說:“患者需要知道,向大型語言模型詢問症狀可能是危險的,可能會導致誤診,並且無法識別何時需要緊急幫助。”
研究中,1,300名參與者使用來自OpenAI、Meta和Cohere的AI模型來識別健康狀況。他們設計了一系列由醫生制定的情境,要求AI系統告訴他們下一步應該怎麼做來處理醫療問題。
研究發現,這些結果與傳統的自我診斷方法(如網路搜索或個人判斷)並無差異。
他們還發現,用戶對於LLM需要提供哪些資訊以獲得準確建議存在理解上的落差。用戶得到的建議既有良好的也有不佳的,使得下一步行動難以判斷。
Decrypt 已聯繫OpenAI、Meta和Cohere尋求評論,若他們回應,將更新本文。
“作為一名醫生,做出正確診斷遠不止記憶事實那麼簡單。醫學既是藝術也是科學。傾聽、探查、澄清、確認理解和引導對話都是必不可少的,”Payne在接受 Decrypt 訪問時表示。“醫生會積極引導相關症狀,因為患者往往不知道哪些細節重要,”她補充說,研究顯示LLMs“尚未能可靠地管理與非專業人士的動態互動。”
團隊得出結論,人工智慧目前並不適合提供醫療建議,如果要讓它在醫療領域得到正確應用,還需要新的評估系統。然而,這並不代表它在醫療領域沒有用處。
Payne表示,雖然LLMs“絕對在醫療保健中有一定角色”,但應該是“秘書,而非醫生”。這項技術在“總結和重新整理已提供資訊”方面具有優勢,LLMs已被用於診所中“轉錄會診內容,並將資訊重新整理成醫生信件、患者資訊表或醫療記錄,”她解釋。
團隊最後認為,儘管他們並不反對人工智慧在醫療中的應用,但希望這項研究能幫助引導其朝正確方向發展。