AIチャットボットは、標準化された医療試験で良好な成績を収め、症状に基づくアドバイスを提供するなど、医療の未来としてますます推進されています。しかし、ネイチャー・メディシンに掲載された新しい研究は、これらのツールは医師の代替には遠く及ばず、個人的な医療指導に使用する際にはリスクも伴う可能性があることを示唆しています。
オックスフォード大学のチームが主導したこの研究では、大規模言語モデル(LLMs)における重要なギャップが明らかになりました。システムは高度な技術的知識を示し、構造化された医療評価では良好な成績を収めましたが、実際の健康問題に対してユーザーを支援する際には苦戦しました。研究者たちは、理論的知識を安全かつ実用的な医療アドバイスに翻訳することが依然として大きな課題であると指摘しています。
研究に関わった医療専門家のレベッカ・ペイン博士は、医療分野におけるAIへの期待が高まる一方で、現状の技術は医師の責任を担う準備ができていないと述べました。彼女は、症状分析に大規模言語モデルを頼ることは危険であり、誤診を招いたり、緊急の医療対応が必要な状況を見逃したりする可能性があると警告しています。
大規模テストで明らかになった主要な弱点
この研究には、OpenAI、Meta、Cohereが開発したAIモデルを使用した1,300人の参加者が含まれました。参加者には医師が作成した医療シナリオが提示され、AIシステムに対して、記載された状態に対処するための適切な手順を尋ねました。
研究者たちは、AIが生成したアドバイスは、オンライン検索や個人の判断と比べて信頼性に大きな差はなく、多くの場合、正確な情報と誤解を招く情報が混在していることを発見しました。そのため、次に取るべき適切な行動を判断するのが難しい状況でした。もう一つの課題はコミュニケーションで、参加者はAIが正確な推奨を行うために必要とする情報を理解するのに苦労していました。
ペイン博士は、医療診断は単に事実を思い出すだけではないと強調しました。彼女は、効果的なケアには注意深く傾聴し、明確化のための質問を行い、関連する症状を探りながら、患者とダイナミックな対話を進めることが必要だと説明しています。患者はしばしば、どの情報が医療上重要かを知らないため、医師は積極的に重要な情報を引き出す必要があります。研究は、現行のLLMsはこの複雑なやり取りを非専門家と信頼性高く管理する能力にはまだ達していないと結論付けています。
臨床的役割ではなく支援役
研究者たちは、AIチャットボットを医療アドバイザーとして使用することに対して警告を発しましたが、技術自体を完全に否定しているわけではありません。むしろ、AIは医療現場で支援的な役割を果たすことができると提案しています。ペイン博士は、LLMsは情報の要約や整理に特に有用であると指摘しました。臨床の現場では、すでに相談内容の書き起こしや、専門医への紹介状、患者情報シート、医療記録への変換に利用されています。
チームは、AIには医療分野での潜在能力があるものの、現段階では直接的な医療アドバイスを提供するには適していないと結論付けました。彼らは、そのようなシステムを責任を持って患者向けの役割に統合する前に、評価基準や安全基準の改善が必要だと述べています。彼らの目的は、AIを医療から排除することではなく、患者の安全と臨床の正確性を最優先に開発を進めることだとしています。