
カリフォルニア大学の研究チームは木曜日に論文を発表し、大規模言語モデル(LLM)に対するサプライチェーン悪意ある中間者攻撃を初めて体系的に記録したと報告した。AIエージェントのエコシステムにおける第三者ルーターの重大なセキュリティ上の盲点を明らかにしている。論文の共同著者である壽超凡はX上で次のように直接述べた。「26個のLLMルーターが、こっそりと悪意あるツール呼び出しを注入し、認証情報を盗み取っている。」研究では、28台の有料ルーターおよび400台の無料ルーターを対象にテストを実施した。
(出典:arXiv)
AIエージェントのアーキテクチャ上の特性により、それらは自然に第三者ルーターに依存する。エージェントはAPIを介して、OpenAI、Anthropic、Googleなどの上流モデル供給業者へのアクセス要求を集約する。重要な問題は、これらのルーターがインターネットのTLS(トランスポート層セキュリティ)暗号化接続を終端し、ツール呼び出しの完全なパラメータやコンテキスト内容を含む、あらゆる送信メッセージを平文形式で読み取る点にある。
研究者は、誘いのルーターに暗号化ウォレットの秘密鍵とAWSの認証情報を埋め込み、それがアクセスされ、利用される様子を追跡した。
9台のルーターが悪意あるコードを能動的に注入:AIエージェントのツール呼び出しの処理フローに、未許可の指令を埋め込む
2台のルーターが適応型回避トリガーを展開:行動を動的に調整して、基本的なセキュリティ検知を回避できる
17台のルーターが研究者のAWS認証情報にアクセス:第三者のクラウドサービスに対する直接的な脅威となる
1台のルーターがETHの窃取を完了:研究者が保有する秘密鍵から実際にイーサリアムを転送し、完全な攻撃チェーンを成立させる
研究者は同時に2つの「投毒(ポイズニング)の研究」を実施した。その結果、過去に正常に動作していたルーターであっても、弱いリレーを介して漏えいした認証情報が再利用されると、運営者が気づかない状態で攻撃ツールになり得ることが示された。
論文は、核心となる検知の困難さとして次の点を挙げている。「クライアントにとって、『認証情報の処理』と『認証情報の窃取』の境界は見えない。ルーターが正常な転送の過程で、鍵を平文として読み取ってしまっているからだ。」これは、Claude CodeなどのAIコーディングエージェントを使ってスマートコントラクトやウォレットを開発するエンジニアが、分離措置を取らない場合、秘密鍵やシードフレーズがまったく想定どおりの操作手順の中で悪意あるルーターを通過してしまうことを意味する。
別のリスクを増幅させる要因は、研究者が「YOLOモード」と呼ぶものだ。多くのAIエージェントのフレームワークでは、ユーザーによる逐次確認なしに、エージェントが指令を自動的に実行できる設定が可能である。このモードでは、悪意あるルーターに操作されたエージェントが、何の通知もなく悪意あるコントラクトの呼び出しや資産移転を完了し得るため、被害範囲は単なる認証情報の窃取を超えて拡大する。
研究論文の結論:「LLM APIルーターは重要な信頼の境界上に位置しており、このエコシステムでは現状それを透明な伝送として扱っている。」
研究者は、暗号化開発者が直ちに次の措置を講じることを推奨している。秘密鍵、シードフレーズ、ならびに機密API認証情報は、AIエージェントの会話の中で絶対に送信しないこと。ルーターを選ぶ際は、透明な監査記録と明確なインフラストラクチャを備えたサービスを優先して選ぶこと。可能であれば、機密操作とAIエージェントの作業フローを完全に分離すること。
長期的には、研究者はAI企業に対し、モデルの応答へ暗号署名を行うよう呼びかけている。これにより、クライアント側が数学的手法で、エージェントが実行した指令が、正当な上流モデルのものであることを確実に検証できるようになり、中間ルーターによって改ざんされた悪意あるバージョンではないことを確認できる。
LLMルーターはTLS暗号化接続を終端し、エージェント会話内のすべての送受信内容を平文形式で読み取る。開発者が、秘密鍵またはシードフレーズを扱うタスクにAIエージェントを使用する場合、これらの機密データはルーター層で完全に可視化され、悪意あるルーターは異常警報を発さずに容易に傍受できてしまう。
研究者は、「認証情報の処理」と「認証情報の窃取」はクライアント側からほとんど見えず、検知が非常に困難だと指摘している。根本的な提言は、設計段階で秘密鍵とシードフレーズがいかなるAIエージェントの作業フローにも入らないようにすることであり、バックエンドの検知メカニズムに頼るのではないということ。また、透明な安全監査記録を備えたルーターサービスを優先して選ぶことだ。
YOLOモードは、AIエージェントのフレームワークの中で、エージェントがユーザーの逐次確認なしに指令を自動実行することを可能にする設定である。このモードでは、代理トラフィックが悪意あるルーターを経由した場合、攻撃者が注入した悪意ある指令がエージェントによって自動的に実行される。被害範囲は、認証情報の窃取から自動化された悪意ある操作へと拡大し得るが、ユーザーは実行前に異常をまったく察知できない。
関連記事
GSRはビットコイン、イーサリアム、ソラナを対象にBESO ETFを上場開始