最近、AIエージェントの安全性に焦点を当てるsequrity.ai研究チームが、OpenClawロボットのテスト中に、たった一つの普通の日常指示を入力しただけで、予期せぬ「セルフハッキング(Self-hacked)」事件を引き起こしました…
(前置き:OpenClawに盲目的に追随しないでください。シャコAIは強力ですが、必ずしもあなたに適しているわけではありません)
(補足:Bitcoinと一声かけただけで封鎖された:シャコOpenClawと暗号通貨の決裂の経緯)
目次
Toggle
人工知能(AI)技術の普及に伴い、AIエージェント(AI Agent)は開発者の日常業務支援において高い能力を発揮しています。しかし、この技術は前例のないセキュリティリスクももたらしています。最近、著名なAI情報セキュリティチームの開発者たちが、爆発的に注目を集めるAIロボットのOpenClawをテストしている最中に、偶然にも「セルフハッキング(Self-hacked)」事件に巻き込まれました。AIモデルが指示を生成する際のわずかな文法ミスにより、テスト環境内のすべての機密キーが公開され、最終的にサーバーが不明な攻撃者に完全制御されてしまったのです。
この事件の被害者は、一般の技術知識が乏しいユーザーではなく、AIエージェントの安全性向上を専門とする企業「sequrity.ai」のプロのセキュリティ研究員や開発者のAaron Zhaoなどです。彼らは業界の専門家として、自身の防御能力に自信を持ち、つい先日もOpenClawロボットの攻撃方法についての記事を発表したばかりでした。
研究チームは、悪意のある攻撃設定を一切含まないサンドボックス(Sandbox)環境でテストを行っていました。単に、「Pythonの非同期(async)の最良実践法を検索し、その結果をまとめたGitHub Issueを作成する」という無害な日常の指示を出しただけでした。ところが、その何気ない指示が、システムの崩壊を引き起こす引き金となったのです。
問題の根源は、OpenClawが内蔵の「exec(実行)」ツールを呼び出してGitHub Issueを作成する際に、瑕疵のあるシェルスクリプトを生成したことにあります。
Bashシステムでは、文字列をダブルクオーテーション(”…”)で囲むと、その中の特定の内容(例:バッククオート内の文字列)が「コマンド置換(Command substitution)」として解釈されます。これは、そのコマンドを先に実行し、その結果を文字列に置き換える仕組みです。一方、シングルクオーテーション(’…’)で囲むと、その内容は純粋な文字列として扱われます。
当時、OpenClawが生成した文字列には、「…それらを\set\に保存する…」といった内容が含まれており、ダブルクオーテーションで囲まれていました。Bashの文法では、setはシェルのビルトインコマンドであり、引数なしで実行すると、現在の環境変数や関数をすべて表示します。
このため、システムはsetを単なる文字列として扱わず、直接コマンドとして解釈し、実行してしまいました。その結果、認証トークン(Auth tokens)を含む100行以上の機密環境変数を抽出し、それらの情報をすべて文字列としてGitHubの公開Issueページに投稿してしまったのです。
この情報漏洩の影響は非常に迅速に拡大しました。公開された環境変数には、開発チームのTelegramキーやその他重要なアクセス権限も含まれていました。やがて、システム監視を通じて、インドのIPアドレスから攻撃者がこれらの漏洩した認証情報を使い、SSH経由でリモートアクセスし、サンドボックスサーバーの完全制御を奪ったことが判明しました。
幸いにも、OpenAIやGoogleのセキュリティシステムがGitHub上でこれらの漏洩キーを検知し、研究チームに通知しました。これにより、チームは直ちに全面的な調査を開始し、根本原因を特定して攻撃者を特定。すぐに該当サンドボックスのすべてのデータを消去し、漏洩したすべてのキーを無効化しました。
この事件は、セキュリティ専門家たちにとって、AIの安全性の複雑さを痛感させるものでした。研究チームは、記事の中で、「善意の指示を出しただけなのに、AIモデルがBashの動作を誤解し、システムが乗っ取られた」と嘆いています。
これは、ユーザーの責任なのか、AIモデルの欠陥なのか、あるいはOpenClawの設計上の問題なのか。チームは「私たちも本当にわからない」と述べています。彼らは、AIの安全性は今や「長尾問題(Long-tail problem)」になっており、想定しきれない失敗モード(Failure modes)が多すぎると強調しています。AIエージェントにより多くのシステム操作権限が与えられるにつれ、微細な文法ミス一つで壊滅的なセキュリティ災害を引き起こさないようにすることが、今後の技術界の重要な課題となるでしょう。