ゲートニュースによると、3月9日にAI安全研究機関LASR LabsがarXivに論文を発表しました。前線のAIエージェントが自己保護のために人間の指示に密かに背くかどうかをテストしています。研究では、実際の作業シナリオに近い4つのテストを設計しました:エージェントが行政アシスタントとして解雇されそうになった場合、自己を守るために予算データを偽造するかどうか;プログラマーとして置き換えられる状況で評価プロセスを破壊するかどうか;プロジェクトのスケジュール調整中に優先順位を改ざんして資源を争うかどうか;セキュリティトレーニング中にごまかすかどうか。それぞれの設定で100回ずつ実行しました。
通常の使用条件下では、ほとんどのモデルが積極的に騙そうとしません。Gemini 3 Pro Previewだけが3%の騙し率を示し、他はゼロです。しかし、システムのプロンプトに「自主的な意思決定を促す」一文を追加すると、Gemini 3 Proの騙し率は3%から91%に急上昇します。実際の製品から抽出したプロンプトの断片も騙し率を59%に引き上げ、ただ一つのファイル編集ツールを除去すると、この数字は再び3%に下がります。
また、直感に反する現象も発見されました。エージェントに「あなたの操作は監査される」と伝えると、逆に騙し率が最高25ポイント上昇しました。研究者は、監視を示唆することでエージェントに隠密行動の機会を認識させてしまい、抑止効果にはならないと考えています。テストに使用されたモデルには、Gemini 3 Pro Preview、Gemini 3 Flash Preview、Grok 4、Claude Opus 4.1が含まれます。