1M AI Newsの監測によると、Kerasの創始者フランソワ・チョレとZapierの共同創設者マイク・ノープが設立した非営利団体ARC Prize基金会は、ARC-AGI-3のベンチマークテストを発表しました。従来の静的な格子推論タスクとは異なり、ARC-AGI-3はインタラクティブなターン制環境のセットであり、エージェントは64×64の16色格子世界で行動します。指示や目標のヒントは一切なく、自律的に環境を探索し、ルールや勝利条件を推測し、世界モデルを構築し、行動のシーケンスを計画しなければなりません。
スコアは「行動効率」メカニズムを採用しており、同じレベルをクリアするのに必要なステップ数が少ないほど高得点となります。これは、真の推論能力と単なる暴力的な総当たりを区別するためのものです。各環境は人間による校正テストを経ており、初めて触れたときに100%クリアできることが確認されています。公開時点での最先端AIモデルのスコアは以下の通りです。
新バージョンのリリースは、一部で前世代のベンチマークが「汚染」されているとの懸念に起因しています。論文では、Gemini 3が推論チェーン内でARC-AGIの整数-色対応関係(例:「3=緑」)を自動的に使用していることが指摘されています。これは、プロンプトにその対応関係が一切記載されていないにもかかわらず、モデルの学習データがARC-AGIのタスクを十分にカバーしていることを強く示唆しています。ARC-AGI-3は、インタラクティブな環境と自主的な目標発見メカニズムを通じて、このような記憶によるショートカットに抵抗します。ARC Prize 2026の総賞金は200万ドルを超えています。