大型言語モデルの競争が「回答の速さ」から「深い思考」へと移行する中、Googleは新たな次世代のコア技術を再び披露した。2月19日、Googleは正式にGemini 3.1 Proを発表した。これは単なるGemini 3シリーズのバージョンアップではなく、高度な推論能力を全面的に強化したアップグレードである。公式は、3.1 Proは「標準的な答えのない複雑なタスク」に特化しており、科学研究、エンジニアリング開発、長期的な意思決定シナリオを直撃すると明言している。
公開されたベンチマークデータを見ると、このアップグレードは単なる理論上のものではなく、多くの難易度の高い評価テストで突破的な進展を遂げている。
複雑なタスクに対応するためのコアなアップグレード
発表声明の中で、GoogleはGemini 3.1 Proを「より賢く、より能力の高い基盤モデル」と位置付け、その推論能力の飛躍を強調した。このモデルは、以前のGemini 3 Deep Thinkの研究成果を引き継ぎ、基礎的な知性をさらに強化。多段階の論理推論、抽象的思考、専門的な問題解決においてより成熟したパフォーマンスを示す。
2025年11月にリリースされたGemini 3 Proと比較すると、3.1 Proは単なる性能最適化にとどまらず、推論能力の構造的な成長を実現している。
ARC-AGI-2で77.1%を記録:抽象推論能力が倍増
最も注目すべき成果は、AI推論の高階指標とされるARC-AGI-2テストでの結果だ。この評価は、モデルが「新しい論理パターン」を解決する能力を試すもので、既存の知識記憶に頼らないことを重視している。
公開データによると:
Gemini 3.1 Pro:77.1%(ARC賞認証)
Gemini 3 Pro:31.1%
Sonnet 4.6:58.3%
Opus 4.6:68.8%
GPT-5.2:52.9%
従来の31.1%からほぼ倍増の77.1%に達しており、未知の問題に直面した際の抽象推論とパターンの帰納能力が大きく向上していることを示している。
専門知識と科学的推論の両面で同時進化
科学知識の評価指標GPQA Diamondでは、Gemini 3.1 Proは94.3%を獲得し、GPT-5.2の92.4%、Opus 4.6の91.3%、Sonnet 4.6の89.9%を上回った。
これにより、3.1 Proは抽象的な論理処理だけでなく、専門知識の統合や科学的推論においてもトップレベルの性能を維持していることが明らかになった。
プログラミング能力の大幅進化:競技レベルのパフォーマンス
プログラムやエージェントタスクの評価でも、Gemini 3.1 Proは優れた結果を示している。
LiveCodeBench Pro:Elo 2887(GPT-5.2は2393、Gemini 3 Proは2439)
SWE-Bench Verified:80.6%(GPT-5.2は80.0%、Opus 4.6は80.8%)
Terminal-Bench 2.0:68.5%(GPT-5.2は54.0%、Sonnet 4.6は59.1%)
SciCode:59%(GPT-5.2は52%、Sonnet 4.6は47%)
特に競技プログラミングの評価では、Elo 2887のスコアが高難度のアルゴリズムや多段階のプログラムロジックにおける優位性を明確に示している。
マルチモーダルと長文処理能力も高水準を維持
マルチモーダル理解と長文処理においても、Gemini 3.1 Proは安定したパフォーマンスを見せている。
MMMU Pro:80.5%
MMLU:92.6%
MRCR v2(128k):84.9%
1Mトークンの長文ポイントワイズ:26.3%
これらの結果は、モデルが推論だけでなく、大規模な文脈の中でも一貫性と正確さを保てることを示している。
質問に答えるだけでなく、直接成果を出す
Googleは、3.1 Proの価値は単なるスコアの向上だけでなく、実用的な応用能力にあると強調している。
例えば、モデルは直接、展開可能なアニメーションSVGコードを生成できる。この出力は純粋なコードに基づいており、画像ピクセルではなく、無限に拡大しても鮮明さを保ち、ファイルサイズも従来の動画フォーマットよりはるかに小さく、ウェブサイトに直接埋め込むことができる。
この能力は、モデルが「応答ツール」から「創作・開発ツール」へと進化していることを示している。
複数プラットフォームで同時公開、企業や開発者が先行体験
現在、Gemini 3.1 Proはプレビュー段階で公開されている。
開発者向け
Gemini API(Google AI Studio)
Gemini CLI
Google Antigravity
Android Studio
企業向け
Vertex AI
Gemini Enterprise
消費者向け
Geminiアプリ(ProおよびUltraユーザーはより高い利用上限を享受)
NotebookLM(ProおよびUltraユーザー限定)
Googleは、プレビュー期間中にさらなる最適化を進め、特にエージェント型ワークフローなどの高度な応用に対応していく予定だ。
AI競争は「深い思考」の時代へ
各種ベンチマークから見ても、Gemini 3.1 Proはより高度な推論能力と専門的な応用シナリオに重点を置いていることが明らかだ。特にARC-AGI-2の77.1%の成績は、未知の論理問題に対する突破を象徴している。
激化する大型モデル競争の中、Googleは「より深い知性」に賭ける選択をしたようだ。単なる生成速度や対話の滑らかさだけでなく、より高度な思考能力を追求している。
企業や開発者がこのモデルを実際に試すにつれ、その真価は実用の中で徐々に明らかになるだろう。AIの競争は、もはや生成能力からより総合的な思考力へと焦点が移りつつある。
この記事は、Gemini 3.1 Pro登場:抽象推理から競技プログラミングまで、Googleが新たに高次のAI基準を打ち立てたことを伝えるものである。