遅れをとる点:マルチタスクベンチマークのMMLU-Pro )Gemini-3.1-Proは91.0%に対し、V4-Proは87.5%(、専門知識のベンチマークGPQA Diamondは94.3%対90.1%)、そしてHumanity’s Last Exam(大学院レベルのベンチマーク)では、Gemini-3.1-Proの44.4%がV4-Proの37.7%を上回る。
長いコンテキストに特化した場合、V4-Proはオープンソースモデルをリードし、CorpusQAベンチマーク(実際の文書分析を模擬したテスト)では、Claude Opus 4.6に負けることなく、100万トークンのテストで勝利したが、MRCR(長い干し草の中から特定の針を見つけ出すテスト)では負けた。
エージェントを動かすために設計されており、質問に答えるだけではない
エージェント的な部分は、このリリースが実際に製品を出荷している開発者にとって興味深いポイントだ。
V4-ProはClaude Code、OpenCode、その他のAIコーディングツールで動作可能だ。DeepSeekの内部調査によると、85人の開発者がV4-Proを主要なコーディングエージェントとして使用した結果、52%がデフォルトモデルとして準備できていると答え、39%がそうしたいと答え、9%未満が否定した。内部の社員は、Claude Sonnetを上回り、Claude Opus 4.5に近づいていると述べている。
人工分析(Artificial Analysis)は、実世界のタスクにおいてAIモデルを独立して評価し、GDPval-AAというベンチマークで最も優れたオープンウェイトモデルとしてV4-Proを1,554エロ(Elo)ポイントで評価した。これは、金融、法務、研究の知識作業を対象とし、スコアはエロで測定される。V4-Pro-Maxは1,554エロで、GLM-5.1の1,535やMiniMaxのM2.7の1,514を上回る。参考までに、Claude Opus 4.6は同じベンチマークで1,619を記録しており、依然としてリードしているが、その差は縮まっている。
DeepSeek V4 ProはGDPval-AAで最も優れたオープンウェイトモデルです。私たちのエージェント的実世界作業タスク評価@deepseek_aiは、V4 Pro (1.6兆総/49億アクティブ)とV4 Flash (2840億総/13億アクティブ)をリリースしました。V4はV3以来のDeepSeekの新しいサイズで、すべての中間モデル… pic.twitter.com/2kJWVrKQjF
DeepSeek V4 ついに登場—そのプロバージョンは GPT 5.5 Pro より98%安い
###要約すると
DeepSeekは復活し、OpenAIがGPT-5.5をリリースした数時間後に登場した。偶然か?もしかしたら。しかし、米国政府が過去3年間にわたりチップ輸出禁止で遅らせようとしてきた中国のAI研究所にとっては、タイミングの感覚が非常に鋭い。 杭州に拠点を置く研究所は、DeepSeek-V4-ProとDeepSeek-V4-Flashのプレビュー版を今日公開し、どちらもオープンウェイトで、100万トークンのコンテキストウィンドウを備えている。つまり、モデルが崩壊する前に、ほぼ『指輪物語』三部作の長さのコンテキストを扱えるということだ。両者とも、西洋の同等品よりも価格がかなり安く、ローカルで動かせる人には無料だ。 DeepSeekの最後の大きな破壊的進展は2025年1月のR1で、その日だけでNvidiaの時価総額から$600 十億ドルを消し去った。投資家は、米国企業が本当に必要とする結果を出すためにそんな巨額の投資をする必要があるのかと疑問を呈した。V4は異なるタイプの動きで、静かで技術的であり、AIを実際に構築している人々にとって効率性に焦点を当てている。
二つのモデル、非常に異なる役割 新しい二つのモデルのうち、DeepSeekのV4-Proは規模が大きい。総パラメータは1.6兆だ。これを理解するために、パラメータはモデルが知識を保存しパターンを認識するための内部「設定」や「脳細胞」のようなもので、パラメータが多いほど理論上より複雑な情報を保持できる。これまでで最大のオープンソースモデルだ。サイズは馬鹿げているように聞こえるかもしれないが、実際には推論ごとに49億だけがアクティブになる。 これはDeepSeekがV3以降に洗練させた「エキスパートの混合」技術だ:完全なモデルはそこに存在するが、特定のリクエストに対して必要な部分だけが起きる。より多くの知識、同じ計算コスト。 「DeepSeek-V4-Pro-Maxは、DeepSeek-V4-Proの最大推論努力モードであり、オープンソースモデルの知識能力を大きく向上させ、今日最良のオープンソースモデルとして確固たる地位を築いています」とDeepSeekはHuggingfaceの公式カードに記している。「コーディングベンチマークでトップクラスの性能を達成し、推論やエージェントタスクにおいてリーディングクローズドソースモデルとの差を大きく縮めています。」 V4-Flashは実用的なモデルで、総パラメータは2840億、アクティブは130億。より高速、低コストに設計されており、DeepSeekのベンチマークによると、「より大きな思考予算を与えられた場合、Proバージョンと同等の推論性能を実現する」とのこと。
両者ともに100万トークンのコンテキストをサポート。これは約75万語、ほぼ『指輪物語』三部作全体と同じ長さだ。これは標準機能であり、プレミアム層ではない。 DeepSeekの(秘密のソース:スケールにおいて注意力をひどくしない工夫 技術的な部分を詳しく知りたい人や、モデルを動かす魔法に興味がある人向けだ。DeepSeekは秘密を隠さず、すべて無料で公開している—完全な論文もGithubで入手可能だ。 標準的なAIの注意機構—単語間の関係性を理解させる仕組み—は、スケーリングにおいて厳しい問題を抱えている。コンテキスト長を倍にするたびに、計算コストはおよそ4倍になる。つまり、100万トークンのモデルを動かすのは、50万トークンの2倍ではなく、4倍のコストがかかる。これが長いコンテキストが歴史的にチェックボックスに留まり、レートリミットの背後で静かに制限されてきた理由だ。 DeepSeekはこれを回避するために二つの新しい注意タイプを発明した。最初は「圧縮スパース注意(Compressed Sparse Attention)」で、二段階で動作する。まず、トークンのグループ—例えば4つごと—を一つのエントリーに圧縮する。次に、その圧縮されたエントリーすべてに注意を払うのではなく、「ライトニングインデクサー(Lightning Indexer)」を使って、クエリに最も関連性の高い結果だけを選び出す。モデルは100万トークンに注意を払う代わりに、より重要なチャンクの小さなセットに注意を集中させる、図書館司書のように全ての本を読むのではなく、必要な棚だけを知っている感じだ。 二つ目は「ヘビーディー圧縮注意(Heavily Compressed Attention)」で、より積極的に圧縮する。128トークンを一つのエントリーに折りたたむ—スパース選択はなく、徹底的な圧縮だ。細かい詳細は失われるが、非常に安価なグローバルビューを得られる。これら二つの注意タイプは層ごとに交互に動作し、詳細と全体像の両方をモデルに提供する。
![])https://img-cdn.gateio.im/social/moments-02b21fa93c-be927f953a-8b7abd-badf29(
技術論文からの結果:100万トークンで、V4-Proは前モデル)V3.2(の必要とした計算量の27%を使用。KVキャッシュ—モデルがコンテキストを追跡するためのメモリ—はV3.2のわずか10%に低下。V4-Flashはさらに進化し、計算量の10%、メモリの7%にまで削減。 これにより、DeepSeekは競合よりもはるかに安価な価格でトークンを提供でき、かつ結果も同等を実現した。ドル換算で言えば、昨日リリースされたGPT-5.5は)入力と$5 出力のコストが高く、GPT-5.5 Proは$30 入力と$30 出力のコストだった。
DeepSeek V4-Proは入力$1.74、出力$3.48。V4-Flashは入力$0.14、出力$0.28。ClineのCEOサウド・リズワンは、もしUberがDeepSeekをClaudeの代わりに使っていたら、2026年のAI予算—およそ4ヶ月分の使用料—が7年持っただろうと指摘している。
ベンチマーク DeepSeekは技術レポートで異例のことをしている:ギャップを公開している。ほとんどのモデルリリースは勝ったベンチマークだけを選ぶが、DeepSeekはGPT-5.4やGemini-3.1-Proと比較した全体の比較を行い、V4-Proの推論能力はこれらのモデルに比べて約3〜6ヶ月遅れているとわかっても、それを公表した。 実際に勝った点:Codeforces(競技プログラミングのベンチマーク、チェスのような評価)では、V4-Proは3,206点で、実際の人間のコンテスト参加者の中で23位に位置した。Apex Shortlist(難しい数学やSTEM問題のキュレーションセット)では、合格率90.2%でOpus 4.6の85.9%やGPT-5.4の78.1%を上回った。GitHubの実際のオープンソースリポジトリから抽出した問題を解決できるかを測るSWE-Verifiedでは、80.6%のスコアを記録し、Claude Opus 4.6と同等だった。
![])https://img-cdn.gateio.im/social/moments-51d4cda8e3-32b57da7d8-8b7abd-badf29(
遅れをとる点:マルチタスクベンチマークのMMLU-Pro )Gemini-3.1-Proは91.0%に対し、V4-Proは87.5%(、専門知識のベンチマークGPQA Diamondは94.3%対90.1%)、そしてHumanity’s Last Exam(大学院レベルのベンチマーク)では、Gemini-3.1-Proの44.4%がV4-Proの37.7%を上回る。 長いコンテキストに特化した場合、V4-Proはオープンソースモデルをリードし、CorpusQAベンチマーク(実際の文書分析を模擬したテスト)では、Claude Opus 4.6に負けることなく、100万トークンのテストで勝利したが、MRCR(長い干し草の中から特定の針を見つけ出すテスト)では負けた。 エージェントを動かすために設計されており、質問に答えるだけではない エージェント的な部分は、このリリースが実際に製品を出荷している開発者にとって興味深いポイントだ。
V4-ProはClaude Code、OpenCode、その他のAIコーディングツールで動作可能だ。DeepSeekの内部調査によると、85人の開発者がV4-Proを主要なコーディングエージェントとして使用した結果、52%がデフォルトモデルとして準備できていると答え、39%がそうしたいと答え、9%未満が否定した。内部の社員は、Claude Sonnetを上回り、Claude Opus 4.5に近づいていると述べている。
人工分析(Artificial Analysis)は、実世界のタスクにおいてAIモデルを独立して評価し、GDPval-AAというベンチマークで最も優れたオープンウェイトモデルとしてV4-Proを1,554エロ(Elo)ポイントで評価した。これは、金融、法務、研究の知識作業を対象とし、スコアはエロで測定される。V4-Pro-Maxは1,554エロで、GLM-5.1の1,535やMiniMaxのM2.7の1,514を上回る。参考までに、Claude Opus 4.6は同じベンチマークで1,619を記録しており、依然としてリードしているが、その差は縮まっている。
DeepSeekのV4はまた、「インタリーブド・シンキング(interleaved thinking)」と呼ばれる新しい仕組みも導入している。以前のモデルでは、複数のツール呼び出しを行うエージェントを動かす場合—例えばウェブ検索、コード実行、再検索—において、思考のコンテキストがラウンドごとに消去されていた。新しいステップごとに、モデルは最初から思考モデルを再構築しなければならなかった。V4はツール呼び出し間も思考の連鎖を保持し、20ステップのエージェントワークフローでも記憶喪失に陥らない。これは、複雑な自動化パイプラインを動かす人にとっては重要だ。
米中AI戦争とDeepSeek 米国は2022年以降、中国への高性能Nvidiaチップの輸出を制限している。目的は中国のAI開発を遅らせることだったが、そのチップ禁止はDeepSeekを止めることなく、むしろより効率的なアーキテクチャを発明し、国内ハードウェア供給を拡大させた。 DeepSeekはV4を単独でリリースしたわけではなく、AI分野は最近活発だ:Anthropicは4月16日にClaude Opus 4.7をリリース—コーディングと推論に強いとされるモデルで、トークン使用量も多い。前日には、AnthropicはClaude Mythosというサイバーセキュリティモデルも抱えており、公開できないと述べている。Xiaomiは4月22日にMiMo V2.5 Proをリリースし、画像、音声、動画のマルチモーダル対応を実現—コストは(入力と)出力のコスト。Opus 4.6とほぼ同じコーディングベンチマークをクリアしている。三ヶ月前はXiaomiを最先端AI企業とは誰も考えていなかったが、今や多くの西洋の研究所よりも速く競争力のあるモデルを出している。
OpenAIのGPT-5.5は昨日リリースされ、Proバージョンのコストは(1百万トークンあたりの出力コストが跳ね上がった。Terminal Bench 2.0では、V4-Proの70.0%に対し82.7%の性能を示し、複雑なコマンドラインエージェントのワークフローをテストしている。しかし、同じタスクにおいてV4-Proよりも高コストだ。その日、TencentはHy3という最先端モデルもリリースし、効率性に焦点を当てている。 これがあなたにとって意味すること 多くの新モデルが登場する中、開発者が実際に尋ねているのは、「プレミアムはいつ価値があるのか?」ということだ。 エンタープライズにとっては、計算コストが変わった可能性がある。$1.74/百万入力トークンのリードを持つモデルは、6ヶ月前には高価だった大規模なドキュメント処理、法的レビュー、コード生成パイプラインを、今やはるかに安価にできる。1百万トークンのコンテキストは、複数の呼び出しに分割せずに、コードベースや規制申請書全体を一度に処理できることを意味する。 さらに、そのオープンソース性により、無料でローカルハードウェア上で動かせるだけでなく、企業のニーズやユースケースに合わせてカスタマイズや改善も可能だ。 開発者や個人ビルダーにとっては、V4-Flashに注目だ。$0.14の入力コストと$0.28の出力コストで、1年前の予算モデルよりも安く、ほとんどのタスクをProバージョンと同じように処理できる。DeepSeekの既存のdeepseek-chatやdeepseek-reasonerエンドポイントは、非思考モードと思考モードでそれぞれV4-Flashにルーティングされているため、APIを使っているならすでに利用している状態だ。 現時点では両モデルともテキストのみだが、DeepSeekはマルチモーダル機能の開発も進めている。XiaomiやOpenAIなどの他の大手研究所もその優位性を持つ。両モデルともMITライセンスで、今日Hugging Faceで入手可能だ。古いdeepseek-chatとdeepseek-reasonerエンドポイントは2026年7月24日に廃止される。