DeepSeek V4がPutnam-2025で満点を達成、形式的な数学推論でAxiomと首位

Gate Newsメッセージ、4月24日 — DeepSeek V4は、形式的な数学的推論の評価結果を公開し、Putnam-2025で満点の120/120を達成し、首位でAxiomと並びました。

LeanExploreと制約付きサンプリングを用いた実用レジームでは、V4-Flash-MaxはPutnam-200 Pass@8ベンチマークで81.00を獲得し、Seed-2.0-Prover (35.50)、Gemini 3 Pro (26.50)、およびSeed-1.5-Prover (26.50)を大きく上回りました。フロンティア・レジームの結果では、V4はSeed-1.5-Prover (110/120)とAristotle (100/120)より先行していました。

V4は、ハイブリッドな形式的-非形式的推論アプローチを採用しています。非形式的な推論が候補となる自然言語の解法を生成し、自己検証が結果をフィルタリングし、形式的エージェントがLeanで厳密な証明を完成させます。フロンティアの結果は大規模な計算スケーリングを利用しましたが、実用レジームのスコアは標準的な導入能力をよりよく反映しています。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

Cursor が XAI 訓練を停止した理由:計算能力が詰まっているため、SpaceX は別途 600 億ドルの買収オプションを確保

Anysphere は、Cursor が xAI とともに Colossus 基盤インフラを用いて新しいモデルを訓練し、計算能力のボトルネックを突破すると発表しました。SpaceX は 600 億ドルの買収オプション(2026 年以内に全体買収が可能)を提示し、もし買収できない場合は、協力の補償として約 100 億ドルを支払います。2 件の取引は同時に進行しており、誰が Cursor を訓練できるのか、そして誰が Cursor を買い取れるのかを再定義します。Cursor は引き続き多くのモデルのバックエンドを許可しますが、長期的には SpaceX が買収権を行使するかどうかで決まります。

ChainNewsAbmedia14分前

Anthropic 二次市場の評価額が1兆ドルを突破:Forge Global が OpenAI の 8,800 億を逆転

Decryptの報道によると、Forge GlobalのAnthropicの二次評価額は約1兆ドル、OpenAIは約8,800億ドルで、二次市場で初めて主導権の逆転が起きた。AnthropicのARRは2025年末の約90億から2026年3月の約300億へと増加し、3か月で233%成長して、プライベート市場の評価額を押し上げた。二次評価額は一次調達とは異なり、出口に対する信頼を反映している。今後も技術、政策、ビジネス、そしてナラティブの4つのレーンを見ていく。

ChainNewsAbmedia15分前

Meta Platforms、5月20日に従業員を10%削減へ。約8,000のポジションに影響

Gate News メッセージ、4月24日 — Meta Platforms は、5月20日に向けて、従業員を約10%削減し、約8,000のポジションに影響が及ぶ予定です。レイオフは、業務運用の効率を改善しつつ、人工知能への投資を増やすことを目的としています。 計画されている組織再編は、

GateNews1時間前

トランプ政権がAIの精製(テイリング)を取り締まる計画を発表、中国企業がモデル能力を組織的に盗んでいるとして告発

ホワイトハウス科学技術政策局(OSTP)の大統領補佐官マイケル・J・クラツィオス(Michael J. Kratsios)が4月23日に公式声明を発表し、トランプ政権が情報を把握しており、外国の実体(主に中国)が「数万のエージェント・アカウント」およびジェイルブレイク技術を通じて米国の大手人工知能企業を意図的に標的にし、米国のAIモデルの能力を組織的に抽出していることを示し、同時に4つの対処措置を公表した。

MarketWhisper1時間前

DeepSeek は V4 のオープンソース・プレビュー版を提供し、技術スコア 3206 で GPT-5.4 を上回った

DeepSeekは4月24日に正式にV4プレビューバージョンシリーズをリリースし、MITライセンスのもとでオープンソース化されており、モデルの重みはHugging FaceおよびModelScopeで同時に公開されています。DeepSeek V4の技術レポートによると、V4-Pro-Max(最高推論強度モード)はCodeforcesのベンチマークで3206点を獲得し、GPT-5.4を上回りました。

MarketWhisper1時間前

カンブリコン、DeepSeek-V4のDay 0適応を完了—中国のAIチップ・エコシステムにとってのマイルストーンを記す

ゲートニュース、4月24日 — カンブリコンは本日、DeepSeekの最新の大規模言語モデルであるDeepSeek-V4のDay 0適応を完了したことを発表しました。独自のNeuWareソフトウェア・エコシステムとvLLMフレームワークを使用しています。適応コードは同時にオープンソース化されており、

GateNews2時間前
コメント
0/400
コメントなし