DeepSeek 发布 V4 开源模型系列:1.6T 参数与 MIT 许可

Gate News 消息,4 月 24 日——DeepSeek 已在 MIT 授权下发布 V4 系列开源模型,权重现已在 Hugging Face 和 ModelScope 上提供。该系列包含两个 (MoE) 混合专家(Mixture-of-Experts)模型:V4-Pro 总参数 1.6 万亿、每 token 激活 49 亿,以及 V4-Flash 总参数 2840 亿、每 token 激活 13 亿。两者都支持 100 万 token 的上下文窗口。

该架构包含三项关键升级:混合注意力机制,将压缩稀疏注意力 (CSA) 与高度压缩注意力 (HCA) 结合,大幅降低长上下文开销——V4-Pro 在 100 万上下文下的推理 FLOPs 仅为 V3.2 的 27%,用于推理过程中存储历史信息的 KV cache (VRAM) 也仅为 V3.2 的 10%;用流形约束超连接 (mHC) 替代传统残差连接,以增强跨层信号传播稳定性;以及用于更快训练收敛的 Muon 优化器。预训练使用了超过 32 万亿个 token 的数据。

后训练采用两阶段策略:首先通过监督微调 (SFT) 和基于 GRPO 的强化学习训练领域专属专家,然后通过在线蒸馏将它们合并为单一模型。V4-Pro-Max (最高推理模式) 宣称是最强的开源模型,拥有顶级编码基准,并在推理与智能体任务上显著缩小了与闭源前沿模型之间的差距。V4-Flash-Max 在足够的计算预算下达到 Pro 级推理性能,但在纯知识与复杂智能体任务上会受限于参数规模。权重以混合 FP4+FP8 精度存储。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

V4-Pro 在內部自我測試中達到 67% 程式通過率,接近 Opus 4.5 的效能

Gate News 消息,4 月 24 日 — V4 已公開披露其 V4-Pro 模型的內部自我測試(dogfooding)數據。該公司從超過 50 位工程師收集了約 200 項真實世界的工程任務,涵蓋功能開發、錯誤修復、重構以及跨技術棧的診斷,包括

GateNews8分鐘前

英國著眼 Anthropic AI 以強化銀行業網路安全

英國正透過與 AI 公司 Anthropic 合作,探索金融資安領域的一項重大舉措。早期討論顯示,政府可能會將 Anthropic 的先進 Claude Mythos 模型部署於各銀行與金融機構。此舉旨在加強防禦,因為網路威脅

CryptoMeter io13分鐘前

中國的知識產權局將AI、半導體與腦機介面納入加速保護計畫

閘道新聞訊息,4月24日——中國國家知識產權局於4月24日宣布,將透過制度改革、強化服務與擴大應用,為新興技術建立全面的知識產權保護。該局將

GateNews20分鐘前

美國政府在不挖礦的情況下運行比特幣節點,海軍上將表示

一位資深海軍上將已指出,美國政府正在積極在比特幣網路上運行一個節點,同時刻意避免參與挖礦活動。這項披露暗示,當局正在對區塊鏈基礎設施扮演更深入的角色,以進行監督與

Crypto Frontier36分鐘前

特斯拉 Q1 營收年增 16% 至 224 億美元;人形機器人將於 2026 年年中亮相

Gate News 訊息,4 月 24 日 — 特斯拉在 4 月 23 日公布其第一季度營收為 224 億美元,年增 16%。該公司全球汽車交付量超過 358,000 輛,而產量則突破 408,000 輛。 特斯拉的上海 Gigafactory 在本季度交付了 213,000 輛車,較去年同期成長 23.5%.

GateNews36分鐘前

SK Hynix Q1 利潤飆升五倍創紀錄,AI 熱潮帶動員工獎金至 878K 美元

門戶新聞訊息,4月24日——SK Hynix發布消息稱,其季度營業利潤在4月23日飆升五倍,創下紀錄,達到37.61兆韓元 ($32.4 billion),主要受人工智慧與資料中心需求激增帶動。這筆意外之財正在推動前所未有的員工獎金,分析師認為

GateNews1小時前
留言
0/400
暫無留言