Yifan Zhang 揭露 DeepSeek V4 完整技術規格:1.6T 參數、384 位專家(6 次啟用)

Gate News 訊息,4 月 22 日——普林斯頓博士生 Yifan Zhang 在 X 上披露 DeepSeek V4 的完整技術規格,該內容在 4 月 19 日的預告之後發布。V4 具備 1.6 兆(1.6 trillion)總參數,並有輕量版本 V4-Lite,其參數為 2850 億(285 billion)。

該模型採用 DSA2 注意力機制,結合 DeepSeek 先前在 V3.2 的 DSA (DeepSeek Sparse Attention) 與 NSA (Native Sparse Attention)(含 512 維的頭部嵌入),並搭配稀疏多查詢注意力 (MQA) 與滑動視窗注意力 (SWA)。MoE (Mixture of Experts) 層包含 384 位專家,每次前向傳播啟用 6 位,並使用 Fused MoE Mega-Kernel。殘差連接採用 Hyper-Connections 架構。

首次揭露的訓練細節包括使用 Muon 優化器 (applying Newton-Schulz orthogonalization to momentum updates) 來處理動量更新、32K token 的預訓練上下文視窗,以及 GRPO (Group Relative Policy Optimization),並在強化學習期間使用 KL 散度校正。最終上下文視窗擴展至 100 萬(1 million)tokens。該模型為僅文字模型。

Zhang 並未受僱於 DeepSeek,公司也尚未對所披露資訊作出正式評論。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

阿里巴巴 Qwen 向外部夥伴開放 AI 服務;中國東方航空首家完成整合

阿里巴巴向外部合作夥伴開放 Qwen AI 服務;中國東方航空成為第一家非阿里巴巴的外部企業,部署端到端的 AI 航班訂位服務,讓用戶能夠請求像是經濟實惠的直飛航班或寬敞座位等選項。

GateNews18分鐘前

Microsoft 整合 Anthropic 的 Claude Mythos Preview 以偵測軟體弱點

Gate News 訊息,4 月 23 日 — Microsoft 正在將 Anthropic 的 Claude Mythos Preview AI 模型整合到其安全開發生命週期中,以更早辨識軟體缺陷並加速修復。該公司在開放原始碼基準測試中的結果顯示,Mythos 在

GateNews19分鐘前

Google 推出分別用於訓練與推論的 AI 晶片,性能最高提升 2.8 倍

Gate News 訊息,4 月 23 日——Google 在 4 月 22 日宣布,將於今年晚些時候推出分別用於訓練與推論的第八代 TPU 晶片,取代其先前採用的整合式設計。此舉鎖定 AI 代理(agent)工作負載,並為 Google Cloud 客戶提供替代 Nvidia 的方案

GateNews38分鐘前

Liquid Capital 創辦人:加密 VC 失敗源於與 Web2 不匹配;AI + 金融帶來新機會

Gate News 訊息,4 月 23 日——Liquid Capital 創辦人 Jack Yi 在 X 上表示,過去的加密貨幣風險投資(VC)與專案失敗,主要是因為團隊在以 Web2 為錯誤基準進行對標時,浪費資本開發不必要的 Web3 產品。Yi 指出,Web3 從本質上是一個金融

GateNews51分鐘前

若破產清算財產未出售 Anthropic、Solana、SpaceX 等持股,FTX 將持有 $114B 資產

根據 Cointelegraph,FTX 未清算的持股價值合計約 $114B ,其中包含 Anthropic 82.3B、SpaceX 15B、Solana 5.1B、Cursor 3B、Robinhood 4.9B,以及 Genesis Digital 3.5B。 摘要:若 FTX 的破產清算財產先前未出售其持股,它將持有約 $114 十億美元資產,資產規模由 Anthropic 與 SpaceX 領先,凸顯投資組合中巨大的未實現收益,同樣依據 Cointelegraph。

GateNews51分鐘前

輝達 H200 出貨至中國因核准延遲、條款爭議

美國商務部長霍華德・盧特尼克(Howard Lutnick)表示,根據路透社報導,4月22日稱,輝達尚未向中國客戶出售其 H200 AI 晶片,理由是北京方面尚未核准,且中國將投資優先給本土供應商。 川普政府已放行了一些前往中國的 H200

Crypto Frontier1小時前
留言
0/400
暫無留言