DeepSeek 的 V4 訓練數據翻倍至 33T,引發不穩定性並延遲發布

Gate 新聞訊息,4 月 24 日——DeepSeek 的 V4 技術報告顯示,V4-Flash 與 V4-Pro 分別在 32T 與 33T tokens 上進行預訓練,比用於 V3 的約 15T tokens 翻了一倍。報告承認在訓練過程中遇到「重大不穩定性挑戰」,損失尖峰反覆發生,原因是 Mixture-of-Experts (MoE) 層中的異常;而路由機制本身也會加劇這些異常,單純的回滾也無法解決問題。

DeepSeek 現已在實際訓練中採用了兩項解決方案:預判式路由(Anticipatory Routing),用於將路由索引計算與主幹網路更新解耦,僅在偵測到損失尖峰時自動觸發,並 (增加約 20% 的開銷);以及 SwiGLU 限幅(SwiGLU Clamping),透過將啟動值直接夾限到固定範圍來直接抑制異常。報告表示這兩種方法都有效,但也承認「底層原理仍未被充分理解」。

Susan Zhang 是一位 Google DeepMind 研究員,曾在 Meta AI 與 OpenAI 工作。她表示,因訓練數據翻倍所觸發的不穩定性「解釋了延遲」。她將這兩項解決方案稱為「補丁(band-aids)」,同時也承認 DeepSeek 的技術透明度。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

Cursor 揭選 XAI 訓練原因:算力被卡住,SpaceX 另握 600 億美元收購選擇權

Anysphere 公告稱 Cursor 將與 xAI 使用 Colossus 基礎設施訓練新模型以突破算力瓶頸;SpaceX 提出 600 億美元的收購選擇權(2026 年內可整體收購),不行就支付約 100 億美元作為合作補償。兩筆交易同時進行,重塑誰能訓練 Cursor 以及誰能買下 Cursor,Cursor 仍允許多模型後端,但長期走向取決於 SpaceX 是否行使收購權。

鏈新聞abmedia14分鐘前

Anthropic 二級市場估值破 1 兆美元:Forge Global 反超 OpenAI 的 8,800 億

根據 Decrypt 報導,Forge Global 的 Anthropic 二級估值約 1 兆美元,OpenAI 約 8,800 億美元,二級市場首次出現領先逆轉。Anthropic ARR 由 2025 底的約 90 億增至 2026 年 3 月約 300 億,三個月成長 233%,推升私募估值。二級估值與一級融資不同,反映退出信心;未來仍看技術、政策、商業與敘事四線道。

鏈新聞abmedia15分鐘前

Meta Platforms 將於 5 月 20 日裁減 10% 員工,影響約 8,000 個職位

Gate News 訊息,4 月 24 日——Meta Platforms 計劃在 5 月 20 日前裁減約 10% 的員工,影響約 8,000 個職位。裁員旨在提升營運效率,同時增加對人工智慧的投資。 所規劃的重組反映了

GateNews1小時前

川普政府公布打擊 AI 提煉計劃,控中企系統性竊取模型能力

白宮科技政策辦公室(OSTP)總統助理邁克爾·J·克拉齊奧斯(Michael J. Kratsios)於 4 月 23 日發表官方聲明,表示川普政府掌握信息,顯示外國實體(主要位於中國)正在蓄意針對美國大型人工智慧公司,透過「數萬個代理帳戶」及越獄技術系統性提取美國 AI 模型能力,並同步公布四項應對措施。

Market Whisper1小時前

DeepSeek 推出 V4 開源預覽版,技術評分 3206 超越 GPT-5.4

DeepSeek 於 4 月 24 日正式推出 V4 預覽版系列,以 MIT 許可協議開源,模型權重已同步上線 Hugging Face 及 ModelScope。根據 DeepSeek V4 技術報告,V4-Pro-Max(最高推理力度模式)在 Codeforces 基準取得 3206 分,超越 GPT-5.4。

Market Whisper1小時前

寒武紀完成 DeepSeek-V4 的第 0 天適配,為中國 AI 晶片生態系樹立里程碑

Gate News 訊息,4 月 24 日——寒武紀(Cambricon)今天宣布,已使用其專有 NeuWare 軟體生態系與 vLLM 框架完成 DeepSeek-V4 的第 0 天(Day 0)適配。DeepSeek-V4 是 DeepSeek 最新的大型語言模型。適配程式碼同時開源,標誌著

GateNews2小時前
留言
0/400
暫無留言