Gate 廣場“新星計劃”正式上線!
開啟加密創作之旅,瓜分月度 $10,000 獎勵!
參與資格:從未在 Gate 廣場發帖,或連續 7 天未發帖的創作者
立即報名:https://www.gate.com/questionnaire/7396
您將獲得:
💰 1,000 USDT 月度創作獎池 + 首帖 $50 倉位體驗券
🔥 半月度「爆款王」:Gate 50U 精美周邊
⭐ 月度前 10「新星英雄榜」+ 粉絲達標榜單 + 精選帖曝光扶持
加入 Gate 廣場,贏獎勵 ,拿流量,建立個人影響力!
詳情:https://www.gate.com/announcements/article/49672
DeepSeek宣布新架構mHC,透過獨創的映射方法革新訓練穩定性
1月1日、DeepSeek 發布了最新的技術論文,提出了在大型語言模型訓練中具有革新性的方案。該論文以利用映射這一基本數學概念為核心,介紹了一種新的架構「Manifold Constrained Hyperconnectivity(mHC)」。業界普遍認為,這項技術可能為模型開發指明新的方向。
超連結網路技術的挑戰與創新解決方案
傳統的超連結網路(HC)技術,雖然具有高度的彈性,但在訓練過程中遇到嚴重問題。具體而言,因為違反了恒等映射的特性,導致訓練不穩定和擴展性的限制,這些問題成為開發大規模模型的重大障礙。
DeepSeek 發布的 mHC 架構為這些挑戰提供了創新的解決方案。研究團隊通過將 HC 的剩餘連接空間映射到特定的多樣體,成功恢復了失去的恒等映射特性。這一獨創的映射方法大幅提升了模型的基本穩定性。
多樣體映射帶來的技術革新與擴展性提升
mHC 架構的最大特色在於,結合嚴格的基礎設施優化,實現高效運作與卓越性能。與傳統的簡單剩餘連接不同,利用多樣體的複雜特性進行映射處理,使得訓練流程更加精緻。
這項技術革新預計將大幅提升訓練的穩定性,並顯著改善模型的擴展能力。根據 PANews 的報導,DeepSeek 的研究團隊預計,這個 mHC 架構將成為開發大規模模型的實用且有效的擴展工具。
拓撲架構設計的新理解與未來展望
本論文由謝振達(Zhenda Xie)、韋奕軒(Yixuan Wei)、曹歡奇(Huanqi Cao)三位研究員共同撰寫,DeepSeek 創始人梁文峰(Wenfeng Liang)亦為作者之一。研究團隊表示,通過此次 mHC 架構的開發,對拓撲架構設計的理解更加深入。
融合了複雜映射處理與多樣體概念的這一方法,展現了基礎模型演進的有希望的方向。業界普遍認為,這項技術在 AI 模型的下一代開發中可能扮演重要角色,未來的應用前景令人期待。