Gate 广场创作者新春激励正式开启,发帖解锁 $60,000 豪华奖池
如何参与:
报名活动表单:https://www.gate.com/questionnaire/7315
使用广场任意发帖小工具,搭配文字发布内容即可
丰厚奖励一览:
发帖即可可瓜分 $25,000 奖池
10 位幸运用户:获得 1 GT + Gate 鸭舌帽
Top 发帖奖励:发帖与互动越多,排名越高,赢取 Gate 新年周边、Gate 双肩包等好礼
新手专属福利:首帖即得 $50 奖励,继续发帖还能瓜分 $10,000 新手奖池
活动时间:2026 年 1 月 8 日 16:00 – 1 月 26 日 24:00(UTC+8)
详情:https://www.gate.com/announcements/article/49112
DeepSeek宣布新架构mHC,采用创新的映射方法革新训练稳定性
1月1日、DeepSeek发布了最新的技术论文,提出了在大规模语言模型训练中的创新方法。该论文以利用映射这一基本数学概念为核心,介绍了一种新的架构“Manifold Constrained Hyperconnectivity(mHC)”。业界普遍关注这一技术,认为它可能为模型开发开辟新的方向。
超连接网络技术的挑战与创新解决方案
传统的超连接网络(HC)技术具有极高的灵活性,但在训练过程中也面临严重问题。具体而言,由于恒等映射特性的被破坏,导致训练不稳定和可扩展性受限。这些问题成为开发大规模模型的重大障碍。
DeepSeek发布的mHC架构为这些挑战提供了创新的解决方案。研究团队通过将HC的残差连接空间映射到特定的多样体,成功恢复了丧失的恒等映射特性。这一独创的映射方法显著提升了模型的基本稳定性。
多样体映射带来的技术创新与可扩展性提升
mHC架构的最大特点是结合严格的基础设施优化,实现高效性能。不同于传统的简单残差连接方法,利用复杂多样体的特性进行映射处理,使得训练过程更加精细化。
这一技术创新预计将极大改善训练的稳定性,并显著提升模型的可扩展性。据PANews报道,DeepSeek的研究团队预期,mHC架构将在大规模模型开发中成为实用且高效的扩展工具。
拓扑架构设计的新理解与未来展望
本论文由谢振达、魏一轩、曹欢奇三位研究员共同撰写,DeepSeek的创始人梁文峰也作为作者参与。研究团队表示,通过此次mHC架构的开发,对拓扑架构设计的理解得到了进一步深化。
融合复杂映射处理和多样体概念的这一方法,展现了基础模型演进的有希望的方向。业界普遍认为,这项技术将在AI模型的下一代开发中发挥重要作用,未来的应用前景令人期待。