寒武纪完成 DeepSeek-V4 的 Day 0 适配,成为中国 AI 芯片生态的重要里程碑

Gate 新闻消息,4月24日——寒武纪今天宣布,它已完成 DeepSeek-V4 的 Day 0 适配。DeepSeek-V4 是 DeepSeek 最新的大型语言模型。寒武纪使用其专有的 NeuWare 软件生态系统以及 vLLM 框架完成了该适配。适配代码已同步开源,标志着寒武纪连续第二次在 DeepSeek 新模型发布当天交付原生芯片支持。

为优化 DeepSeek-V4 的新颖架构,寒武纪借助其高性能 Torch-MLU-Ops 算子库,对包括 Compressor 和 mHC 在内的模块进行专门的加速。公司还使用 BangC 编程语言,为诸如稀疏/压缩 Attention 和 GroupGemm 等关键算子开发了高度优化的内核,从而充分利用了硬件底层能力。此前两家公司在软件与硬件协同优化方面的努力,已取得了行业领先的计算利用率。

DeepSeek-V4 于今日发布并开源,具备百万令牌级的扩展上下文窗口,强大的 Agent 能力,以及出色的推理性能。寒武纪表示,DeepSeek-V4 在寒武纪芯片上实现原生运行,代表了中国 AI 产业的重大里程碑。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

Meta Platforms 计划于5月20日进行10%的员工规模削减,影响大约8,000个岗位

Gate News 消息,4月24日——Meta Platforms 计划于5月20日将其员工规模减少约10%,影响大约8,000个岗位。这次裁员旨在提高运营效率,同时增加对人工智能的投资。 所计划的重组体现了该公司向优先发展人工智能与优化运营的战略转变。

GateNews27 分钟前

川普政府公布打击 AI 提炼计划,控中企系统性窃取模型能力

白宫科技政策办公室(OSTP)总统助理迈克尔·J·克拉齐奥斯(Michael J. Kratsios)于 4 月 23 日发布官方声明,表示特朗普政府掌握信息,显示外国实体(主要位于中国)正在蓄意针对美国大型人工智能公司,通过“数万个代理账户”及越狱技术系统性提取美国 AI 模型能力,并同步公布四项应对措施。

Market Whisper50 分钟前

DeepSeek 推出 V4 开源预览版,技术评分 3206 超越 GPT-5.4

DeepSeek 于 4 月 24 日正式推出 V4 预览版系列,以 MIT 许可协议开源,模型权重已同步上线 Hugging Face 及 ModelScope。根据 DeepSeek V4 技术报告,V4-Pro-Max(最高推理力度模式)在 Codeforces 基准取得 3206 分,超越 GPT-5.4。

Market Whisper1小时前

腾讯开源 Hy3 预览版,代码基准测试较前代提升 40%

腾讯于 4 月 23 日在 GitHub、Hugging Face 及 ModelScope 平台正式开源 Hy3 预览版大型语言模型,并同步于腾讯云端(Tencent Cloud)提供付费 API 服务。据 Decrypt 于 4 月 24 日报道,Hy3 预览版自 1 月下旬启动训练,截至发布时间历时不足三个月。

Market Whisper1小时前

如果不破产,FTX 的投资组合价值达 158 万亿韩元

FTX,这家在2022年11月因流动性短缺和资本外流而申请第11章破产保护的中心化加密货币交易所,如果没有崩溃,据Park引用的分析称,本可持有约158.796万亿韩元的投资。

Crypto Frontier1小时前

小米披露 MiMo-V2-Pro 训练细节:1T 模型参数,部署成千上万台 GPU

Gate News 消息,4月24日——小米的大语言模型团队负责人罗福丽在一场深入采访中透露,MiMo-V2-Pro 模型的总参数量达到 1 万亿,并且训练过程中需要成千上万台 GPU。她表示,1T 规模代表要实现接近 Claude Opus 4.6 等级的性能,并为下一阶段 AI 智能体抢占具备竞争力的入场券所达到的最低门槛

GateNews1小时前
评论
0/400
暂无评论