国产之光DeepSeek-V4刚刚开源,直接砸出100万字超长上下文!


DeepSeek-V4引入了全新的注意力机制并在token维度进行压缩,结合DSA稀疏注意力(DeepSeek Sparse Attention),降低了处理极长上下文时的算力和显存消耗。
测试数据显示,在Agentic Coding(代理化编程)评测中,V4-Pro的表现已优于业内常用的Sonnet 4.5,并接近Opus 4.6非思考模式的水平。
针对不同市场需求,DeepSeek实行了双线策略:Pro版本主攻高难度推理和世界知识,而参数量更小的Flash版本则负责提供极低成本的API调用。
post-image
post-image
post-image
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论