📢 Gate 广场|4/22 热议:#WCTC交易赛瓜分800万USDT
WCTC S8 开战倒计时 1 天!组队冲榜,瓜分 800 万 USDT 奖池!
战队赛独享 3,600,000 USDT,优先组队立领 3,000 USDT,新人报名即得 20 USDT 体验券,更有每日盲盒掉落 USDT、黄金及周边好礼!
🎁 广场限时加码(仓位体验券):
【幸运星】 随机抽 100 位战队分享者,每人 50U!
【实力派】 10 条优质参赛经验分享,每人 200U!
💬 本期有奖互动:
1️⃣ 发帖晒战队链接至广场,邀请队友集结
2️⃣ 分享您的交易策略或参赛经验
🔗 参赛入口:https://www.gate.com/competition/wctc-s8
🔗 立即分享:https://www.gate.com/post
📅 截止:4/24 18:00 (UTC+8)
🚨 ANTHROPIC 使用 CLAUDE OPUS 4.7 设定了新的基准
本次发布更侧重于可靠性和执行,而非纯粹的原始性能。
它引入了能够运行数小时而不偏离的代理,同时减少幻觉并改进校准。安全性也进一步增强,包括对提示注入和越狱尝试的更强抵抗能力。
该模型保留 1 million token 的上下文窗口,但现在在处理大规模输入时展现出更有效的检索与推理能力。
一个关键新增是“Routines”。
这些是由 API、日程安排或事件触发的持久化工作流程,使任务能够在后台自主运行。
这里是这种转变:
AI 正在从助手转向基础设施。
在 SWE-bench 上为 64.3%,高于 53.4%
在经过验证的代理式代码编写上为 87.6%
在扩展工具使用上为 77.3%
在真实世界计算机任务上为 78.0%
它也改善了模型通常会出现退化的地方:
在代理式搜索上为 79.3%
在金融分析上为 64.4%
在多语言问答上为 91.5%
而且,关键在于长上下文推理仍然稳得住:
借助工具的视觉推理超过 90%
在研究生水平的基准测试中为 94.2%
这里是要点:
这并不是为了追求峰值分数。
而是为了在各个领域保持一致性。
Opus 4.7 并不在每个类别中都称霸。
但它能在所有类别中都表现可靠。
这正是生产系统所需要的。
前沿不再只是智能。
而是在真实工作负载下的稳定性。