AI 自我迭代自己，这不是营销话术。根据 OpenAI 内部揭露，GPT-5.3-Codex 在开发过程中做了这些事：分析训练日志标记失败的测试、给训练脚本和设定文件提建议修复方案、生成部署配方、总结评估异常供人类审查。这意味着什么？ AI 不再只是工具，它开始成为开发团队的一员，而且是能改进自己的那种。

这种自我参与开发的能力突破了传统 AI 的定位。以往 AI 模型完全由人类设计、训练和部署，AI 是被动的产物。现在GPT-5.3在自己的诞生过程中发挥了主动作用，虽然仍在人类监督下，但这种角色转变具有深远意义。它暗示了一种可能性：未来的 AI 模型可能大部分由 AI 自己设计和优化，人类仅提供方向和最终审查。

GPT-5.3 自我参与开发的四大行为

分析训练日志：自动标记失败测试，识别训练过程中的异常

建议修复方案：对训练脚本和配置文件提出改进建议

生成部署配方：自动化部署流程，减少人工作

总结评估异常：将复杂的评估结果整理成人类可理解的报告

MIT 最近发表的SEAL论文（arXiv：2506.10943）描述了一种能在部署后持续学习的AI架构，无需重新训练就能自我进化。值得注意的是，部分SEAL研究者现已加入OpenAI。这意味着 AI 从「静态工具」变成了「动态系统」，学习不再止步于部署，推理和训练的边界正在消融。 GPT-5.3 可能正是这种新架构的首个商业化应用。

77.3% 碾压 Claude 的基准测试屠杀

2月5日，OpenAI和Anthropic仅仅相隔20分钟，就都发表了新一代模型。先是Anthropic发布Claude Opus 4.6，接着OpenAI推出GPT-5.3-Codex，中门对狙。既然 OpenAI 想用 GPT-5.3-Codex 狙击别人家的新模型，那肯定得有点本事。数据不会骗人，GPT-5.3-Codex 一上线就在多个行业基准测试中刷新了纪录。

Terminal-Bench 2.0 测试 AI 在真实终端环境中的作能力，编译代码、训练模型、配置服务器这些实际工作。 GPT-5.3-Codex 得分 77.3%，而 GPT-5.2-Codex 只有 64.0%，Claude Opus 4.6 据报道是 65.4%。世代之间提升13个百分点，这在AI领域已经是个巨大的飞跃。 77.3% vs 65.4% 的对比显示，GPT-5.3 在实际工程任务上建立了显著优势。

SWE-Bench Pro 是一个专门测试真实软件工程能力的基准，涵盖 Python、JavaScript、Go、Ruby 四种编程语言。 GPT-5.3-Codex 拿下了 56.8% 的成绩，超过了前代 GPT-5.2-Codex 的 56.4%，继续保持行业第一。更关键的是，OpenAI 透露，GPT-5.3-Codex 在达到这个分数时使用的输出 token 数量是所有模型中最少的，这意味着它不仅准确，而且高效。

OSWorld-Verified 测试 AI 在可视化桌面环境中完成生产力任务的能力，编辑电子表格、制作简报、处理文件等。 GPT-5.3-Codex得分 64.7%，而人类的平均值是 72%。这意味着它在电脑作任务上已经接近普通人的表现，比前代几乎增加了一倍。这种接近人类水平的表现，使得 AI 首次能够真正胜任办公室工作，而非仅是辅助工具。

Claude 反击 100 万 Token 与 Agent Teams

更值得关注的是，Claude Opus 4.6首次在Opus级模型中支持100万 token 上下文视窗（beta），可以一次性处理整个代码库或数百页文档，并推出了 Agent Teams 功能，多个 AI 智能体可以同时协作编程、测试、写文档，这种「AI 团队作战」的模式，正在将编程从个人技能变成协作工作。

当OpenAI和Anthropic在同一天、同一时刻发布旗舰模型，这场竞争不再是单纯的技术比拼，而是关于AI未来形态的路线之争：是OpenAI的「自我进化」路线，还是Anthropic的「多智能体协作」路线？ OpenAI 的策略是让单一 AI 越来越强大，甚至能够改进自己。 Anthropic 的策略是让多个 AI 协作，通过分工和协同来完成复杂任务。

100 万 token 的上下文是技术突破。这相当于约 75 万个英文单词或 300 万个中文字符，足以容纳一个中型软件项目的全部代码或一本厚厚的技术文档。这种容量使得Claude能够「看到」整个项目的全貌，而非片段式理解。对于大型项目的架构分析和重构，这种全局视野至关重要。

Agent Teams 则是将协作概念引入 AI。一个 Agent 负责写代码，另一个负责测试，第三个负责写文档，它们之间可以通信和协调。这种模式模仿了人类软件团队的工作方式，可能比单一超级 AI 更适合某些场景。然而，多 Agent 协作也引入了新的复杂性：如何协调、如何避免冲突、如何保证一致性。

两种路线各有优劣。 OpenAI 的自我进化路线更激进，若成功可能引发指数级的能力提升，但也可能失控。 Anthropic 的多 Agent 路线更保守，通过分散能力来降低单点风险，但协调成本可能限制效率。当 AI 开始在野外进化，治理问题将从「它有多聪明」转向「我们如何管理一个持续变化的系统」。而当两家顶级AI公司在20分钟内连续发布突破性模型，留给人类思考和准备的时间窗口，正在以肉眼可见的速度缩小。

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

0/400

暂无评论