
OpenAI 发布GPT-5.3-Codex,首个「参与创造自己」的模型,调试自己代码、管理部署、诊断测试。 Karpathy称此次改版「最接近 AI 起飞场景」。
OpenAI 官方帐号发布:GPT-5.3-Codex 正式上线,这是「第一个参与创造自己的模型」。 什么意思? 就是说,这个 AI 在开发过程中,帮忙调试了自己的训练代码、管理了自己的部署流程、诊断了自己的测试结果。 说人话就是:AI 开始造 AI 了。
前OpenAI研究员、特斯拉AI总监Andrej Karpathy看完直接发推文:「这是我见过最接近科幻小说中AI起飞场景的东西。」这种来自顶级 AI 研究者的评价极具分量,因为 Karpathy 亲身经历了 AI 发展的多个关键阶段,他的判断基于深刻的技术理解。
AI 自我迭代自己,这不是营销话术。 根据 OpenAI 内部揭露,GPT-5.3-Codex 在开发过程中做了这些事:分析训练日志标记失败的测试、给训练脚本和设定文件提建议修复方案、生成部署配方、总结评估异常供人类审查。 这意味着什么? AI 不再只是工具,它开始成为开发团队的一员,而且是能改进自己的那种。
这种自我参与开发的能力突破了传统 AI 的定位。 以往 AI 模型完全由人类设计、训练和部署,AI 是被动的产物。 现在GPT-5.3在自己的诞生过程中发挥了主动作用,虽然仍在人类监督下,但这种角色转变具有深远意义。 它暗示了一种可能性:未来的 AI 模型可能大部分由 AI 自己设计和优化,人类仅提供方向和最终审查。
分析训练日志:自动标记失败测试,识别训练过程中的异常
建议修复方案:对训练脚本和配置文件提出改进建议
生成部署配方:自动化部署流程,减少人工作
总结评估异常:将复杂的评估结果整理成人类可理解的报告
MIT 最近发表的SEAL论文(arXiv:2506.10943)描述了一种能在部署后持续学习的AI架构,无需重新训练就能自我进化。 值得注意的是,部分SEAL研究者现已加入OpenAI。 这意味着 AI 从「静态工具」变成了「动态系统」,学习不再止步于部署,推理和训练的边界正在消融。 GPT-5.3 可能正是这种新架构的首个商业化应用。
2月5日,OpenAI和Anthropic仅仅相隔20分钟,就都发表了新一代模型。 先是Anthropic发布Claude Opus 4.6,接着OpenAI推出GPT-5.3-Codex,中门对狙。 既然 OpenAI 想用 GPT-5.3-Codex 狙击别人家的新模型,那肯定得有点本事。 数据不会骗人,GPT-5.3-Codex 一上线就在多个行业基准测试中刷新了纪录。
Terminal-Bench 2.0 测试 AI 在真实终端环境中的作能力,编译代码、训练模型、配置服务器这些实际工作。 GPT-5.3-Codex 得分 77.3%,而 GPT-5.2-Codex 只有 64.0%,Claude Opus 4.6 据报道是 65.4%。 世代之间提升13个百分点,这在AI领域已经是个巨大的飞跃。 77.3% vs 65.4% 的对比显示,GPT-5.3 在实际工程任务上建立了显著优势。
SWE-Bench Pro 是一个专门测试真实软件工程能力的基准,涵盖 Python、JavaScript、Go、Ruby 四种编程语言。 GPT-5.3-Codex 拿下了 56.8% 的成绩,超过了前代 GPT-5.2-Codex 的 56.4%,继续保持行业第一。 更关键的是,OpenAI 透露,GPT-5.3-Codex 在达到这个分数时使用的输出 token 数量是所有模型中最少的,这意味着它不仅准确,而且高效。
OSWorld-Verified 测试 AI 在可视化桌面环境中完成生产力任务的能力,编辑电子表格、制作简报、处理文件等。 GPT-5.3-Codex得分 64.7%,而人类的平均值是 72%。 这意味着它在电脑作任务上已经接近普通人的表现,比前代几乎增加了一倍。 这种接近人类水平的表现,使得 AI 首次能够真正胜任办公室工作,而非仅是辅助工具。
更值得关注的是,Claude Opus 4.6首次在Opus级模型中支持100万 token 上下文视窗(beta),可以一次性处理整个代码库或数百页文档,并推出了 Agent Teams 功能,多个 AI 智能体可以同时协作编程、测试、写文档,这种「AI 团队作战」的模式,正在将编程从个人技能变成协作工作。
当OpenAI和Anthropic在同一天、同一时刻发布旗舰模型,这场竞争不再是单纯的技术比拼,而是关于AI未来形态的路线之争:是OpenAI的「自我进化」路线,还是Anthropic的「多智能体协作」路线? OpenAI 的策略是让单一 AI 越来越强大,甚至能够改进自己。 Anthropic 的策略是让多个 AI 协作,通过分工和协同来完成复杂任务。
100 万 token 的上下文是技术突破。 这相当于约 75 万个英文单词或 300 万个中文字符,足以容纳一个中型软件项目的全部代码或一本厚厚的技术文档。 这种容量使得Claude能够「看到」整个项目的全貌,而非片段式理解。 对于大型项目的架构分析和重构,这种全局视野至关重要。
Agent Teams 则是将协作概念引入 AI。 一个 Agent 负责写代码,另一个负责测试,第三个负责写文档,它们之间可以通信和协调。 这种模式模仿了人类软件团队的工作方式,可能比单一超级 AI 更适合某些场景。 然而,多 Agent 协作也引入了新的复杂性:如何协调、如何避免冲突、如何保证一致性。
两种路线各有优劣。 OpenAI 的自我进化路线更激进,若成功可能引发指数级的能力提升,但也可能失控。 Anthropic 的多 Agent 路线更保守,通过分散能力来降低单点风险,但协调成本可能限制效率。 当 AI 开始在野外进化,治理问题将从「它有多聪明」转向「我们如何管理一个持续变化的系统」。 而当两家顶级AI公司在20分钟内连续发布突破性模型,留给人类思考和准备的时间窗口,正在以肉眼可见的速度缩小。
相关文章