史上首个 AI 造 AI!GPT-5.3 参与开发自己,科幻照进现实

Market Whisper

OpenAI 发布GPT-5.3-Codex,首个「参与创造自己」的模型,调试自己代码、管理部署、诊断测试。 Karpathy称此次改版「最接近 AI 起飞场景」。

AI 开始造 AI 的技术奇点突破

OpenAI 官方帐号发布:GPT-5.3-Codex 正式上线,这是「第一个参与创造自己的模型」。 什么意思? 就是说,这个 AI 在开发过程中,帮忙调试了自己的训练代码、管理了自己的部署流程、诊断了自己的测试结果。 说人话就是:AI 开始造 AI 了。

前OpenAI研究员、特斯拉AI总监Andrej Karpathy看完直接发推文:「这是我见过最接近科幻小说中AI起飞场景的东西。」这种来自顶级 AI 研究者的评价极具分量,因为 Karpathy 亲身经历了 AI 发展的多个关键阶段,他的判断基于深刻的技术理解。

AI 自我迭代自己,这不是营销话术。 根据 OpenAI 内部揭露,GPT-5.3-Codex 在开发过程中做了这些事:分析训练日志标记失败的测试、给训练脚本和设定文件提建议修复方案、生成部署配方、总结评估异常供人类审查。 这意味着什么? AI 不再只是工具,它开始成为开发团队的一员,而且是能改进自己的那种。

这种自我参与开发的能力突破了传统 AI 的定位。 以往 AI 模型完全由人类设计、训练和部署,AI 是被动的产物。 现在GPT-5.3在自己的诞生过程中发挥了主动作用,虽然仍在人类监督下,但这种角色转变具有深远意义。 它暗示了一种可能性:未来的 AI 模型可能大部分由 AI 自己设计和优化,人类仅提供方向和最终审查。

GPT-5.3 自我参与开发的四大行为

分析训练日志:自动标记失败测试,识别训练过程中的异常

建议修复方案:对训练脚本和配置文件提出改进建议

生成部署配方:自动化部署流程,减少人工作

总结评估异常:将复杂的评估结果整理成人类可理解的报告

MIT 最近发表的SEAL论文(arXiv:2506.10943)描述了一种能在部署后持续学习的AI架构,无需重新训练就能自我进化。 值得注意的是,部分SEAL研究者现已加入OpenAI。 这意味着 AI 从「静态工具」变成了「动态系统」,学习不再止步于部署,推理和训练的边界正在消融。 GPT-5.3 可能正是这种新架构的首个商业化应用。

77.3% 碾压 Claude 的基准测试屠杀

2月5日,OpenAI和Anthropic仅仅相隔20分钟,就都发表了新一代模型。 先是Anthropic发布Claude Opus 4.6,接着OpenAI推出GPT-5.3-Codex,中门对狙。 既然 OpenAI 想用 GPT-5.3-Codex 狙击别人家的新模型,那肯定得有点本事。 数据不会骗人,GPT-5.3-Codex 一上线就在多个行业基准测试中刷新了纪录。

Terminal-Bench 2.0 测试 AI 在真实终端环境中的作能力,编译代码、训练模型、配置服务器这些实际工作。 GPT-5.3-Codex 得分 77.3%,而 GPT-5.2-Codex 只有 64.0%,Claude Opus 4.6 据报道是 65.4%。 世代之间提升13个百分点,这在AI领域已经是个巨大的飞跃。 77.3% vs 65.4% 的对比显示,GPT-5.3 在实际工程任务上建立了显著优势。

SWE-Bench Pro 是一个专门测试真实软件工程能力的基准,涵盖 Python、JavaScript、Go、Ruby 四种编程语言。 GPT-5.3-Codex 拿下了 56.8% 的成绩,超过了前代 GPT-5.2-Codex 的 56.4%,继续保持行业第一。 更关键的是,OpenAI 透露,GPT-5.3-Codex 在达到这个分数时使用的输出 token 数量是所有模型中最少的,这意味着它不仅准确,而且高效。

OSWorld-Verified 测试 AI 在可视化桌面环境中完成生产力任务的能力,编辑电子表格、制作简报、处理文件等。 GPT-5.3-Codex得分 64.7%,而人类的平均值是 72%。 这意味着它在电脑作任务上已经接近普通人的表现,比前代几乎增加了一倍。 这种接近人类水平的表现,使得 AI 首次能够真正胜任办公室工作,而非仅是辅助工具。

Claude 反击 100 万 Token 与 Agent Teams

更值得关注的是,Claude Opus 4.6首次在Opus级模型中支持100万 token 上下文视窗(beta),可以一次性处理整个代码库或数百页文档,并推出了 Agent Teams 功能,多个 AI 智能体可以同时协作编程、测试、写文档,这种「AI 团队作战」的模式,正在将编程从个人技能变成协作工作。

当OpenAI和Anthropic在同一天、同一时刻发布旗舰模型,这场竞争不再是单纯的技术比拼,而是关于AI未来形态的路线之争:是OpenAI的「自我进化」路线,还是Anthropic的「多智能体协作」路线? OpenAI 的策略是让单一 AI 越来越强大,甚至能够改进自己。 Anthropic 的策略是让多个 AI 协作,通过分工和协同来完成复杂任务。

100 万 token 的上下文是技术突破。 这相当于约 75 万个英文单词或 300 万个中文字符,足以容纳一个中型软件项目的全部代码或一本厚厚的技术文档。 这种容量使得Claude能够「看到」整个项目的全貌,而非片段式理解。 对于大型项目的架构分析和重构,这种全局视野至关重要。

Agent Teams 则是将协作概念引入 AI。 一个 Agent 负责写代码,另一个负责测试,第三个负责写文档,它们之间可以通信和协调。 这种模式模仿了人类软件团队的工作方式,可能比单一超级 AI 更适合某些场景。 然而,多 Agent 协作也引入了新的复杂性:如何协调、如何避免冲突、如何保证一致性。

两种路线各有优劣。 OpenAI 的自我进化路线更激进,若成功可能引发指数级的能力提升,但也可能失控。 Anthropic 的多 Agent 路线更保守,通过分散能力来降低单点风险,但协调成本可能限制效率。 当 AI 开始在野外进化,治理问题将从「它有多聪明」转向「我们如何管理一个持续变化的系统」。 而当两家顶级AI公司在20分钟内连续发布突破性模型,留给人类思考和准备的时间窗口,正在以肉眼可见的速度缩小。

查看原文
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

日元稳定币:日本能否撬动全球40万亿美元链上套利交易?

日本正积极推进日元稳定币以重塑其在全球金融市场的地位,旨在通过链上套利交易强化日元的核心作用。尽管面临流动性、监管和散户参与等挑战,但其成功将为链上金融带来重要的非美元资产基础。

PANews15 分钟前

TradFi上涨提醒:VIX上涨超3%

Gate News bot 消息,据 Gate TradFi 最新数据,VIX短时上涨 3% ,当前波动幅度明显高于近期平均水平,市场活跃度上升。

GateNews1小时前

70% 资产重押比特币!墨西哥富豪喊「趁打折快买」、富爸爸也加码

墨西哥富豪Ricardo Salinas Pliego重押比特币,认为其能防范通胀并象征个人自由。清崎警告股市崩盘即将来临,持续加码比特币及贵金属,信心不减。他们皆认为比特币具有长期价值潜力,当前价格回落是购买良机。

区块客1小时前

数据:今日美国比特币 ETF 净流入 5,187 枚 BTC,以太坊 ETF 净流入 43,282 枚 ETH

ChainCatcher 消息,据 Lookonchain 监测,今日 10 只比特币 ETF 净流入 5,187 枚 BTC(价值 3.7608 亿美元),9 只以太坊 ETF 净流入 43,282 枚 ETH(价值 9176 万美元),SOL ETF 净流入 205,711 枚 SOL(价值 1872 万美元)。

GateNews1小时前

花旗推動「比特幣銀行化」:力拚今年啟動「機構級託管」、「跨資產抵押」服務

花旗集团正在推动比特币的银行化,计划将其深度整合到传统金融体系中,预计于2026年启动机构级的加密托管服务。通过简化比特币交易流程并降低操作摩擦,花旗希望吸引更多机构进一步采用数字资产。此外,该行也在探索稳定币和区块链存款代币的应用,期望为传统金融机构提供便利的资本运用方式。

区块客1小时前

当亚太股市杀到熔断,为什么比特币风景独好?

作者:Jae,PANews 3 月 4 日,隨著中東局勢驟然惡化,全球金融市場瞬間進入「戰時狀態」。對於全球投資者而言,這是一個足以載入史冊的交易日。 全球能源咽喉荷姆茲海峽航運受阻引發國際油價大幅飆升,恐慌情緒快速席捲傳統資本市場,亞太股市遭遇史詩級拋售潮。 韓國 KOSPI 單日暴跌 12%,創史上最大跌幅;日經 225 重挫 3.7%,寫下五個月最糟表現;中東本土股市在補跌中一度狂瀉近 5%;歐美主要股指全線收跌。 然而,一個反常的現象卻在這場拋售潮中悄悄浮現。 那個通常被視為「高風險、高波動」的加密市場,在任何地緣危機中都會率先崩盤的資產類別,這一次,竟然穩住了。 比特幣在短暫的恐慌

区块客1小时前
评论
0/400
暂无评论