重塑2025的六大AI突破:安德烈·卡帕蒂所看中的正确之处

安德烈·卡帕西,一位全球最具影响力的人工智能研究员之一,分享了他对2025年正在重塑人工智能的变革性变化的个人看法。他的观察不仅揭示了去年发生了什么,还指明了整个行业的未来方向。在强化学习突破、新应用范式以及人类与AI交互方式的根本转变之间,行业的发展速度超出了大多数人的预期。

RLVR:取代监督学习的新基础

当基于可验证奖励的强化学习(RLVR)从实验阶段迈入主流时,AI训练手册进入了新篇章。根据安德烈·卡帕西的分析,这一转变从根本上改变了生产级语言模型的面貌。

多年来,标准流程如下:预训练→监督微调→来自人类反馈的强化学习(RLHF)。这一流程稳定、经过验证,成为主要AI实验室的支柱。但在2025年,某些事情发生了变化。

RLVR通过在具有自动可验证奖励信号的环境中训练模型,改变了游戏规则——比如数学题有明确的正确答案,或编码挑战中代码要么运行要么不运行。它们不再依赖人类判断,而是通过这些客观反馈机制,让模型发展出类似真正推理的能力。它们学会将问题分解为中间步骤,并通过迭代优化发现多种解决路径。

DeepSeek-R1首次验证了这一原理,但OpenAI的o1(2024年晚)和o3(2025年初)证明了其可扩展性。正如安德烈·卡帕西所指出,令他最惊讶的并非性能的飞跃,而是巨大的计算资源转移。RLVR的计算消耗远远超过传统微调,基本上重新分配了原本用于预训练的资源。这意味着2025年的能力提升不是通过训练更大的模型实现的,而是通过训练更聪明的模型,延长了优化阶段。

另一个突破是:这种新方法开启了一个全新的扩展维度——在测试时通过延长推理轨迹和赋予更多“思考时间”来调节模型能力。这将能力扩展与模型规模解耦,之前这是不可能的。

幽灵智能与锯齿性能

安德烈·卡帕西提出了一个重新定义行业对AI认知的概念:我们不是在进化动物,而是在召唤幽灵。

整个训练体系在根本上不同——神经架构、数据、算法,尤其是优化目标。因此,大型语言模型展现出的智能与生物大脑截然不同也就不足为奇。将它们与动物或生物智能相提并论,完全偏离了重点。

人类神经网络由部落生态系统中的生存需求塑造。AI模型则被塑造成模仿文本、解决数学难题、在竞赛基准中赢得人类认可。当你为如此不同的目标优化时,输出也会大不相同。

这导致一种奇特的性能特征:锯齿状、起伏不定的能力曲线。模型一会儿展现百科全书般的知识,一会儿又陷入幼儿园水平的推理。它们在可验证的领域表现出色,但在开放式任务中却屡屡失误。这种能力的起伏并非漏洞,而是训练机制的直接结果。

在这里,安德烈·卡帕西的怀疑态度变得尤为重要:他在2025年提出了“对基准的普遍漠不关心”。原因很简单——基准是可验证的环境,极易被RLVR过拟合。团队不可避免地在训练空间中构建接近基准的嵌入,并用狭窄的能力进行饱和。“在测试集上训练”成为行业常态。扫清所有基准已不再代表真正的AGI进展。

光标:应用层的崛起

2025年,光标的爆炸性增长揭示了一个关键点:AI应用层出现了一个全新的层级。

根据安德烈·卡帕西的观点,光标之所以有效,是因为它解决了一个特定的垂直问题——在实际开发流程中的代码生成,而不是因为它是一个更好的通用聊天机器人。支撑像光标这样的工具的架构包括三个集成组件:上下文工程(提取相关信息),将多个大模型调用编排成越来越复杂的有向无环图(在性能与成本之间权衡),以及具有人工干预控制的特定应用用户界面。

这引发了更广泛的讨论:像OpenAI的API(这样的庞大语言模型平台会统治整个应用层,还是专业化工具会繁荣?安德烈·卡帕西的预测是:平台将逐渐演变成“通才大学”,产出能力强但不专精的模型。真正的价值将流向那些将这些能力模型微调为专有数据、集成传感器和执行器,并将其转化为可在特定垂直领域部署的“专业团队”的应用层公司。

这意味着:光标不是终点,而是模板。预计会有许多垂直行业的工具沿用同样的玩法。

Claude Code:本地运行的智能体

Claude Code的出现引起了安德烈·卡帕西的注意:高效的AI智能体不一定非要存在于云端。

这项技术通过在循环中使用工具和推理,实现了比简单聊天界面更持久、更复杂的问题解决能力。但真正让安德烈·卡帕西印象深刻的是架构选择:Claude Code直接在用户的电脑上运行,深度嵌入本地文件、个人环境和工作流程中。

这代表了与OpenAI战略方向的有意偏离。OpenAI大量投资于在容器化的ChatGPT环境中协调的云端智能体。而那种方式承诺了“终极形式的AGI”,但目前仍处于不平衡的发展阶段,尚未验证其优势。

本地部署智能体——贴近开发者、紧密集成其特定工作环境——目前更快、更实用。Claude Code抓住了这一重点,将其打包成一个优雅的命令行工具,根本改变了AI的交互界面。这不再只是一个像Google那样的网站,而是一个生活在你电脑里的微型精灵,直接与你的工作流程协作。这是人机交互的全新范式。

Vibe Coding:无需代码的编程

到2025年,AI跨越了一个关键门槛:你可以用英语描述你想要的,然后让可用的软件自动生成,而无需理解底层实现。

安德烈·卡帕西在Twitter上随意提出了“Vibe Coding”这个术语,没想到它会成为行业趋势。但它完美地捕捉了发生的变化——编程变得对所有人都变得易于接近,而不仅仅是专业人士。

这与安德烈·卡帕西发现的一个更广泛的模式有关:普通人比专家更能从大型语言模型中受益。专业人士已经拥有工具和深厚的知识。普通人则无法构建任何东西。现在,他们可以。

但Vibe Coding对专业人士也有不同的益处。它使开发者能够实现“否则永远不会写出来”的功能,因为代码变得免费、短暂且可抛弃。在构建nanochat时,安德烈·卡帕西利用Vibe Coding用Rust编写了定制的高效BPE分词器,而无需学习语言或依赖现有库。他纯粹为了测试可行性,原型化了整个系统。他还编写了只为调试特定漏洞的一次性应用。

这种经济转变——代码零切换成本——将重塑软件开发生态系统,并永久重新划定编程领域的职业边界。

Nano Banana:LLMs终于拥有用户界面

谷歌的Gemini Nano突破——安德烈·卡帕西称之为“Nano Banana”——代表了2025年最具颠覆性的范式转变之一。

安德烈·卡帕西直截了当地描述:大型语言模型代表了继20世纪70-80年代PC时代之后的下一大计算范式。因此,我们应预期类似的创新,原因类似——与个人计算、微控制器和互联网的演变相呼应。

目前的人机交互仍类似于1980年代的命令行终端。文本占据主导地位,尽管对计算机来说是原始的,对人类来说也是错误的格式。人们觉得阅读文本既慢又痛苦。他们更喜欢视觉和空间渠道——这正是图形用户界面在几十年前改变个人计算的原因。

同样的原则也适用于AI:模型应通过图像、信息图、幻灯片、白板、视频、网页应用——任何人类真正偏好的格式进行交流。早期的尝试包括“视觉文本装饰”,如表情符号和Markdown格式。但最终谁会构建完整的AI图形界面层?

Nano Banana是未来的早期原型。它的突破不仅在于图像生成,更在于其集成能力——文本生成、图像生成和具象世界知识都融入模型权重中。这种融合创造了一种根本不同的界面范式,超越了纯文本模型。

汇聚:安德烈·卡帕西对未来的展望

这六个变革并非孤立存在。安德烈·卡帕西的观察揭示了行业的转型:从纯粹的模型扩展,转向更智能的训练方法和专业化应用;从云端的通用模型,转向本地部署、与人类工作流程集成的智能体;从以文本为中心的界面,转向视觉和空间的交流。

2025年证明,人工智能不仅仅是逐步变得更好。它从根本上重组了训练、部署和沟通的方式。下一阶段将属于那些最先掌握这些新范式的人。

SIX1.06%
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)