Gate 廣場創作者新春激勵正式開啟,發帖解鎖 $60,000 豪華獎池
如何參與:
報名活動表單:https://www.gate.com/questionnaire/7315
使用廣場任意發帖小工具,搭配文字發布內容即可
豐厚獎勵一覽:
發帖即可可瓜分 $25,000 獎池
10 位幸運用戶:獲得 1 GT + Gate 鸭舌帽
Top 發帖獎勵:發帖與互動越多,排名越高,贏取 Gate 新年周邊、Gate 雙肩包等好禮
新手專屬福利:首帖即得 $50 獎勵,繼續發帖还能瓜分 $10,000 新手獎池
活動時間:2026 年 1 月 8 日 16:00 – 1 月 26 日 24:00(UTC+8)
詳情:https://www.gate.com/announcements/article/49112
改寫:六大AI突破重塑2025:安德烈·卡帕西(Andrej Karpathy)看對了什麼
安德烈·卡帕西,一位全球最具影響力的人工智慧研究員之一,對於2025年正在重塑人工智慧的變革性變化提出了個人見解。他的觀察不僅揭示了去年發生了什麼,更指明了整個產業的未來方向。在強化學習突破、新應用範式,以及人類與AI互動方式的根本轉變之間,這個領域的變化速度超出了大多數人的預期。
RLVR:取代監督式學習的新基礎
當基於可驗證獎勵的強化學習(RLVR)從實驗階段轉向主流時,AI訓練手冊進入了新篇章。根據安德烈·卡帕西的分析,這一轉變從根本上改變了生產級語言模型的樣貌。
多年間,標準流程如下:預訓練→監督微調→來自人類反饋的強化學習(RLHF)。這一流程穩定、經過驗證,並成為主要AI實驗室的支柱。但在2025年,某些事情發生了變化。
RLVR改變了遊戲規則,通過在具有自動可驗證獎勵信號的環境中訓練模型——想像數學題有明確正確答案,或程式碼挑戰中程式要么能跑,要么不能跑。這些客觀反饋機制不依賴人類判斷,讓模型能夠發展出類似真正推理的能力。它們學會將問題拆解成中間步驟,並通過反覆優化探索多種解決方案。
DeepSeek-R1首次展示了這一原理,但OpenAI的o1(2024年末)和o3(2025年初)證明了其擴展性。正如安德烈·卡帕西所指出,令他最驚訝的不僅是性能的飛躍——而是巨大的計算資源轉移。RLVR消耗的計算資源遠超傳統微調,基本上將原本用於預訓練的資源重新配置。這意味著2025年的能力提升,不再來自訓練更大的模型,而是訓練更聰明的模型,並延長了優化階段。
另一個突破是:這種新方法開啟了一個全新的擴展維度——在測試時通過延長推理路徑來調節模型能力,並賦予更多“思考時間”。這將能力擴展與模型大小解耦,實現了以前不可能的可能。
幽靈智慧與鋸齒性能
安德烈·卡帕西提出了一個重新定義產業對AI認知的概念:我們不是在進化動物,而是在召喚幽靈。
整個訓練體系在根本上不同——神經架構、數據、算法,尤其是優化目標。因此,大型語言模型展現出與生物大腦截然不同的智慧也就不足為奇。將它們與動物或生物智慧相提並論,完全忽略了重點。
人類神經網絡是為了在部落生態系中生存而塑造的。AI模型則是為了模擬文本、解決數學謎題、在競爭性基準中贏得人類認可而設計。當你為這些不同的目標優化時,輸出也會截然不同。
這導致一個奇特的性能特徵:鋸齒狀、起伏不定的能力曲線。模型可能一刻擁有百科全書般的知識,下一刻卻陷入幼稚的推理。它們在可驗證的領域表現出色,但在開放式上下文中卻屢屢失誤。這種不平衡的能力景觀不是錯誤——而是訓練體系的直接結果。
這裡,安德烈·卡帕西的懷疑態度變得尤為重要:他在2025年提出了“對基準的普遍漠不關心”。原因很簡單——基準是可驗證的環境,極易被RLVR過擬合。團隊不可避免地在基準嵌入附近構建訓練空間,並用狹隘的能力填充它們。“在測試集上訓練”已成為產業標準。掃蕩所有基準不再代表真正的AGI進展。
Cursor:應用層的崛起
Cursor在2025年的爆炸性增長揭示了一個關鍵點:AI應用層出現了一個全新的層級。
根據安德烈·卡帕西,Cursor之所以有效,是因為它解決了一個特定的垂直問題——在實際開發流程中的程式碼生成,而不是因為它是更好的通用聊天機器人。支撐Cursor的架構包括三個整合組件:上下文工程(拉取相關資訊)、將多個大型語言模型調用整合成越來越複雜的有向無環圖(在性能與成本之間取得平衡),以及具有人工在環控制的專用用戶界面。
這引發了更廣泛的討論:像OpenAI的API(這樣的大型語言模型平台,會主導整個應用層,還是專門化工具會繁榮?安德烈·卡帕西的預測是:平台將逐漸演變成“通才大學”,產出能力強但不專精的結果。真正的價值將流向那些將這些有能力的模型微調、用專有數據整合感測器與執行器,並轉化為專業團隊,能在特定垂直領域部署的公司。
其含義是:Cursor不是終點——它是範本。預計會有數十個垂直專用工具沿用同樣的玩法。
Claude Code:本地運行的智能代理
Claude Code的出現讓安德烈·卡帕西注意到了一件事:有效的AI代理不一定非得在雲端運行。
這項技術在工具使用與推理之間循環,能進行比簡單聊天界面更持久、更複雜的問題解決。但真正讓安德烈·卡帕西印象深刻的是其架構選擇:Claude Code直接在用戶的電腦上運行,深度嵌入本地文件、個人環境與工作流程。
這代表了一個有意的偏離OpenAI的策略方向。OpenAI大量投資於在容器化的ChatGPT環境中協調的雲端代理。雖然這種方式承諾“終極形式的AGI”,但我們目前仍處於一個不平衡的發展階段,尚未證明其優勢。
本地部署代理——貼近開發者,緊密整合其特定工作環境——目前更快、更實用。Claude Code抓住了這一優先級,將其打包成一個優雅的命令行工具,徹底改變了AI的界面。它不再只是像Google那樣的網站,而是一個生活在你電腦裡的小精靈,直接與你的工作流程協作。這是一個完全不同的人機互動範式。
Vibe Coding:無代碼編程
到2025年,AI跨越了一個關鍵門檻:你可以用英文描述你想要的,然後讓軟體自動生成,無需理解底層實現。
安德烈·卡帕西在Twitter上隨意提出“Vibe Coding”這個詞,沒想到它會成為產業趨勢。但它恰好捕捉了發生的事情——編程變得人人都能掌握,而不僅僅是訓練有素的專業人士。
這也與安德烈·卡帕西所識別的更廣泛模式相關:普通人從大型語言模型中受益比專家更多。專業人士已經擁有工具和深厚知識。普通人則無法構建任何東西。現在,他們可以。
但Vibe Coding對專業人士的好處也不同——它使開發者能實現“原本不可能寫出的功能”,因為代碼變得免費、短暫且可丟棄。在構建nanochat時,安德烈·卡帕西用Vibe Coding用Rust寫了定制的高效BPE分詞器,沒有學習語言或依賴現有庫。他純粹為測試可行性原型化整個系統。甚至為了調試特定漏洞,寫了許多一次性應用。
這種經濟轉變——代碼零切換成本——將重塑軟體開發生態系,並永久重新劃定程式設計領域的職業邊界。
Nano Banana:LLMs終於擁有用戶界面
Google的Gemini Nano突破——安德烈·卡帕西稱之為“Nano Banana”——代表了2025年最具顛覆性的範式轉變之一。
安德烈·卡帕西直截了當地說:大型語言模型是繼1970-80年代個人電腦時代之後的下一個主要計算範式。因此,我們應該預期類似的創新,原因相似——類比個人電腦、微控制器和互聯網的演進。
目前的人機交互仍類似1980年代的命令行終端。文本佔據主導,卻對電腦來說原始,對人類來說也不友好。人們覺得讀文本又慢又痛苦。他們更喜歡視覺和空間通道——這正是圖形用戶界面在數十年前改變個人電腦的原因。
同樣的原理也適用於AI:模型應該通過圖像、資訊圖表、幻燈片、白板、影片、網頁應用——基本上,任何人類偏好的格式來交流。早期的進展來自“視覺文本裝飾”,如表情符號和Markdown格式。但最終誰來構建完整的圖形界面層,仍是未知。
Nano Banana是那個未來的早期原型。它的突破不僅在於圖像生成,更在於其整合能力——文本生成、圖像生成與具體世界知識都融入模型權重中。這種融合創造了一個與純文本模型截然不同的界面範式。