重塑2025年AI的六大轉變:從RLVR到Nano Banana

在2025年,人工智慧產業經歷了一系列根本性的轉變,這些轉變不僅改變了AI系統的訓練方式,也重塑了其部署、認知與融入人類工作流程的方式。起初僅是研究實驗室內的技術創新,逐漸演變成重新定義整個AI生態系統的範式轉移。由知名AI研究員Andreij Karpathy分析的這六大轉變,代表的不僅是漸進式的改進——它們象徵著一個全新計算時代的來臨。

轉變一:可驗證的獎勵取代人類判斷於模型訓練

多年間,大型語言模型的標準訓練流程遵循一個可預測的序列:類似GPT-2/3的預訓練,接著是(2022年模仿InstructGPT的監督微調),最後是人類反饋的強化學習(RLHF)。這三階段的方法已成為產業標準,並在主要AI實驗室中經過反覆優化與驗證。

到2025年,這套生產流程經歷了多年來最大規模的革新。基於可驗證獎勵的強化學習(RLVR)成為主流範式,徹底改變模型推理能力的發展方式。它不再依賴人類標註者評分輸出,而是在一個可以客觀驗證成功的環境中訓練模型——例如數學問題解答、程式設計任務、邏輯推理鏈——這些環境中正確答案毫無歧義。

這一轉變最明顯的體現是OpenAI的o1模型(於2024年底揭示)以及2025年初的里程碑式o3版本(。這些系統不僅反應更快、更流暢;它們展現出能自主構建推理鏈的能力,將複雜問題拆解成中間步驟,並通過類似人類的深思熟慮反覆優化解答。DeepSeek-R1論文提供了透明證據,證明這種訓練方法能讓模型發現複雜的解題策略,超越傳統監督學習的限制。

在計算資源方面,這一轉變帶來了驚人的影響。傳統微調階段資源消耗有限,而RLVR則需要大量的優化循環——耗費原本用於預訓練擴展的計算預算。主要AI組織接受了這些高昂的成本,願意延長訓練時間,以換取顯著提升的模型性能。這也催生了一個新的擴展維度:不再僅以模型大小衡量能力,而是通過控制推理時的“思考時間”來調節性能——延長推理過程,能直接提升輸出質量。

轉變二:理解AI智慧的本質——一種異類

2025年,AI研究界首次開始建立一個成熟的框架,用以理解人工智慧的本質,而非僅用生物學比喻。過去的主要誤解是將大型語言模型視為“進化與繁衍”的生物,事實證明這種比喻遠不符合實際。

關鍵的洞見在於:人類神經網絡經過數千年演化,為部落生存而優化,與AI的優化目標截然不同。人類內化社交導航與生存模式,而大型語言模型則訓練模仿人類文本、最大化數學解題獎勵、以及在審批反饋機制中導航。這些根本不同的目標函數,產生的智慧特性在生物範疇中無法想像。

這一認知催生了所謂的“幽靈智慧”與“動物般鋸齒狀智慧”——一個詩意的區分,捕捉了這些模型能力的鋸齒狀、不可預測的景觀。大型語言模型不會像動物那樣逐步提升能力;相反,它們在可驗證領域)數學、程式碼(展現出劇烈的能力斷崖,同時在其他領域卻令人困惑地無能。它們可能同時是博學的權威,也可能是困惑的小學學生,甚至在對抗性攻擊下成為資訊竊取的潛在目標。

這對基準測試的影響尤為嚴重。由於基準測試是可驗證的環境,它們成為RLVR優化的絕佳目標。AI團隊發現可以在基準測試的緊密嵌入空間中設計訓練資料,有效“覆蓋”評估指標,提升局部能力。令人不安的事實是:目前的基準不再衡量一般人工智慧,而是衡量系統在特定測試集上的優化程度。

轉變三:光標(Cursor)揭示AI應用的隱藏層

2025年最被低估的發展之一,是光標(Cursor)的爆炸性崛起,以及它對應用架構的概念清晰化。這一突破並非純粹技術層面,而是組織層面的革新。隨著產業討論越來越多圍繞“光標在X領域的應用”展開,一個先前看不見的層面逐漸浮現。

在這個新視角中,大型語言模型扮演的是需要大量協調的通用組件。成功的應用如Cursor,不僅是將API調用包裝在用戶界面中,而是高度協調的系統,將多個功能層層疊加在模型的原始能力之上。這些應用擅長於“情境工程”——分析特定領域的文件、用戶環境與問題歷史,構建資訊豐富的提示。它們將多個語言模型調用串聯成越來越複雜的有向無環圖(DAG),在性能與計算成本之間取得平衡。並且,這些系統維持人類在循環反饋中的參與,讓專家持續介入系統輸出。

最具創新性的是,成功的應用實現了自主調整的“滑桿”機制——用戶可以即時在自動化程度、成本與輸出品質之間做出權衡。這一架構將大型語言模型平台(API本身)定位為通用能力的培育者,而應用層則成為專家,將這些通用能力整合成專業級的工作流程,針對特定垂直領域量身打造。

轉變四:AI代理回歸本地執行環境

Claude Code的出現,點燃了AI代理社群內一場關於“智能系統究竟應該在哪裡運行”的關鍵辯論:是追求雲端部署,還是本地運行?OpenAI曾大力推動雲端部署,架構了複雜的容器化環境,並透過ChatGPT的後端基礎設施進行協調。理論上,雲端代理集群代表了最終的通用人工智慧形態。

然而,Claude Code提出了反向見解:本地部署或許才是更優的短期策略。這個判斷並非哲學思辨,而是務實考量。當前AI系統能力發展不均,某些領域表現卓越,另一些則嚴重落後。全面通用AI的進展緩慢。在這樣的情況下,將代理直接部署在本地機器上,並深度整合個人開發者的工作環境與私有資料,能帶來更實用的AI協作。

Claude Code的突破在於其優雅設計。它不是另一個需要認證與切換的網頁界面,而是一個輕量、貼身的命令列工具,將AI轉化為持續運作的計算實體——一個“精靈”或“幽靈”,直接存在於開發者的工作空間中。這代表一個徹底重塑的人機互動範式,將AI從外部服務)如訪問Google網站(,轉變為無縫融入日常工作流程的環境計算存在。

轉變五:Vibe Coding民主化軟體開發

到2025年,人工智慧已突破一個關鍵能力門檻,徹底重塑程式設計格局。“Vibe Coding”——用英文描述進行程式設計,無需深厚的底層程式知識——在概念與實務層面都帶來革命。

這一現象顛覆了過去的技術傳播模式。歷史上,強大的新技術多半讓受過專業訓練的專家、企業與政府獲益最大。而大型語言模型則逆轉了這一動態。普通人——缺乏專業程式知識者——從AI中獲得的價值,超越了其他任何族群。Vibe Coding加速了這種民主化,因為它徹底消除了技術門檻。

同時,Vibe Coding也讓專業開發者能完成“原本不可能實現”的工作。限制條件被打破:開發者可以幾乎零成本快速原型化實驗想法,使用一次性程式碼實現特定漏洞的工具,或用從未正式學習過的語言打造定制工具。作者曾用Vibe Coding在Rust中開發複雜的BPE分詞器,完全不依賴傳統語言專業或庫,這在過去可能需要數週時間,但現在只花幾小時就能完成。

更深層次地,這一轉變象徵著軟體開發正從專業領域逐步轉向一種民主化的計算媒介。任何人都能用自然語言產生功能性程式碼,模糊了職業界限。軟體生態系的基本動態也在改變——從稀缺且價值高的智慧財產,轉變為豐富且可丟棄、可塑的材料。

轉變六:AI互動的圖形界面革命

Google的Gemini Nano,俗稱“Nano Banana”,成為2025年最具顛覆性的創新之一——其影響遠超圖像生成能力。這一發展反映了一個更大的真理:大型語言模型代表了繼1970、80年代微型電腦革命之後的下一個根本計算範式。

歷史經驗提供了啟示。當計算從終端機與命令列界面轉向個人電腦時,革命性的不僅是處理能力,而是交互方式。早期系統要求用戶輸入文字指令來完成任務。圖形用戶界面)GUI重新定義了這種關係,認識到:雖然文字是最原始的數據形式,但對人類來說卻是最不偏好的資訊輸入方式。人類不喜歡閱讀文字;它既費時又費腦。視覺與空間資訊處理更符合人類感知。

目前,大型語言模型仍受限於文字交互的結構:文字是最基本的計算媒介,但也是最不符合人類偏好的。未來的AI系統應以人類偏好的多模態方式溝通——圖像、資訊圖表、投影片、白板、動畫、影片、網頁應用與互動視覺化。

早期的實作多是表層的妥協:Markdown格式、emoji裝飾、排版強調。但這些仍然是以文字為核心的解決方案。Nano Banana的突破則展現了質的不同——將文字生成、圖像合成與嵌入式世界知識整合,實現全面的多模態溝通。其真正的突破不僅在於圖像能力,而在於多輸出模態的協調合成,形成統一回應,模仿人類自然偏好的資訊接收方式。

這一轉變預示著AI界面演進的方向。未來幾年,我們可以預期AI系統將從“與AI網站聊天”逐步轉向豐富的互動式、多視覺的交流環境——徹底重塑人機互動,猶如數十年前GUI改變人機關係一般。

SIX3.58%
IN2.2%
NANO-0.18%
BANANA0.08%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)