2025年6大AI範式變革：從RLVR訓練、Vibe Coding到Nano banana

PANews

2025-12-22 09:29:59

作者：Andrej Karpathy

編譯：Tim，PANews

2025年是大語言模型飛速發展且充滿變數的一年，我們取得了豐碩的成果。以下是我個人認爲值得關注且稍感意外的“範式變革”，這些變革改變了格局，至少在概念層面讓我印象深刻。

1.基於可驗證獎勵的強化學習（RLVR）

2025年初，所有AI實驗室的LLM生產堆棧大致呈現爲以下形態：

預訓練（2020年的GPT-2/3）；
監督微調（2022年的InstructGPT）；
以及基於人類反饋的強化學習（RLHF，2022年）

長期以來，這是訓練生產級大語言模型的穩定且成熟的技術堆棧。到了2025年，基於可驗證獎勵的強化學習已成爲主要採用的核心技術。通過讓大語言模型在多種可自動驗證獎勵的環境中進行訓練（例如數學、編程解題），這些模型能自發形成在人類看來類似“推理”的策略。它們學會將問題解決分解爲中間計算步驟，並掌握多種通過反復推演來解決問題的策略（可參考DeepSeek-R1論文中的案例）。在之前的堆棧中，這些策略很難實現，因爲對於大語言模型而言，最優的推理路徑和回溯機制並不明確，必須通過獎勵優化來探索適合自身的解決方案。

與監督微調階段和基於人類反饋的強化學習階段（這兩個階段相對簡短，屬於計算量較小的微調）不同，基於可驗證獎勵的強化學習涉及對客觀、不可博弈的獎勵函數進行長時間優化訓練。事實證明，運行基於可驗證獎勵的強化學習在單位成本內能帶來顯著的能力提升，這大量消耗了原本計劃用於預訓練的計算資源。因此，2025年大語言模型能力的進步主要體現在，各大AI實驗室消化了這一新技術帶來的巨大計算需求。總體而言，我們看到模型的規模大致相當，但強化學習訓練的時間大幅延長。這個新技術的另一個獨特之處在於，我們獲得了一個全新的調控維度（以及相應的Scaling定律），即通過生成更長的推理軌跡、增加“思考時間”，將模型能力作爲測試時計算量的函數進行控制。OpenAI的o1模型（2024年底發布）是首個基於可驗證獎勵的強化學習模型的演示，而o3的發布（2025年初）則是一個明顯的轉折點，讓人能直觀感受到質的飛躍。

2.幽靈智能 vs. 動物鋸齒狀智能

2025年讓我（以及我認爲整個行業）第一次開始從更直觀的角度，去理解大語言模型智能的“形態”。我們並非在“演化、培育動物”，而是在“召喚幽靈”。大語言模型的整個技術棧（神經架構、訓練數據、訓練算法，尤其是優化目標）都截然不同，因此我們在智能領域得到與生物智能迥異的實體，這毫不意外，用動物的視角去審視它們並不恰當。從監督信息的角度看，人類神經網路是爲了在叢林環境中實現部落生存而優化的，而大語言模型神經網路則是爲了模仿人類文本、在數學難題中獲取獎勵、在競技場上贏得人類的點讚而優化的。隨着可驗證領域爲基於可驗證獎勵的強化學習提供了條件，大語言模型在這些領域附近的能力會“突增”，總體上呈現出一種有趣的、鋸齒狀的性能特徵。它們可能同時是博學的天才，也是困惑且認知困難的小學生，隨時可能在破解誘導下泄露你的數據。

人類智能：藍色，AI智能：紅色。我喜歡這個版本的梗圖（抱歉我找不到推特上的原帖出處），因爲它指出了人類智能其實也以其特有的方式呈現出鋸齒狀的波浪。

與此相關的是，2025年我對各類基準測試普遍產生了漠然和不信任感。核心問題在於，基準測試本質上幾乎都是可驗證的環境，因此極易受到基於可驗證獎勵的強化學習以及通過合成數據生成的較弱形式的影響。在典型的“刷分最大化”過程中，大語言模型團隊不可避免地會在基準測試所在的小塊嵌入空間附近構造訓練環境，並通過“能力鋸齒”覆蓋這些區域。“在測試集上訓練”已成爲一種新常態。

橫掃所有基準測試卻依然未能實現通用人工智能，那又怎麼樣呢？

3.Cursor：LLM應用的新層級

Cursor最讓我印象深刻的一點（除了它今年迅速崛起之外），是它令人信服地揭示了一個新的“LLM應用”層級，因爲人們開始談論“XX領域的Cursor”。正如我今年在Y Combinator演講中所強調的，像Cursor這樣的LLM應用，其核心在於爲特定垂直領域整合與編排LLM調用：

它們負責“上下文工程”；
在底層將多個LLM調用編排成日益復雜的有向無環圖，精細權衡性能與成本的平衡；爲處於“人在回路”中的人員提供應用特定的圖形界面；
並提供一個“自主性調節滑塊”。

2025年，圍繞這個新興應用層的發展空間已有大量討論。大語言模型平台會通喫所有應用，還是大語言模型應用仍存有廣闊天地？我個人推測，大語言模型平台的定位將逐漸趨近於培養“通才型大學畢業生”，而大語言模型應用則負責把這些“畢業生”組織起來、進行精調，並通過提供私有數據、傳感器、執行器及反饋回路，使其真正成爲特定垂直領域中可以投入實戰的“專業團隊”。

4.Claude Code：運行於本地的AI

Claude Code的出現，首次令人信服地展示了LLM智能體的形態，它以一種循環往復的方式，將工具使用與推理過程結合起來，從而實現更持久的復雜問題解決。此外，Claude Code讓我印象深刻之處在於，**它運行在用戶的個人電腦上，與用戶的私有環境、數據與上下文深度結合。**我認爲OpenAI在此方向上的判斷有所偏差，因爲他們將代碼助手、智能體的研發重點放在了雲端部署，即由ChatGPT編排的容器化環境，而非localhost本地環境。盡管雲端運行的智能體集羣似乎是“通往通用人工智能的終極形態”，但我們目前身處一個能力發展不均衡、且進展相對緩慢的過渡階段。在這樣的現實條件下，將智能體直接部署在本地計算機上，與開發者及其特定工作環境緊密協同，是更爲合理的路徑。Claude Code準確把握了這一優先順序，並將其封裝成一個簡潔、優雅、極具吸引力的命令行工具形式，從而重塑了AI的呈現方式。它不再只是一個像谷歌那樣需要訪問的網站，而是“居住”在你電腦中的一個小小精靈或幽靈。這是一種全新的、獨特的與AI互動範式。

5. Vibe Coding氛圍編程

2025年，AI跨越了一個關鍵的能力門檻，使得僅通過英語描述就能構建各種令人驚嘆的程序成爲可能，人們甚至無需關心底層代碼。有趣的是，我曾在一次洗澡時的隨想推文中創造了“Vibe Coding氛圍編程”這個詞，當時完全沒想到它會發展到如今的程度。在氛圍編程的範式下，編程不再是嚴格限定於高度訓練的專業人士的領域，而成爲人人都能參與的事情。從這個角度看，它正是我在《賦能於人：大語言模型如何改變技術擴散模式》一文中所描述現象的又一例證。與迄今爲止所有其他技術形成鮮明對比的是，普通人與專業人士、企業和政府相比，從大語言模型中獲益更多。但氛圍編程不僅賦能普通人接觸編程，也賦能專業開發者編寫出更多“本不會被實現”的軟件。在開發nanochat時，我就通過氛圍編程用Rust編寫了自定義的高效BPE分詞器，而不必依賴現有庫或深入學習Rust。今年，我還用氛圍編程快速實現了多個項目原型，只爲驗證某些構想是否可行。我甚至編寫過整個一次性應用，只爲定位一個具體的漏洞，因爲代碼突然變得免費、短暫、可塑、用後即棄。氛圍編程將重塑軟件開發的生態，並深刻改變職業定義的邊界。

6.Nano banana：LLM圖形界面

谷歌的Gemini Nano banana是2025年最具顛覆性的範式轉換之一。在我看來，**大語言模型是繼1970、80年代計算機之後的下一個重大計算範式。**因此，我們將看到基於相似根本原因的同類創新，類似於個人計算、微控制器乃至互聯網的演進形態。特別是在人機交互層面，當前與LLM的“對話”模式，某種程度上類似於1980年代向計算機終端輸入指令。文本是計算機（及LLM）最原始的數據表徵形式，卻並非人類（尤其是輸入時）的首選方式。人類實際上厭惡閱讀文字，它緩慢且費力。相反，人類更傾向於通過視覺和空間維度接收信息，這也正是傳統計算中圖形用戶界面誕生的原因。同理，大語言模型應當以人類偏好的形式與我們交流，通過圖像、信息圖、幻燈片、白板、動畫、視頻、網頁應用等載體。當前的早期形態已通過表情符號和Markdown等“視覺化文本裝飾”實現（如標題、加粗、列表、表格等排版元素）。但究竟誰會真正構建出大語言模型的圖形界面？從這個視角看，nano banana正是這一未來藍圖的早期雛形。值得注意的是，nano banana的突破性不僅在於圖像生成能力本身，更在於文本生成、圖像生成與世界知識在模型權重中交織形成的綜合能力。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
轉發
分享

留言

0/400

暫無留言

PANews

熱門話題查看更多
#2025Gate年度帳單
4.6萬熱度
#加密市場小幅回暖
5957 熱度
#現貨黃金再創新高
4166 熱度
#日本央行明年或兩次加息
1722 熱度
#2026行情预测
1707 熱度

熱門 Gate Fun查看更多

1
$AETHAetherCoin
市值:$3558.62持有人數:1
0.00%
2
OKB欧易
市值:$3562.06持有人數:1
0.00%
3
Gate.芝麻开门
市值:$3612.38持有人數:2
0.02%
4
PANDAPanda Protocol
市值:$3565.51持有人數:1
0.00%
5
$OCTOOCTO NET
市值:$3558.62持有人數:1
0.00%