網易首頁 > 網易號 > 正文申請入駐

離職阿里后林俊旸首發長文:告別純推理,AI轉入"為行動而思考"范式

2026-03-27 07:08:41　來源: AI先鋒官

北京舉報

分享至

剛剛，林俊旸在 X 上更新了一篇文章：《從“推理式”思考到“智能體式”思考》，講述 thinking范式的變化。

他認為，下一步將是為行動而思考，即模型需在與環境交互中持續更新計劃、調用工具、處理反饋。

訓練重心由此也從模型，轉向“模型+環境”的智能體系統。

競爭優勢則將從算法，轉向來自環境設計，及訓練-服務解耦與 harness 工程化。

以下為全文：

過去兩年徹底重塑了我們評估模型的方式，以及對模型的期待。

OpenAI 的 o1 證明了，“思考”可以成為一項一等公民能力——一項專門訓練并向用戶開放的能力。

DeepSeek-R1 則證明，推理式后訓練可以在原實驗室之外被復現和規?；?/p>

OpenAI 將 o1 描述為一個通過強化學習訓練、“先思考再回答”的模型；DeepSeek 則將 R1 定位為一款能與 o1 抗衡的開源推理模型。

這一階段至關重要。

但 2025 年上半年的核心議題幾乎都圍繞推理式思考展開：如何讓模型在推理時投入更多計算、如何用更強的獎勵信號訓練它們、如何暴露或控制額外的推理算力消耗。

現在的問題是：下一步是什么？我認為答案是智能體式思考（agentic thinking）：為行動而思考，在與環境交互的過程中思考，并根據來自現實世界的反饋持續更新計劃。

1. o1 與 R1 的崛起真正教會了我們什么

第一代推理模型讓我們明白：若想在語言模型中規模化強化學習，就需要確定性、穩定且可擴展的反饋信號。

數學、代碼、邏輯及其他可驗證領域之所以成為核心，是因為這些場景下的獎勵信號遠強于通用偏好監督——它們讓強化學習優化“正確性”，而非“看似合理”。

基礎設施變得至關重要。

一旦模型被訓練為在更長軌跡中推理，強化學習就不再是監督微調的輕量附加項，而成為一個系統級問題：你需要大規模軌跡采樣、高吞吐量驗證、穩定的策略更新、高效的采樣機制。

推理模型的崛起，既是建模層面的突破，也是基礎設施層面的突破。

OpenAI 將 o1 描述為用強化學習訓練的推理路線，DeepSeek R1 隨后也印證了這一方向，展示了基于推理的強化學習需要多少專門的算法與基建投入。

第一個重大轉變：從規?；A訓練，轉向為推理而規模化后訓練。

2. 真正的問題從來不是“簡單合并思考與指令模式”

2025 年初，通義千問團隊的許多人都懷揣著一個雄心勃勃的構想：理想系統應能統一思考與指令模式，支持可調節的推理算力消耗——類似低/中/高推理檔位的設計。

更理想的是，它能從提示詞和上下文自動推斷合適的推理量，讓模型自主決定何時直接回答、何時需要更長思考、何時為真正困難的問題投入大量計算。

從概念上看，這是正確方向。

通義千問 3 是最清晰的公開嘗試之一：它引入了“混合思考模式”，在一個模型家族中同時支持思考與非思考行為，強調可控的思考預算，并描述了一個四階段后訓練 pipeline，明確包含在長思維鏈冷啟動與推理強化學習之后的“思考模式融合”。

但“合并”說起來容易，做起來卻很難。

核心難點在于數據。當人們談論合并思考與指令模式時，往往首先想到模型層面的兼容性：一個 checkpoint 能否同時支持兩種模式、一個對話模板能否在兩者間切換、一個服務棧能否暴露正確的控制開關。

更深層的問題是，兩種模式的數據分布與行為目標本質不同。

我們在平衡模型合并與提升后訓練數據的質量、多樣性時，并未做到盡善盡美。

在這一修正過程中，我們也密切關注了用戶實際使用思考與指令模式的方式：

? 優秀的指令模型通常因直接、簡潔、格式合規、低延遲而受青睞，適用于重復、高吞吐量的企業任務，如改寫、標注、模板化客服、結構化提取、運營 QA 等。

? 優秀的思考模型則因在困難問題上投入更多 token、保持連貫的中間結構、探索替代路徑、保留足夠內部計算以顯著提升最終正確性而受獎勵。

這兩種行為模式彼此拉扯。

若合并后的數據未被精心篩選，結果通常是兩頭平庸：“思考”行為變得嘈雜、冗余或不夠果斷，而“指令”行為則變得不夠清晰、不夠可靠，且成本高于商業用戶的實際需求。

在實踐中，分離模式依然更具吸引力。

2025 年下半年，在通義千問 3 最初的混合框架之后，2507 系列發布了獨立的指令版與思考版更新，包括 30B 和 235B 兩種規格。

在商業部署中，大量客戶仍需要高吞吐量、低成本、高度可控的指令行為來處理批量任務——對這些場景而言，合并模式并無明顯優勢。

分離路線讓團隊能更清晰地聚焦解決每種模式的數據與訓練問題。

其他實驗室則選擇了相反路徑。

Anthropic 公開倡導一體化模型理念：Claude 3.7 Sonnet 作為混合推理模型推出，用戶可選擇普通響應或擴展思考，API 用戶可設置思考預算。Anthropic 明確表示，他們認為推理應是一項集成能力，而非獨立模型。

GLM-4.5 也公開將自身定位為同時支持思考與非思考模式的混合推理模型，統一了推理、代碼與智能體能力；DeepSeek 隨后也在 V3.1 的“思考/非思考”混合推理中走向了類似方向。

關鍵問題在于合并是否自然。如果思考與指令只是被塞進同一個 checkpoint，卻仍像兩個生硬縫合的人格，產品體驗依然會很不自然。

真正成功的合并需要平滑的推理算力消耗光譜：模型應能表達多級別的思考力度，并理想地自適應選擇。

GPT 風格的算力控制就指向這一目標：基于計算量的策略，而非二元開關。

3. 為何 Anthropic 的方向是一次有益的修正

Anthropic 對 Claude 3.7 與 Claude 4 的公開表述十分克制：他們強調集成推理、用戶可控的思考預算、真實世界任務、代碼質量，以及后來在擴展思考中使用工具的能力。

Claude 3.7 被定位為支持可控預算的混合推理模型；Claude 4 進一步擴展，允許推理與工具使用交錯進行，同時 Anthropic 強調編碼、長時任務與智能體工作流是核心目標。

生成更長的推理軌跡，并不會自動讓模型變得更聰明。在很多情況下，過度可見的推理恰恰暴露了資源分配的低效。

如果模型試圖用同樣冗長的方式思考一切，可能是在優先級排序、信息壓縮或行動執行上存在缺陷。Anthropic 的發展軌跡指向了一種更自律的觀點：思考應服務于目標任務。

若目標是編碼，思考應幫助導航代碼庫、規劃、拆解、錯誤恢復與工具編排；若目標是智能體工作流，思考應提升長時執行質量，而非產出華麗的中間文本。

這種對目標導向實用性的強調，指向了一個更宏大的趨勢：我們正從訓練模型的時代邁向訓練智能體的時代。

我們在通義千問 3 的博客中明確寫道：“我們正從聚焦訓練模型的時代，轉向以訓練智能體為中心的時代”，并將未來強化學習的進步與長時推理的環境反饋綁定。

智能體是一個能夠制定計劃、決定何時行動、使用工具、感知環境反饋、修正策略、并在長時尺度上持續推進的系統——它的核心定義是與世界的閉環交互。

4. “智能體式思考”真正意味著什么

智能體式思考是一個截然不同的優化目標。

推理式思考通常以最終答案前的內部思考質量為評判標準：模型能否證明定理、寫出證明、生成正確代碼，或通過基準測試。而智能體式思考的核心是：模型能否在與環境交互的過程中持續取得進展。

核心問題從“模型能否思考足夠久？”轉變為“模型能否以支撐有效行動的方式思考？”。

智能體式思考必須處理純推理模型大多可以回避的幾個問題：

? 決定何時停止思考并采取行動

? 選擇調用哪個工具、以何種順序調用

? 整合來自環境的噪聲或部分觀測信息

? 在失敗后修正計劃

? 在多輪對話與多次工具調用中保持連貫性

智能體式思考，本質是通過行動進行推理的模型。

5. 為何智能體強化學習基礎設施更具挑戰

一旦目標從解決基準問題轉向解決交互任務，強化學習技術棧就會發生變化。傳統推理強化學習所用的基礎設施已不再足夠。

在推理強化學習中，你通?？梢詫④壽E采樣視為相對自包含的過程，評估器也較為清晰。而在智能體強化學習中，策略被嵌入到一個更大的“ harness”中：工具服務器、瀏覽器、終端、搜索引擎、模擬器、執行沙箱、API 層、記憶系統與編排框架。

環境不再是靜態驗證器，而是訓練系統的一部分。

這催生了新的系統要求：訓練與推理必須更清晰地解耦。若沒有這種解耦，軌跡采樣吞吐量會急劇下降。

試想一個編碼智能體：它必須在實時測試 harness 中執行生成的代碼——推理端會因等待執行反饋而停滯，訓練端則因缺少完成的軌跡而“饑餓”，整個 pipeline 的 GPU 利用率遠低于傳統推理強化學習的預期。

工具延遲、部分可觀測性與有狀態環境會進一步放大這些低效問題，結果是實驗進展緩慢，在達到目標能力水平前就變得痛苦不堪。

環境本身也成為了一等公民的研究對象。

在監督微調時代，我們癡迷于數據多樣性；在智能體時代，我們應癡迷于環境質量：穩定性、真實性、覆蓋范圍、難度、狀態多樣性、反饋豐富性、抗利用性與軌跡生成可擴展性。

環境構建已開始成為一個真正的創業賽道，而非副業項目。如果智能體要在類生產環境中運行，環境就是核心能力棧的一部分。

6. 下一個前沿是更可用的思考

我預計，智能體式思考將成為主導的思考形式。

它最終可能會取代大部分舊式靜態獨白式推理思考——那些過長、孤立的內部軌跡，試圖通過輸出越來越多的文本來彌補交互的缺失。

即便在極難的數學或編碼任務中，真正先進的系統也應有權進行搜索、模擬、執行、檢查、驗證與修正。目標是穩健且高效地解決問題。

訓練這類系統的最大挑戰是獎勵作弊（reward hacking）。一旦模型獲得有意義的工具訪問權限，獎勵作弊的風險會大幅升高：

? 具備搜索能力的模型可能在強化學習中學會直接查找答案；

? 編碼智能體可能利用倉庫中的未來信息、濫用日志，或發現使任務失效的捷徑；

? 存在信息泄露的環境可能讓策略看起來“超人類”，實則訓練它作弊。

這正是智能體時代比推理時代更微妙的地方：更好的工具讓模型更有用，但也擴大了虛假優化的攻擊面。

我們可以預期，下一個嚴肅的研究瓶頸將來自環境設計、評估器魯棒性、反作弊協議，以及策略與世界之間更具原則性的接口。

盡管如此，方向是明確的：工具賦能的思考遠比孤立思考更有用，也更有機會提升真實生產力。

智能體式思考也意味著harness 工程化。核心智能將越來越多地來自多智能體的組織方式——一個負責規劃與任務路由的編排器、像領域專家一樣行動的專業智能體，以及執行更窄任務的子智能體（幫助控制上下文、避免污染、保持不同推理層級的分離）。

未來的轉變是，從訓練模型到訓練智能體，再從訓練智能體到訓練系統。

結論

推理浪潮的第一階段確立了一個重要事實：當反饋信號可靠、基礎設施能支撐時，語言模型之上的強化學習可以產生質的更強認知。

更深層的轉變是從推理式思考走向智能體式思考：從“思考更久”轉向“為行動而思考”。

訓練的核心對象發生了變化——它不再是單純的模型，而是模型+環境系統。更具體地說，是智能體及其周圍的 harness。

這改變了最重要的研究對象：模型架構與訓練數據固然重要，但環境設計、軌跡采樣基礎設施、評估器魯棒性，以及多智能體協作的接口也同樣關鍵。

它也改變了“好的思考”的定義：支撐現實約束下有效行動的最有用軌跡，而非最長或最可見的軌跡。

這同樣改變了競爭優勢的來源：

? 在推理時代，優勢來自更好的強化學習算法、更強的獎勵信號與更可擴展的訓練 pipeline；

? 在智能體時代，優勢將來自更好的環境、更緊密的訓練-服務集成、更強的 harness 工程能力，以及閉合模型決策與其后果之間循環的能力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

讓離線強化學習從「局部描摹」變「全局布局」丨ICLR'26

量子位 2026-04-06 13:33:32
0 跟貼 0
2026年，大模型訓練的下半場屬于「強化學習云」

機器之心Pro 2026-01-12 14:03:47
0 跟貼 0

強化學習的進化：從PPO到MaxRL，LLM推理訓練的算法演進史

機器之心Pro 2026-05-05 14:16:31
0 跟貼 0

不更新參數就能強化學習！翁家翌新范式：決策只需AI寫個.py文件

量子位 2026-05-09 16:05:57
1 跟貼 1
DECS從源頭消除冗余思考，實現推理token減半且性能不降反升

機器之心Pro 2026-05-12 12:58:05
0 跟貼 0

小模型讀書大模型思考：上海AI Lab提出新知識推理解耦方法DRIFT

機器之心Pro 2026-03-16 11:33:51
0 跟貼 0

一個框架，重塑具身研發流程：Dexbotic走向具身PyTorch

機器之心Pro 2026-05-12 09:27:08
0 跟貼 0
絕殺！OpenAI正式接管人類耳朵，首個GPT-5級推理音頻模型來了

新智元 2026-05-12 19:36:49
6 跟貼 6

北大校友Lilian Weng出鏡，爆出120億估值首個交互模型！

新智元 2026-05-12 12:37:23
4 跟貼 4
智元APC香港觀察：具身智能的終極角色是先進生產力單元

華爾街見聞官方 2026-05-12 21:49:18
0 跟貼 0
OpenAI又吃官司！佛州槍擊案兇手問哪種武器和彈藥最適合，何時何地能造成最大傷亡，ChatGPT均給出回答

每日經濟新聞 2026-05-12 21:13:07
2 跟貼 2
光輪智能與谷歌、英偉達共同定義物理AI仿真標準

機器之心Pro 2026-05-12 20:21:07
0 跟貼 0
海外研選 | 大摩：2030年服務器CPU市場規?；蜻_2830億美元

財聯社 2026-05-12 20:07:11
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
智元殺進香港！2026成為部署態元年，機器人不再只會跳舞了

雷科技 2026-05-12 21:59:45
0 跟貼 0
AI組織坍縮效應：中層管理者正在失去的，不是職位，是“信息稅”

虎嗅APP 2026-05-12 23:50:21
0 跟貼 0
圖靈獎得主Sutton：用1967年的公式，解決流式強化學習一大缺陷

機器之心Pro 2026-05-11 09:55:21
3 跟貼 3
LLM 僅靠自身就能增強推理？SePT 給出簡潔在線自訓練范式

機器之心Pro 2026-04-22 11:01:55
0 跟貼 0
借千問全面打通淘寶，聊聊阿里和字節做AI電商的差異

鈦媒體APP 2026-05-12 11:50:11
0 跟貼 0
拒絕大力出奇跡，PRISM框架讓dLLM也能高效Test-Time Scaling

機器之心Pro 2026-05-11 14:28:29
0 跟貼 0
阿里、騰訊下周公布財報，算力漲價潮席卷全球

每日經濟新聞 2026-05-10 22:51:25
0 跟貼 0
智能體從「單兵作戰」到「精銳團隊」 -1

機器之心Pro 2026-04-28 16:55:35
0 跟貼 0
淘車車赴港IPO：二手車平臺“一哥”三年虧近22億，與阿里存糾紛被索賠千萬

新浪財經 2026-05-10 10:21:39
0 跟貼 0
唐湘龍：鷹擊的彈道軌跡很詭異，只要一發射，很難躲避或攔截！

錦升體娛 2026-05-10 02:05:23
63 跟貼 63
馬斯克用Grok替代X員工，裁員90%

量子位 2025-11-29 16:58:47
30 跟貼 30
供應鏈管理數智化的殘酷真相：99%的失敗，與那1%的“唯一解”

鈦媒體APP 2026-03-05 19:29:15
0 跟貼 0
大山在老撾建房，打算讓阿里離開村子去城市發展，弟弟會同意嗎？

一只小小向 2026-05-12 00:08:36
0 跟貼 0
188高考數學北京卷 3 二項式定理展開式系數

我服子佩 2026-05-11 22:33:38
1 跟貼 1
這個揮金如土的闊太，才是馬云真正的靠山

雷科技 2025-11-12 16:35:27
0 跟貼 0
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
姚來英已任中國煙草總公司總經理

界面新聞 2026-05-12 11:12:28
7925 跟貼 7925
車內自衛術，男子教女子遇襲后的應對策略，你往后躺啊

班子愛生活 2026-05-11 11:13:52
3 跟貼 3
改變人類歷史的17個方程，你知道幾個？

宇宙時空 2026-05-12 21:40:06
0 跟貼 0
主場拿下了，騎士確認4件事，哈登策略有效果，賽眼也找到了

體壇大辣椒 2026-05-12 15:51:07
1 跟貼 1
阿里拿下比亞迪大單

新浪財經 2026-05-10 15:39:40
19 跟貼 19
SM公司策略揭秘：后輩必修前輩作品，肥水不流外人田

今夜繁星墜落 2026-05-11 03:33:12
1 跟貼 1
阿里員工的焦慮，快30歲了，依舊是P5

螞蟻大喇叭 2026-05-10 21:45:54
16 跟貼 16
陳欣妍自曝與UFO意念互動，不再擔憂被視為精神異常

驕陽之夏明 2026-05-12 10:41:53
13 跟貼 13
嘴炮王者譚sir竟被邏輯女帝反殺成渣：愿大姐被歲月溫柔以待

解壓小劇場 2026-05-09 08:17:50
398 跟貼 398
考古：張紀中前妻樊馨蔓報道馬云成立阿里巴巴！

遮口 2026-05-12 03:07:06
0 跟貼 0

AI先鋒官

AIGC大模型及應用精選與評測

506文章數 74關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

藝術

手機

本地

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

離職阿里后林俊旸首發長文:告別純推理,AI轉入"為行動而思考"范式

宇樹發布載人變形機甲，定價390萬元起

特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

騎士終于玩明白了？

白鹿風波升級！掉粉20萬評論區淪陷

利潤再腰斬 京東干外賣后就沒過過好日子

吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

態度原創

穗八條引爆樓市！萬博寶藏紅盤，五一勁銷出圈

震驚！他竟用鏡頭看透了所有女人的秘密！

Android推新功能“暫停點” 助用戶擺脫刷手機上癮

用蘇繡的方式，打開江西婺源

宇樹發布載人變形機甲，定價390萬元起

特朗普稱將同中方討論對臺軍售和黎智英案外交部回應

特朗普稱將同中方討論對臺軍售和黎智英案外交部回應

騎士終于玩明白了？

白鹿風波升級！掉粉20萬評論區淪陷

利潤再腰斬京東干外賣后就沒過過好日子

吉利銀河“TT”申報圖曝光電動尾翼+激光雷達

穗八條引爆樓市！萬博寶藏紅盤，五一勁銷出圈

震驚！他竟用鏡頭看透了所有女人的秘密！