<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      離職阿里后林俊旸首發長文:告別純推理,AI轉入"為行動而思考"范式

      0
      分享至

      剛剛,林俊旸在 X 上更新了一篇文章:《從“推理式”思考到“智能體式”思考》,講述 thinking范式的變化。

      他認為,下一步將是為行動而思考,即模型需在與環境交互中持續更新計劃、調用工具、處理反饋。

      訓練重心由此也從模型,轉向“模型+環境”的智能體系統。


      競爭優勢則將從算法,轉向來自環境設計,及訓練-服務解耦與 harness 工程化。



      以下為全文:

      過去兩年徹底重塑了我們評估模型的方式,以及對模型的期待。

      OpenAI 的 o1 證明了,“思考”可以成為一項一等公民能力——一項專門訓練并向用戶開放的能力。

      DeepSeek-R1 則證明,推理式后訓練可以在原實驗室之外被復現和規?;?/p>

      OpenAI 將 o1 描述為一個通過強化學習訓練、“先思考再回答”的模型;DeepSeek 則將 R1 定位為一款能與 o1 抗衡的開源推理模型。

      這一階段至關重要。

      但 2025 年上半年的核心議題幾乎都圍繞推理式思考展開:如何讓模型在推理時投入更多計算、如何用更強的獎勵信號訓練它們、如何暴露或控制額外的推理算力消耗。

      現在的問題是:下一步是什么?我認為答案是智能體式思考(agentic thinking):為行動而思考,在與環境交互的過程中思考,并根據來自現實世界的反饋持續更新計劃。


      1. o1 與 R1 的崛起真正教會了我們什么

      第一代推理模型讓我們明白:若想在語言模型中規模化強化學習,就需要確定性、穩定且可擴展的反饋信號。

      數學、代碼、邏輯及其他可驗證領域之所以成為核心,是因為這些場景下的獎勵信號遠強于通用偏好監督——它們讓強化學習優化“正確性”,而非“看似合理”。

      基礎設施變得至關重要。


      一旦模型被訓練為在更長軌跡中推理,強化學習就不再是監督微調的輕量附加項,而成為一個系統級問題:你需要大規模軌跡采樣、高吞吐量驗證、穩定的策略更新、高效的采樣機制。

      推理模型的崛起,既是建模層面的突破,也是基礎設施層面的突破。

      OpenAI 將 o1 描述為用強化學習訓練的推理路線,DeepSeek R1 隨后也印證了這一方向,展示了基于推理的強化學習需要多少專門的算法與基建投入。

      第一個重大轉變:從規?;A訓練,轉向為推理而規模化后訓練。


      2. 真正的問題從來不是“簡單合并思考與指令模式”

      2025 年初,通義千問團隊的許多人都懷揣著一個雄心勃勃的構想:理想系統應能統一思考與指令模式,支持可調節的推理算力消耗——類似低/中/高推理檔位的設計。

      更理想的是,它能從提示詞和上下文自動推斷合適的推理量,讓模型自主決定何時直接回答、何時需要更長思考、何時為真正困難的問題投入大量計算。

      從概念上看,這是正確方向。

      通義千問 3 是最清晰的公開嘗試之一:它引入了“混合思考模式”,在一個模型家族中同時支持思考與非思考行為,強調可控的思考預算,并描述了一個四階段后訓練 pipeline,明確包含在長思維鏈冷啟動與推理強化學習之后的“思考模式融合”。

      但“合并”說起來容易,做起來卻很難。

      核心難點在于數據。當人們談論合并思考與指令模式時,往往首先想到模型層面的兼容性:一個 checkpoint 能否同時支持兩種模式、一個對話模板能否在兩者間切換、一個服務棧能否暴露正確的控制開關。

      更深層的問題是,兩種模式的數據分布與行為目標本質不同。

      我們在平衡模型合并與提升后訓練數據的質量、多樣性時,并未做到盡善盡美。

      在這一修正過程中,我們也密切關注了用戶實際使用思考與指令模式的方式:

      ? 優秀的指令模型通常因直接、簡潔、格式合規、低延遲而受青睞,適用于重復、高吞吐量的企業任務,如改寫、標注、模板化客服、結構化提取、運營 QA 等。

      ? 優秀的思考模型則因在困難問題上投入更多 token、保持連貫的中間結構、探索替代路徑、保留足夠內部計算以顯著提升最終正確性而受獎勵。

      這兩種行為模式彼此拉扯。

      若合并后的數據未被精心篩選,結果通常是兩頭平庸:“思考”行為變得嘈雜、冗余或不夠果斷,而“指令”行為則變得不夠清晰、不夠可靠,且成本高于商業用戶的實際需求。

      在實踐中,分離模式依然更具吸引力。

      2025 年下半年,在通義千問 3 最初的混合框架之后,2507 系列發布了獨立的指令版與思考版更新,包括 30B 和 235B 兩種規格。

      在商業部署中,大量客戶仍需要高吞吐量、低成本、高度可控的指令行為來處理批量任務——對這些場景而言,合并模式并無明顯優勢。

      分離路線讓團隊能更清晰地聚焦解決每種模式的數據與訓練問題。

      其他實驗室則選擇了相反路徑。

      Anthropic 公開倡導一體化模型理念:Claude 3.7 Sonnet 作為混合推理模型推出,用戶可選擇普通響應或擴展思考,API 用戶可設置思考預算。Anthropic 明確表示,他們認為推理應是一項集成能力,而非獨立模型。

      GLM-4.5 也公開將自身定位為同時支持思考與非思考模式的混合推理模型,統一了推理、代碼與智能體能力;DeepSeek 隨后也在 V3.1 的“思考/非思考”混合推理中走向了類似方向。

      關鍵問題在于合并是否自然。如果思考與指令只是被塞進同一個 checkpoint,卻仍像兩個生硬縫合的人格,產品體驗依然會很不自然。

      真正成功的合并需要平滑的推理算力消耗光譜:模型應能表達多級別的思考力度,并理想地自適應選擇。

      GPT 風格的算力控制就指向這一目標:基于計算量的策略,而非二元開關。


      3. 為何 Anthropic 的方向是一次有益的修正

      Anthropic 對 Claude 3.7 與 Claude 4 的公開表述十分克制:他們強調集成推理、用戶可控的思考預算、真實世界任務、代碼質量,以及后來在擴展思考中使用工具的能力。

      Claude 3.7 被定位為支持可控預算的混合推理模型;Claude 4 進一步擴展,允許推理與工具使用交錯進行,同時 Anthropic 強調編碼、長時任務與智能體工作流是核心目標。

      生成更長的推理軌跡,并不會自動讓模型變得更聰明。在很多情況下,過度可見的推理恰恰暴露了資源分配的低效。

      如果模型試圖用同樣冗長的方式思考一切,可能是在優先級排序、信息壓縮或行動執行上存在缺陷。Anthropic 的發展軌跡指向了一種更自律的觀點:思考應服務于目標任務。

      若目標是編碼,思考應幫助導航代碼庫、規劃、拆解、錯誤恢復與工具編排;若目標是智能體工作流,思考應提升長時執行質量,而非產出華麗的中間文本。

      這種對目標導向實用性的強調,指向了一個更宏大的趨勢:我們正從訓練模型的時代邁向訓練智能體的時代。

      我們在通義千問 3 的博客中明確寫道:“我們正從聚焦訓練模型的時代,轉向以訓練智能體為中心的時代”,并將未來強化學習的進步與長時推理的環境反饋綁定。

      智能體是一個能夠制定計劃、決定何時行動、使用工具、感知環境反饋、修正策略、并在長時尺度上持續推進的系統——它的核心定義是與世界的閉環交互。


      4. “智能體式思考”真正意味著什么

      智能體式思考是一個截然不同的優化目標。

      推理式思考通常以最終答案前的內部思考質量為評判標準:模型能否證明定理、寫出證明、生成正確代碼,或通過基準測試。而智能體式思考的核心是:模型能否在與環境交互的過程中持續取得進展。

      核心問題從“模型能否思考足夠久?”轉變為“模型能否以支撐有效行動的方式思考?”。

      智能體式思考必須處理純推理模型大多可以回避的幾個問題:

      ? 決定何時停止思考并采取行動

      ? 選擇調用哪個工具、以何種順序調用

      ? 整合來自環境的噪聲或部分觀測信息

      ? 在失敗后修正計劃

      ? 在多輪對話與多次工具調用中保持連貫性

      智能體式思考,本質是通過行動進行推理的模型。


      5. 為何智能體強化學習基礎設施更具挑戰

      一旦目標從解決基準問題轉向解決交互任務,強化學習技術棧就會發生變化。傳統推理強化學習所用的基礎設施已不再足夠。


      在推理強化學習中,你通??梢詫④壽E采樣視為相對自包含的過程,評估器也較為清晰。而在智能體強化學習中,策略被嵌入到一個更大的“ harness”中:工具服務器、瀏覽器、終端、搜索引擎、模擬器、執行沙箱、API 層、記憶系統與編排框架。

      環境不再是靜態驗證器,而是訓練系統的一部分。

      這催生了新的系統要求:訓練與推理必須更清晰地解耦。若沒有這種解耦,軌跡采樣吞吐量會急劇下降。

      試想一個編碼智能體:它必須在實時測試 harness 中執行生成的代碼——推理端會因等待執行反饋而停滯,訓練端則因缺少完成的軌跡而“饑餓”,整個 pipeline 的 GPU 利用率遠低于傳統推理強化學習的預期。

      工具延遲、部分可觀測性與有狀態環境會進一步放大這些低效問題,結果是實驗進展緩慢,在達到目標能力水平前就變得痛苦不堪。

      環境本身也成為了一等公民的研究對象。

      在監督微調時代,我們癡迷于數據多樣性;在智能體時代,我們應癡迷于環境質量:穩定性、真實性、覆蓋范圍、難度、狀態多樣性、反饋豐富性、抗利用性與軌跡生成可擴展性。

      環境構建已開始成為一個真正的創業賽道,而非副業項目。如果智能體要在類生產環境中運行,環境就是核心能力棧的一部分。


      6. 下一個前沿是更可用的思考

      我預計,智能體式思考將成為主導的思考形式。

      它最終可能會取代大部分舊式靜態獨白式推理思考——那些過長、孤立的內部軌跡,試圖通過輸出越來越多的文本來彌補交互的缺失。

      即便在極難的數學或編碼任務中,真正先進的系統也應有權進行搜索、模擬、執行、檢查、驗證與修正。目標是穩健且高效地解決問題。

      訓練這類系統的最大挑戰是獎勵作弊(reward hacking)。一旦模型獲得有意義的工具訪問權限,獎勵作弊的風險會大幅升高:

      ? 具備搜索能力的模型可能在強化學習中學會直接查找答案;

      ? 編碼智能體可能利用倉庫中的未來信息、濫用日志,或發現使任務失效的捷徑;

      ? 存在信息泄露的環境可能讓策略看起來“超人類”,實則訓練它作弊。

      這正是智能體時代比推理時代更微妙的地方:更好的工具讓模型更有用,但也擴大了虛假優化的攻擊面。

      我們可以預期,下一個嚴肅的研究瓶頸將來自環境設計、評估器魯棒性、反作弊協議,以及策略與世界之間更具原則性的接口。

      盡管如此,方向是明確的:工具賦能的思考遠比孤立思考更有用,也更有機會提升真實生產力。

      智能體式思考也意味著harness 工程化。核心智能將越來越多地來自多智能體的組織方式——一個負責規劃與任務路由的編排器、像領域專家一樣行動的專業智能體,以及執行更窄任務的子智能體(幫助控制上下文、避免污染、保持不同推理層級的分離)。

      未來的轉變是,從訓練模型到訓練智能體,再從訓練智能體到訓練系統。


      結論

      推理浪潮的第一階段確立了一個重要事實:當反饋信號可靠、基礎設施能支撐時,語言模型之上的強化學習可以產生質的更強認知。

      更深層的轉變是從推理式思考走向智能體式思考:從“思考更久”轉向“為行動而思考”。

      訓練的核心對象發生了變化——它不再是單純的模型,而是模型+環境系統。更具體地說,是智能體及其周圍的 harness。

      這改變了最重要的研究對象:模型架構與訓練數據固然重要,但環境設計、軌跡采樣基礎設施、評估器魯棒性,以及多智能體協作的接口也同樣關鍵。

      它也改變了“好的思考”的定義:支撐現實約束下有效行動的最有用軌跡,而非最長或最可見的軌跡。

      這同樣改變了競爭優勢的來源:

      ? 在推理時代,優勢來自更好的強化學習算法、更強的獎勵信號與更可擴展的訓練 pipeline;

      ? 在智能體時代,優勢將來自更好的環境、更緊密的訓練-服務集成、更強的 harness 工程能力,以及閉合模型決策與其后果之間循環的能力。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      永久協議終簽署!中國西部再無戰火,歐亞大陸迎來歷史新篇

      永久協議終簽署!中國西部再無戰火,歐亞大陸迎來歷史新篇

      王二哥老搞笑
      2026-05-08 08:42:32
      松島輝空這是多么嫌棄張本智和!在頒獎典禮上,張本智別提多高興了,但松島輝空卻是一臉的不高興

      松島輝空這是多么嫌棄張本智和!在頒獎典禮上,張本智別提多高興了,但松島輝空卻是一臉的不高興

      乒乓助手
      2026-05-13 00:06:34
      但斌:一個被低估的時代主線,未來幾年CPU增長或遠超GPU!

      但斌:一個被低估的時代主線,未來幾年CPU增長或遠超GPU!

      呼呼歷史論
      2026-05-12 18:22:34
      上海交通大學醫學院附屬仁濟醫院房靜遠院士/錢縉研究員課題組誠聘博士后(長期有效)

      上海交通大學醫學院附屬仁濟醫院房靜遠院士/錢縉研究員課題組誠聘博士后(長期有效)

      BioArt
      2026-05-12 08:09:41
      美媒:雄鹿&維拉老板艾登斯與46歲華裔女子發生性關系,女方勒索12億美元

      美媒:雄鹿&維拉老板艾登斯與46歲華裔女子發生性關系,女方勒索12億美元

      懂球帝
      2026-05-11 09:41:18
      特朗普訪華最后關頭!74位美議員聯名致信:求別讓中國車入美

      特朗普訪華最后關頭!74位美議員聯名致信:求別讓中國車入美

      快科技
      2026-05-11 18:51:10
      北京內線曝隱患!全程指望周琦,斯佩爾曼攻強守弱,麥基成笑話

      北京內線曝隱患!全程指望周琦,斯佩爾曼攻強守弱,麥基成笑話

      籃球資訊達人
      2026-05-13 02:59:49
      吉利MPV新車官宣:5月19日,正式上市

      吉利MPV新車官宣:5月19日,正式上市

      科技堡壘
      2026-05-11 11:39:21
      你坐火車有過哪些奇葩經歷?網友:怪自己那時候太單純!

      你坐火車有過哪些奇葩經歷?網友:怪自己那時候太單純!

      夜深愛雜談
      2025-12-21 17:37:52
      被橫掃出局,雷霆揉碎了湖人建隊夢!小里去留成未來爭冠關鍵!

      被橫掃出局,雷霆揉碎了湖人建隊夢!小里去留成未來爭冠關鍵!

      夕落秋山
      2026-05-13 01:02:08
      大眾嚴選 9久相伴 一汽-大眾春季新品發布會五車齊發

      大眾嚴選 9久相伴 一汽-大眾春季新品發布會五車齊發

      車圈小晨正版
      2026-04-01 10:48:23
      如今不是美國敢不敢打中國的問題,是中國讓不讓美國打的問題了

      如今不是美國敢不敢打中國的問題,是中國讓不讓美國打的問題了

      Ck的蜜糖
      2026-05-12 18:17:32
      上海人的10條規矩,外地人看完沉默了

      上海人的10條規矩,外地人看完沉默了

      朗威談星座
      2026-05-12 17:23:14
      在巴薩奪得西甲冠軍后的慶?;顒又?,庫巴西首次官宣了女友

      在巴薩奪得西甲冠軍后的慶?;顒又?,庫巴西首次官宣了女友

      懂球帝
      2026-05-12 18:00:11
      網紅教授鄭強談就業翻車,網友失望評價:原來你也何不食肉糜了!

      網紅教授鄭強談就業翻車,網友失望評價:原來你也何不食肉糜了!

      深度報
      2026-05-12 23:16:28
      蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

      蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

      川渝視覺
      2026-04-17 22:13:14
      日經亞洲突然爆出重磅消息!中國給國內所有芯片廠下一道"死命令"

      日經亞洲突然爆出重磅消息!中國給國內所有芯片廠下一道"死命令"

      阿七說史
      2026-05-11 15:23:09
      戴口罩!長春街頭已大量出現!

      戴口罩!長春街頭已大量出現!

      吉刻新聞
      2026-05-12 18:32:20
      一算嚇一跳!公務員、事業編、企退人員撫恤金真實差額

      一算嚇一跳!公務員、事業編、企退人員撫恤金真實差額

      李博世財經
      2026-05-12 14:28:25
      Quantum Computing漲超38%

      Quantum Computing漲超38%

      每日經濟新聞
      2026-05-12 21:56:05
      2026-05-13 04:15:00
      AI先鋒官 incentive-icons
      AI先鋒官
      AIGC大模型及應用精選與評測
      506文章數 74關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      房產
      藝術
      手機
      本地
      公開課

      房產要聞

      穗八條引爆樓市!萬博寶藏紅盤,五一勁銷出圈

      藝術要聞

      震驚!他竟用鏡頭看透了所有女人的秘密!

      手機要聞

      Android推新功能“暫停點” 助用戶擺脫刷手機上癮

      本地新聞

      用蘇繡的方式,打開江西婺源

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久精品无码一区二区小草| 成人亚欧欧美激情在线观看| 国产精品店无码一区二区三区| av资源免费看| 亚洲天堂日韩av电影| 国产精品a成v人在线播放| 精品久久久无码中字| 美女黄色网| 精品99re66一区三区| 国产又黄又爽胸又大免费视频| 精品多毛少妇人妻av免费久久| 亚洲狠狠婷婷综合久久| 日本中文字幕乱码免费| 蜜桃视频一区二区在线观看| 91人人操| 国产精品永久免费嫩草研究院| av男人的天堂在线观看国产| 亚亚洲视频一区二区三区| 能在线看的av网站| 欧美性群另类交| 亚洲中文字幕av每天更新| 最新亚洲人成网站在线影院| 91在线无码精品秘?国产千人斩| 最近免费字幕中文大全在线观看 | 免费92淫黄看电影| 国产自国产自愉自愉免费24区| 亚洲妓女综合网995久久| 国产AV无码专区亚洲AV桃花庵| 免费vA片| 欧美在线观看视频111111| 国产精品亚洲片夜色在线 | 久久久久亚洲AV青青草原| 亚洲中文另类| 免费国产在线精品一区| 久久综合少妇11p| 成都同性男男gayxxxx| 丝袜人妻一区二区三区网站| 中文字幕欧美日韩高清| 午夜成人影片av| 自拍偷自拍亚洲精品熟妇人| 一本色道久久88亚洲精品|