<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      大模型高效推理新答案:ICLR 2026提出Balanced Thinking

      0
      分享至



      在過去一年中,大模型推理中的「過度思考」問題引發了廣泛關注。然而,真正的挑戰并非簡單地縮短思維鏈。面對簡單問題,模型往往在得出正確答案后仍持續進行冗余驗證;而許多旨在抑制過度思考的方法雖能壓縮輸出長度,卻常常將必要的推理探索一并剔除,導致模型從「想太多」直接滑向「想太少」。高效推理的核心目標并非一刀切地削減推理步驟,而是使模型在不同任務中實現恰到好處的思考深度。

      針對這一問題,哈爾濱工業大學(深圳)等機構的研究者提出了 ReBalance 方法,并首次系統性引入Balanced Thinking這一新視角。該工作的核心觀點明確:高效推理的關鍵并非盲目壓縮推理長度,而是在過度思考與思考不足之間維持動態平衡。

      基于此,ReBalance 利用模型自身的置信度信號,在思考過程中實時調控其內部狀態,無需額外訓練即可實現推理行為的動態引導。實驗表明,在參數規模從 0.5B 至 32B 的四個主流模型上,以及涵蓋數學推理、通用問答和編程任務的九個基準測試中,ReBalance 在精度提升 10.0 的同時,推理長度直降 35.4%。



      • 論文標題:Efficient Reasoning with Balanced Thinking
      • 項目主頁:https://rebalance-ai.github.io
      • 會議:ICLR 2026
      • 方法名稱:ReBalance
      • 作者機構:哈爾濱工業大學(深圳)等

      真正的問題,不是「過度思考」,而是「思考失衡」

      慢思考模型已展現出強大的推理能力,但「會推理」不等于「高效推理」。在簡單題目上,模型經常在答案收斂后持續分叉、回看、復核,帶來更高的延遲和 token 成本,甚至可能引入額外幻覺。現有方法主要通過抑制反思關鍵詞的生成或直接施加推理長度懲罰來緩解這一問題,但它們往往隱含了一個過于簡化的假設,即推理「越短越好」。

      然而,過度思考與思考不足本質不同。前者指在正確推理路徑已然顯現后仍無謂延展,后者則是在探索尚未充分時便倉促得出結論。若將這兩種失衡模式混為一談,許多標榜「高效」的方法實則以犧牲準確率為代價換取推理長度縮減。

      ReBalance 的核心貢獻在于將高效推理重新定義為一種「平衡」問題:模型不應一味追求縮短推理,而應在恰當的時機停止冗余思考,在必要時繼續深入探索,從而實現簡潔性與充分性的統一。



      圖 1:在同一問題上,慢思考模型在得出正確答案后仍進行冗余反思;現有抑制方法則過度壓縮有效推理,導致思考不足;而 ReBalance 能夠生成既簡潔又充分的推理過程。

      關鍵發現:置信度是推理狀態的可靠連續信號

      論文中提供了一個具有啟發性的見解。作者通過分析 step-level confidence 及局部 confidence variance 發現,不同推理失衡狀態呈現出顯著差異的置信度軌跡。在過度思考情形下,模型置信度在多個推理步驟中表現出明顯波動,反映出其在不同推理路徑之間反復搖擺,難以收斂。相比之下,思考不足通常表現為持續偏高的置信度與較低的波動性,表明模型并非缺乏推理能力,而是因過度自信而過早鎖定于錯誤的推理路徑。

      這一發現具有重要意義。它將高效推理的調控機制從依賴經驗性關鍵詞抑制,推進至基于模型原生信號的動態狀態建模。置信度并非靜態評分,而是一種可在線觀測、連續演化且與推理行為緊密耦合的狀態指標。一旦識別出該連續信號,便為實現細粒度的動態推理控制提供了可能。



      圖 2:現有過度思考抑制方法在縮短正確樣本推理長度的同時,也壓縮了錯誤樣本的推理過程,表明其在緩解過度思考的同時引入了思考不足的問題。相比之下,ReBalance 能夠更有效地維持推理平衡。

      ReBalance:將模型實時引導至推理平衡區


      基于上述洞察,ReBalance 提出了一種無需訓練的兩階段推理調控框架。第一階段為離線數據采集:在小規模已知數據集上執行單次前向推理,依據置信度及其波動程度識別具有過度思考或思考不足傾向的推理步驟,并從深層 hidden states 中分別提取兩類原型表示。兩類原型之差構成一個引導向量(steering vector),用以刻畫模型在兩種失衡狀態之間的內部遷移方向。

      第二階段為在線動態引導:在實際思考過程中,ReBalance 持續監測當前推理步驟的置信度與波動幅度,并通過一個基于模型行為擬合的動態控制函數,實時確定引導的方向與強度。當模型處于低置信度、高波動狀態時,方法增強其收斂傾向,抑制冗余反思;當模型處于高置信度、低波動狀態時,則施加反向引導,鼓勵進一步探索,防止過早終止。該方法全程無需重新訓練、不依賴輔助模型,亦不引入額外推理階段。



      圖 3:ReBalance 框架示意圖

      實驗驗證:兼顧效率與性能的精準壓縮


      實驗結果充分驗證了 Balanced Thinking 的有效性與魯棒性。論文在四個參數規模從 0.5B 至 32B 的慢思考模型上開展了系統性評估,涵蓋數學推理、通用問答和代碼生成任務等九項基準測試。結果表明,ReBalance 并非以犧牲性能換取輸出長度的縮減,而是在提升推理效率的同時顯著增強模型表現。

      在數學推理任務中,該方法最高實現 10.0 個百分點的 Pass@1 準確率提升,并將生成長度最多壓縮 35.4%。在非數學任務如 GPQA-D、StrategyQA 和 LiveCodeBench 上,ReBalance 同樣展現出穩定的跨領域泛化能力,其中 GPQA-D 準確率最高提升 6.6 個百分點,同時 token 消耗最多降低 29.9%。

      尤為關鍵的是,ReBalance 并非對所有輸出進行無差別截斷。論文分析表明,現有方法往往同步縮短正確與錯誤樣本的推理鏈,導致在緩解過度思考的同時誘發思考不足。相比之下,ReBalance 能夠動態調節推理深度:當模型已步入正確推理路徑時,有效削減冗余內容;當模型仍需深入探索時,則保留必要推理步驟。這種自適應機制正是 Balanced Thinking 的核心優勢。

      此外,作者在 Ascend 910B NPU 平臺的 openPangu slow-thinking 模式中驗證了該方法的部署兼容性。在 AIME 2025 基準上,ReBalance 在準確率提升 3.4 個百分點的同時,輸出長度減少 35.3%,進一步凸顯其在實際應用中的潛力。



      ·表 1:數學推理任務驗證

      結語


      ReBalance 的價值不僅在于提出了一種新的高效推理方法,更在于系統引入了Balanced Thinking這一全新視角。高效推理本質上并非單純的序列壓縮問題,而應是一個動態控制過程。當目標從「縮短推理鏈」轉變為「維持推理過程的平衡」時,置信度自然成為連續可靠的控制信號,而潛空間引導(Latent Steering)則成為輕量且高效的干預機制,從而重構了整個問題的求解范式。

      對于面向實際部署的推理模型,這一視角尤為重要。在延遲敏感、算力受限的應用場景中,模型所需并非無限制延長推理時間,而是以更優的方式思考,并恰當地控制推理長度。ReBalance 為此提供了一個簡潔、輕量且具有良好泛化能力的解決方案。目前,該項目已開源,并配套提供了交互式演示及多個模型的引導向量,降低了復現與應用門檻。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      猶太人忍不了了!英國爆發百萬游行,猶太領袖被排除在反猶集會外

      猶太人忍不了了!英國爆發百萬游行,猶太領袖被排除在反猶集會外

      愛吃醋的貓咪
      2026-05-12 20:41:46
      美股全線下跌,超3500只個股走低,中概股普跌;英偉達逆勢上揚,再創歷史新高!金銀下挫,國際油價拉升|美股開盤

      美股全線下跌,超3500只個股走低,中概股普跌;英偉達逆勢上揚,再創歷史新高!金銀下挫,國際油價拉升|美股開盤

      每日經濟新聞
      2026-05-12 22:18:42
      山東37歲女子離婚當天徹底瘋了,當場撒潑嘶吼前夫,網友紛紛叫好

      山東37歲女子離婚當天徹底瘋了,當場撒潑嘶吼前夫,網友紛紛叫好

      社會日日鮮
      2026-05-12 08:09:39
      劉濤雨中跪拜媽祖,一道光打下來,福建人徹底信了

      劉濤雨中跪拜媽祖,一道光打下來,福建人徹底信了

      TVB的四小花
      2026-05-10 10:38:33
      收網已結束,特朗普空軍一號抵華前,中方宣布:中美取得重大戰果

      收網已結束,特朗普空軍一號抵華前,中方宣布:中美取得重大戰果

      風干迷茫人
      2026-05-13 00:58:29
      黑衣女子推搡哨兵后續:知情人爆料,官媒發聲恐不止坐牢這么簡單

      黑衣女子推搡哨兵后續:知情人爆料,官媒發聲恐不止坐牢這么簡單

      趙枹是個熱血青年
      2026-05-12 23:05:47
      特朗普訪華前一天突然改口:我把中國“看錯了”

      特朗普訪華前一天突然改口:我把中國“看錯了”

      奇思妙想生活家
      2026-05-13 01:12:38
      老了才看透:父弱母強的家庭,養出來的孩子,大多是這兩種結局

      老了才看透:父弱母強的家庭,養出來的孩子,大多是這兩種結局

      心理觀察局
      2026-05-11 10:00:27
      4死1傷!遼寧遼陽發布一起較大交通事故調查報告:韓某某駕駛過程中吸食含有丙烷、正丁烷、異丁烷成分的氣體,與重型半掛牽引車相撞

      4死1傷!遼寧遼陽發布一起較大交通事故調查報告:韓某某駕駛過程中吸食含有丙烷、正丁烷、異丁烷成分的氣體,與重型半掛牽引車相撞

      揚子晚報
      2026-05-12 20:57:58
      9.3億罰款+全球禁售?扒一扒“杜卡迪起訴張雪機車”背后的驚天謠言!

      9.3億罰款+全球禁售?扒一扒“杜卡迪起訴張雪機車”背后的驚天謠言!

      沙雕小琳琳
      2026-05-12 19:22:21
      亞洲杯太殘酷了:隨著中國2-0,日本3-1,2大勁旅已經被送回家

      亞洲杯太殘酷了:隨著中國2-0,日本3-1,2大勁旅已經被送回家

      側身凌空斬
      2026-05-13 02:00:18
      兵敗如山倒!國產新能源或已經證明:中國壓根不需要二線豪華品牌

      兵敗如山倒!國產新能源或已經證明:中國壓根不需要二線豪華品牌

      蜉蝣說
      2026-05-12 11:08:06
      勝利日閱兵后就訪華,普京為何著急訪華?見特朗普幾率多大?

      勝利日閱兵后就訪華,普京為何著急訪華?見特朗普幾率多大?

      真貓爺的漁場
      2026-05-12 19:37:14
      緊急提醒!打過科興疫苗的所有人,趕緊看!近期多人被騙,套路全曝光

      緊急提醒!打過科興疫苗的所有人,趕緊看!近期多人被騙,套路全曝光

      網絡易不易
      2026-05-12 13:00:50
      700日元變350日元!日本盒飯明著打折,為啥沒人敢等?

      700日元變350日元!日本盒飯明著打折,為啥沒人敢等?

      老特有話說
      2026-05-12 15:31:57
      Skip:我猜詹姆斯會主動降薪留湖人,東契奇會默默說‘不,又來’

      Skip:我猜詹姆斯會主動降薪留湖人,東契奇會默默說‘不,又來’

      好火子
      2026-05-13 00:34:13
      一個冰冷現實:中印沖突正全方位升級,中國越避讓,印度越對抗

      一個冰冷現實:中印沖突正全方位升級,中國越避讓,印度越對抗

      共工之錨
      2026-05-12 23:54:13
      張本美和真敢說!直言全日本不想承認的事實:孫穎莎沒任何弱點

      張本美和真敢說!直言全日本不想承認的事實:孫穎莎沒任何弱點

      鍋鍋愛歷史
      2026-05-13 04:44:49
      萬茜與丈夫徐洪濤的合影,丈夫圈外人,比萬茜大10歲

      萬茜與丈夫徐洪濤的合影,丈夫圈外人,比萬茜大10歲

      喜歡歷史的阿繁
      2026-05-13 05:28:40
      匈牙利這波轉向,讓美俄很惱火!!!

      匈牙利這波轉向,讓美俄很惱火!!!

      山河路口
      2026-05-11 23:55:18
      2026-05-13 06:00:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12979文章數 142648關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      數碼
      手機
      家居
      親子
      公開課

      數碼要聞

      看電視的人越來越多了 3億臺電視在線 小米第一

      手機要聞

      10年支持不變:谷歌力保現有Chromebook

      家居要聞

      極簡主義下的居住場域與空間

      親子要聞

      夏天建議:把孩子的空調服換成它!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产成人精品一区二区三区免费| 日韩深夜免费在线观看| 欧美成人免费看片一区| 成人免费的视频| 亚洲精品资源在线观看| 高潮插的我好爽再干噢在线欢看| 国产美女精品自在线拍免费| 久久精品亚洲国产综合色| 97综合图片| 自拍视频在线观看成人| 荣昌县| 偷自拍另类亚洲清纯唯美| 丰满熟女乱婬A片六区| 亚洲精品国产成人99久久6| 人妻丰满熟妇AV无码区乱| 久久国产成人亚洲精品影院老金| av在线无码| 中文字幕一区二区三区人妻精品| 女人毛片女人毛片高清| 婷婷四房播播| 极品av在线播放| 亚洲天堂网在线播放| 亚洲欧美日韩综合久久久久久| 中文字幕久久久久人妻无码| av三区在线| 国产又色又爽又刺激在线播放| 国产一级特黄aa大片在线观看| 色综合久久88| 亚洲视频在线观看2018| 伊人久在线观看视频| 精品人妻无码一区二区三区蜜桃一| 国产在线欧美日韩精品一区| 中文成人无码精品久久久不卡| 亚洲精品国产AV天美传媒| 91视频国产高清| 精品无码一区二区三区不卡| 人妻福利| 美女Av影院| 激情综合欧美一区二区三区| 国产成人亚洲综合网站小说| 欧美精品v欧洲精品|