<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      領先于Transformer!首個1200萬上下文模型SubQ,成本僅Opus的5%

      0
      分享至

      編輯|冷貓、陳陳

      你有沒有想過,為什么 AI 讀一篇短文游刃有余,卻在面對一整個代碼庫時頻頻出錯?

      原因無他,因為注意力撐不住。

      現代大模型的核心機制叫做注意力機制,每個詞都要跟上下文里的所有其他詞兩兩比較,才能理解彼此的關系。這個設計讓模型變得無比強大,但也埋下了一個隱患:上下文越長,計算量就越夸張。放到百萬 token 級別,這種代價幾乎是天文數字。

      于是有研究者開始琢磨縮短上下文的方法,把長文檔切碎、檢索、壓縮,再喂給模型。這樣一來模型拿到的,只是碎片化信息。

      Subquadratic,這家專注于前沿 AI 研究與基礎設施的公司,在最近的一篇文章中給出了一個不同的思路:與其把文檔切短來喂給模型,不如先來改造模型,讓它真正讀得了長文檔。

      他們提出了一種名為 SubQ 的模型,其核心是SSA(Subquadratic Sparse Attention),即亞二次稀疏注意力機制。這是一種經過線性擴展的注意力機制,專為長上下文檢索、推理和軟件工程工作負載而設計。

      其核心需求很簡單:企業 AI 需要解決的真正難題,本質上都是長上下文問題。代碼庫、合同、企業知識庫、數據庫、電子表格、研究語料,以及長時間運行的智能體會話。

      以往,模型在回答問題時之所以經常失敗,并不是因為答案不存在,而是因為相關證據分散在大量上下文中,彼此之間是間接引用的,只有同時理解多處信息時才真正有意義。

      稠密注意力(Dense attention)成就了現代語言模型,但也讓長上下文變得昂貴。每個 token 都要與其他所有 token 進行比較,因此注意力計算量會隨著序列長度呈二次方增長。

      SSA 改變了這種擴展方式。

      它不是計算所有 token 兩兩之間的交互,而是通過內容相關的選擇機制,將注意力路由到真正重要的位置,無論這些位置出現在序列中的哪里。

      這點非常重要,因為長上下文能力并不只是更大的提示詞窗口。名義上的上下文窗口,告訴你模型最多能處理多少 token;而真正有效的上下文窗口,決定了模型能在多少 token 中穩定地進行推理。SSA 瞄準的正是后一個問題。

      在 MRCR v2 上,SubQ 能夠跟上前沿的稠密注意力模型;在核心長上下文檢索任務中,它達到了同等水平;并且在 100 萬 token 場景下,相比稠密注意力實現了 52.2 倍的預填充加速。其結果是一種新的模型架構:讓百萬 token 上下文的服務成本更低、迭代速度更快。

      Subquadratic 聯合創始人 Alexander Whedon 對這項研究進行了宣傳,稱 SubQ 是 LLM 智能的一次重大突破。



      據他介紹,SubQ 是首個基于完全亞二次稀疏注意力架構(SSA)構建的模型,也是首個擁有 1200 萬 token 上下文窗口的前沿模型。

      在 100 萬 token 場景下,它比 FlashAttention 快 52 倍;而成本還不到 Opus 的 5%。



      Whedon 認為,當前基于 Transformer 的大語言模型,在計算上存在天然浪費。標準注意力機制會處理詞與詞之間所有可能的關系,但真正有意義、真正會影響結果的關系,其實只占很小一部分。

      SubQ 要做的,就是從海量 token 關系中,找到那些真正重要的連接,并把算力集中到這些地方。

      這也意味著,SubQ 有望將計算量降低近 1000 倍,為大語言模型的擴展提供一條不同于傳統 Transformer 堆算力的新路徑。

      Subquadratic 為此發布了技術博客,讓我們來深入地了解這一顛覆了傳統 Transformer 架構的大模型新技術。



      • 博客標題:How SSA Makes Long Context Practical
      • 博客鏈接: https://subq.ai/how-ssa-makes-long-context-practical

      為什么長上下文仍未被解決

      大多數企業級 AI 工作,并不像是在一小段文本上進行干凈的問答。它更像是:

      • 一個代碼庫:某個函數在一個模塊中定義,卻在幾十個模塊中被調用,并受到其他地方測試的約束;
      • 一份合同:某項義務取決于一個定義、一個例外條款,以及相隔數頁的引用條款;
      • 一個科研流程:結論依賴于對多篇論文中證據的整合與協調;
      • 一個長期運行的編程任務:早期的規劃決策、中間修改、評審意見以及回歸問題都至關重要。

      這些都不是簡單的查找問題,而是針對碎片化語料進行多跳推理的問題。

      短上下文系統的失敗,并不僅僅在于缺少了一些上下文,而在于它們被迫對碎片進行推理。當完整對象無法裝入上下文時,系統通常通過分塊(chunking)、檢索(retrieval)、總結(summarization)和編排(orchestration)來彌補。

      這些方法雖然有效,但也會引入新的失效模式。

      RAG 系統能夠保留語義相似性,但會丟失位置信息、層級結構、相鄰上下文以及引用關系。一個片段可能包含正確的文本,卻丟失了為什么它重要這種信息。

      基于 Agent 的工作流會將大任務拆解為多個小的模型調用,但錯誤會在步驟間不斷累積,編排邏輯變成人工編寫的策略,同時上下文在多次調用之間被反復壓縮。

      最終,這類系統對人工設計的依賴,削弱了泛化能力。

      行業的應對方式,是在模型之外不斷構建腳手架。而 SSA 的嘗試,是盡可能減少這些腳手架存在的必要性。

      稠密注意力的成本

      注意力機制本質上是內置在模型中的一種檢索操作。每一個 token 都充當一個 query,與其他所有 token 進行比較,評估它們的相關性,并將這些信息聚合為自身的下一步表示。

      這種機制之所以強大,是因為它讓每個 token 都可以訪問完整上下文;而它之所以昂貴,原因也正相同:每個查詢都要與所有 key 逐一比較。最終形成的是一種 all-pairs 的計算,其成本會隨著序列長度呈二次增長。

      在較小的上下文規模下,這種開銷尚可接受。但在真實問題所需的規模下,幾十萬到上百萬 token,它就成為了主要瓶頸。上下文長度翻倍,計算成本并不會翻倍,而是變為四倍。原本可控的開銷,很快就會在訓練、推理和迭代過程中變得難以承受。

      更糟的是,這其中大部分計算其實是無效的。在訓練好的模型中,絕大多數注意力權重接近于零。模型依然執行了完整的比較過程,但真正對輸出產生影響的交互只占很小一部分。

      換句話說,稠密注意力不僅是二次復雜度,而且是浪費性的二次復雜度

      FlashAttention 改進了這種計算的執行方式。通過避免顯式構建完整的注意力矩陣,并優化內存訪問,它讓稠密注意力在當前上下文規模下變得更加實用。但它并沒有改變底層的擴展規律:比較次數依然不變,模型仍然執行二次規模的計算,只是執行得更高效。

      同樣的情況也出現在系統層面的各種補救方案中。檢索 pipelines、上下文壓縮、遞歸拆解以及基于 Agent 的編排,都在提升稠密注意力系統的可用性,但沒有改變其擴展定律。它們是在繞開這一限制,而不是消除這一限制;二次成本依然是它們所繞行的那條邊界。

      這個領域多年來一直在嘗試降低注意力機制的成本。難點從來不只是降低成本,而是在不破壞檢索能力的前提下降低成本

      真正尚未解決的問題,并不是讓注意力更快,而是更精確的目標:構建一種同時具備高效率、基于內容的路由能力,并能夠在長上下文中從任意位置進行檢索的機制。

      這正是 SSA 試圖解決的問題。

      SSA 的工作原理

      SSA(Subquadratic Selective Attention,亞二次選擇性注意力)改變了注意力計算的分配方式。

      注:與前文 SSA(Subquadratic Sparse Attention,亞二次稀疏注意力機制)不同

      其核心思想是基于內容的選擇(content-dependent selection)。對于每一個 query,模型會先判斷序列中哪些位置值得關注,然后只在這些位置上精確計算注意力。

      稠密注意力假設「任意一對 token 都可能重要」,SSA 去除了這一假設,只在真正有信息量的位置上計算注意力,其余部分直接跳過

      這使 SSA 同時具備三個關鍵特性:

      • 計算與內存的線性擴展:注意力成本取決于被選中的位置數量,而不是完整序列長度,使長上下文在經濟上變得可行。
      • 基于內容的路由能力:模型根據語義決定「去哪里看」,而不是依賴位置模式,因此無論關鍵信息出現在何處,都可以被檢索到。
      • 從任意位置進行稀疏檢索:不同于循環或壓縮類方法,SSA 保留了從序列中任意遠位置恢復具體信息的能力。

      這一點在實踐中非常關鍵。SSA 并不僅僅是對稠密注意力的「更快實現」,而是從根本上減少了模型需要執行的注意力計算量。這種減少,直接體現為速度提升。

      以實際運行時間(wall-clock)衡量,在 B200 GPU 上、128K token 長度時,SSA 相比采用 FlashAttention-2 的標準注意力實現,實現了7.2× 的輸入處理加速。FlashAttention-3 在 B200 上相較于 FlashAttention-2 并未帶來額外加速。

      隨著上下文長度增加,加速效果進一步擴大:

      • 256K:13.2×
      • 512K:23.0×
      • 1M:52.2×

      這也再次印證:SSA 的優勢,正是在長上下文場景中呈現指數級放大。



      這正是對生產環境至關重要的「吞吐反轉」:隨著上下文長度的增加,稠密注意力相對于 SSA 會變得更慢。而 SSA 的優勢,恰恰在長上下文工作負載最有價值的區間內不斷擴大。

      SSA 的訓練

      架構是必要條件,但并不充分。一個模型可以擁有很長的上下文窗口,卻仍然無法很好地利用它。SSA 的訓練目標,是讓長上下文的使用變得可靠,而不僅僅是可行。

      研究團隊采用了三階段訓練流程:

      • 預訓練(Pre-training):建立基礎語言建模能力,以及選擇機制所依賴的長上下文表示。
      • 監督微調(Supervised fine-tuning):將模型行為引導至企業工作負載所需的指令遵循、結構化推理和代碼生成模式。
      • 強化學習(Reinforcement learning):針對那些難以僅通過監督樣本誘導出的行為進行優化,例如穩定的長上下文檢索能力,以及在編碼時主動利用可用上下文,而不是退回到局部推理。

      最后這一階段至關重要。長上下文的失敗往往「看起來是合理的」。

      模型可能會基于鄰近上下文作答,因為這些證據更容易使用,即使決定性證據出現在序列更早的位置;它可能生成一個在局部看似正確、卻違反其他位置定義接口的代碼補丁;它可能對先前決策進行概括,而不是保留應當約束后續步驟的精確條件。

      SSA 的強化學習階段正是圍繞這些失效模式設計的。訓練數據強調高信息密度、具備跨引用結構的長文本來源。這類數據會迫使選擇機制學習在大跨度位置之間進行「路由」。目標不是記住基準,而是讓模型學會無論關鍵信息位于何處,都能關注到它。

      評估結果

      研究團隊認為,需要評估的是「功能上下文(functional context)」,而非「名義上下文(nominal context)」:一個模型宣稱的上下文窗口大小,并不能說明它真正能利用多少上下文。關鍵在于模型是否能夠在這個窗口內檢索、關聯并推理分布在其中的證據。

      研究團隊從兩個維度對 SubQ 進行評估:

      • 部署可行性(Deployment viability):計算量削減與實際運行時間(wall-clock speed)
      • 檢索能力(Retrieval capability):RULER 與 MRCR v2

      計算與速度

      SSA 的線性擴展特性意味著,當上下文長度翻倍時,注意力機制的計算成本僅隨之翻倍,而不是像傳統二次復雜度那樣增長四倍。在 100 萬 token 規模下,相比標準的二次注意力機制,其注意力 FLOPs 降低了 62.5×。



      從產品角度來看,「實際運行時間」(wall-clock speed)才是更關鍵的指標。在 100 萬 token 的規模下,SSA 相比稠密注意力實現了 52.2× 的預填充加速。這種差距,本質上決定了一套長上下文系統究竟是表現為一個可交互的工具,還是更像一個離線批處理任務。



      RULER

      RULER 用于評估模型在超越簡單大海撈針檢索任務之外的行為表現,重點涵蓋多跳檢索、信息聚合、變量跟蹤以及選擇性過濾等能力。



      對于企業級工作流來說,這一點至關重要,因為多跳任務會產生「連鎖放大效應」:一旦在鏈條早期遺漏了某個關鍵引用,后續的每一步推理都可能被污染,最終導致整體結論失真。

      MRCR v2

      MRCR v2 是當前要求最嚴苛的檢索類基準之一。它重點評估模型在長上下文中定位并整合多個非相鄰證據片段的能力,而不是僅僅依賴局部信息完成推理。



      SubQ 得分為 65.9%,處于 Claude Opus 4.6 的 78 分區間之內,并領先于 GPT?5.4 的 39 分以及 Gemini 3.1 Pro 的 23 分。

      這一結果清晰地揭示了名義上下文與功能上下文之間的差異。一個模型也許能夠接收很長的輸入,但仍然無法在這些輸入之上進行可靠的推理。MRCR v2 正是通過要求模型檢索并整合證據,而不僅僅是處理 token,從而暴露了這一差距。

      SWE-Bench Verified

      SWE-Bench Verified 用于評估模型在真實 GitHub issue 上的端到端軟件工程能力。它并非一個純粹的檢索型基準,而是測試模型是否能夠基于對代碼庫的理解來定位 bug、推理實現約束,并生成可行的補丁。



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      俄烏戰場“最破防”的,從來不是士兵,而是中國炮兵專家?

      俄烏戰場“最破防”的,從來不是士兵,而是中國炮兵專家?

      阿器談史
      2026-05-10 04:07:48
      俄羅斯又開始許愿,要求烏克蘭撤出“俄羅斯領土”

      俄羅斯又開始許愿,要求烏克蘭撤出“俄羅斯領土”

      山河路口
      2026-05-13 20:35:10
      在烏拉圭,我終于明白什么叫“窮得有尊嚴”

      在烏拉圭,我終于明白什么叫“窮得有尊嚴”

      復轉這些年
      2026-05-14 18:01:23
      這段外賣小哥與交警的“神仙對話”,為何點贊破百萬?| 鋒面評論

      這段外賣小哥與交警的“神仙對話”,為何點贊破百萬?| 鋒面評論

      上觀新聞
      2026-05-14 11:01:05
      林徽因和陸小曼誰更美?爭議一直沒停,老照片卻最真實不騙人

      林徽因和陸小曼誰更美?爭議一直沒停,老照片卻最真實不騙人

      鄉野小珥
      2026-05-09 06:05:00
      賴清德鬧大笑話、斯威士蘭捅他刀子!轉身發現:鄭麗文悶聲做大事

      賴清德鬧大笑話、斯威士蘭捅他刀子!轉身發現:鄭麗文悶聲做大事

      野史日記
      2026-05-14 09:40:25
      在《水滸傳》中,高俅經常被稱為高太尉,相當于今天的什么官職?

      在《水滸傳》中,高俅經常被稱為高太尉,相當于今天的什么官職?

      掠影后有感
      2026-05-14 11:46:53
      會談現場氣氛緩和,中方直言臺灣問題,特朗普的反應值得細品

      會談現場氣氛緩和,中方直言臺灣問題,特朗普的反應值得細品

      創造精彩劇情
      2026-05-15 09:21:08
      華為贏麻了!微信800人天團適配鴻蒙,安卓、iOS慕了

      華為贏麻了!微信800人天團適配鴻蒙,安卓、iOS慕了

      雷科技
      2026-05-14 18:51:01
      4月新能源銷量排行榜 | 第一名斷層領先,小米“扮豬吃老虎”

      4月新能源銷量排行榜 | 第一名斷層領先,小米“扮豬吃老虎”

      正在說車
      2026-05-15 09:28:38
      王心凌一場商演拿走350萬。臺下有大哥朝她喊“把外套脫了”。

      王心凌一場商演拿走350萬。臺下有大哥朝她喊“把外套脫了”。

      鯨讓我照顧海
      2026-05-15 00:15:44
      當著特朗普的面,中方把臺灣紅線劃到底

      當著特朗普的面,中方把臺灣紅線劃到底

      慢歌輕步謠
      2026-05-15 09:37:04
      細節里全是尊重!孩子一身中式穿搭,比千言萬語都有分量!

      細節里全是尊重!孩子一身中式穿搭,比千言萬語都有分量!

      小娛樂悠悠
      2026-05-15 09:16:26
      國乒大洗牌!一天內2人退出國家隊,王勵勤動真格,新規則很殘酷

      國乒大洗牌!一天內2人退出國家隊,王勵勤動真格,新規則很殘酷

      精彩背后
      2026-05-15 04:08:04
      安徽省紀委監委通報

      安徽省紀委監委通報

      新浪財經
      2026-05-15 08:45:15
      俄軍前線失控,指揮癱瘓、軍頭林立,1917年式危機陰影重現。

      俄軍前線失控,指揮癱瘓、軍頭林立,1917年式危機陰影重現。

      高博新視野
      2026-05-13 07:30:17
      阿丘曾揚言讓中國道歉被央視開除,6年后的近況如何

      阿丘曾揚言讓中國道歉被央視開除,6年后的近況如何

      楓塵余往逝
      2026-05-15 05:43:54
      湯普森伊森會6000萬美元續約!1.2億陣容沒核心,交易不可避免

      湯普森伊森會6000萬美元續約!1.2億陣容沒核心,交易不可避免

      金風說
      2026-05-15 08:07:29
      心理學上有個詞叫:螃蟹效應。永遠要記住,和周圍人搞好關系的秘訣就是,不分享喜悅、不炫耀成功、不說三道四、不假裝聰明

      心理學上有個詞叫:螃蟹效應。永遠要記住,和周圍人搞好關系的秘訣就是,不分享喜悅、不炫耀成功、不說三道四、不假裝聰明

      德魯克博雅管理
      2026-04-28 17:04:30
      中國老年癡呆人數全球第一:茶喝的越多,癡呆的就越多,真的嗎?

      中國老年癡呆人數全球第一:茶喝的越多,癡呆的就越多,真的嗎?

      敘說醫療健康
      2026-05-13 06:00:20
      2026-05-15 10:31:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12996文章數 142648關注度
      往期回顧 全部

      科技要聞

      兩年聯姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      男子騎摩托逆行致1死 死者妻子:丈夫特別好他太冤了

      頭條要聞

      男子騎摩托逆行致1死 死者妻子:丈夫特別好他太冤了

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      特朗普的北京時刻

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      藝術
      教育
      數碼
      手機
      房產

      藝術要聞

      王洪文書法深得教員精髓!當下,書法是大眾文化還是小眾文化?

      教育要聞

      有溫度的校長,都懂得“抒情”

      數碼要聞

      華碩ROG Zephyrus G16 GU606海外發布

      手機要聞

      蘋果iPhone17 Pro系列全線下調1000元

      房產要聞

      海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品一区二区资源| 国产成人精品午夜福利不卡| 青青草97国产精品免费观看| 曰批视频免费30分钟成人| 欧洲精品5区| 99e久热只有精品8在线直播| 日本裸交xx╳╳137大胆| 日亚韩在线无码一区二区三区| 中文字幕精品无码| 日本添下边视频全过程| 国产欧美va欧美va在线| 国内精品久久久久久久久蜜桃| 国产成人精品久久综合| 又色又爽又黄18禁美女裸身无遮挡 | 欧美亚洲日本国产黑白配| 日韩女人性猛交| 亚洲欧洲无码av电影在线观看 | 久久丫精品忘忧草西安产品| 中文字幕无码日韩专区免费| 国产欧美在线观看一区| 亚洲视频在线a视频| 艳妇乳肉豪妇荡乳在线观看| 日韩亚洲中文图片小说| 久久久国产不卡一区二区| 狠狠的干性视频| 无码专区aaaaaa免费视频| 无码人妻丰满熟妇啪啪| 夜夜撸网站| 亚洲精品无码久久毛片| 亚洲风情亚aⅴ在线发布| 免费国产高清在线精品一区| 国产成人综合精品无码| AV天堂色| 一本一道波多野结衣av黑人| 亚洲AV综合久久九九| gav成人| 极品少妇xxxx| 免费黄色小视频网站| 国产一级片网址| xxxx国产| 精品欧美一区手机在线观看|