<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      大模型又出新架構,面壁這次把Transformer上下文能力拉滿了

      0
      分享至

      我有點好奇一個問題,

      讓現階段一個百萬上下文的大模型讀一本百萬字的小說,需要推理嗎?

      可能大部分時候不需要,它需要的只是記住,記住第一章的主角在最后一章說了什么。

      現在傳統的Transformer架構只有一種處理方式,全靠硬算。它像一個過于認真的前排學霸,為了記住最后一章的內容,把前面九十九萬字的內容跟每一個新生成的字都做一次對比計算。


      這樣會占大量的顯存,計算量也會平方級增長。

      這一周新的大模型也是不停刷新,MiniMax M2.5,GLM5,Gemini 3.1 Pro Preview,DeepSeek新版本(疑似V4),我都希望他們可以接入我的OpenClaw里面,做一個長對話長記憶的模型。

      昨天,面壁還發了一篇新論文,提出了一個叫SALA(Sparse Attention-Linear Attention)的混合注意力架構。它給出了一個新觀點,

      該快的地方就得快,該準的地方必須準。


      https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM_SALA.pdf

      在他們的SALA架構里,

      一部分模塊專門負責快,

      另一部分模塊專門負責準。

      結果就是,基于SALA架構的模型,在端側顯卡上,第一次把百萬的長文本推理,穩穩跑通了。


      我們來看一個具體的例子,

      模型在處理百萬字小說時,內部發生了什么。

      每生成一個新詞,模型都要把它和前面所有詞語的鍵值對,也就是KV Cache,全部計算一遍。計算復雜度是隨著文本長度平方級增長的,

      同時,這個KV Cache會像滾雪球一樣,迅速吃掉你所有的顯存。把上下文從一萬字拉到一百萬字,計算量不是漲一百倍,是飆升一萬倍。

      這就是為什么傳統架構在長上下文任務面前,會同時撞上計算墻和顯存墻。


      這幾十萬字的上下文,大部分可能只是背景描述,真正關鍵的信息也許就那么幾句。

      但模型為了找到這幾句關鍵信息,付出的代價是把所有內容都用最高精度過了一遍。

      來看看SALA的幾個關鍵的設計,

      首先是兩種模塊的分工。

      線性注意力,我們這里可以理解為負責準的模塊,面壁選用的是Lightning Attention,挑出那些最關鍵的局部信息進行精細計算。稀疏注意力,則是負責快的模塊,面壁選用的是InfLLM v2,會高效計算所有信息。

      SALA就是把這兩者結合了起來。整個模型里,75%的層是負責準的線性注意力,剩下的25%,是負責快的稀疏注意力。這個比例經過大量實驗找出的效率與精度之間的平衡點。


      在不使用任何額外技術(如YaRN)的前提下,MiniCPM-SALA 可以將上下文長度拓展至2048K。

      怎么保證它們能好好合作,不是互相干擾呢?

      SALA用了一個叫HyPE的混合位置編碼策略。在線性層,它保留了RoPE,保證短文本能力不受影響。在稀疏層,它去掉了位置編碼,避免了信息在長距離傳遞時的衰減問題。

      模型在檢索幾萬甚至幾十萬token之前的內容時,依然能保持高精度。


      最后是模型怎么來的。

      這里有一個核心問題,要訓練一個全新的混合架構模型,成本超級高。

      面壁沒有從零開始,反而是提出了一個叫HALO的訓練范式。簡單來說,就是拿一個已經訓練好的全注意力模型,比如MiniCPM-4.0,通過架構轉換,把它的一部分層變成線性注意力,另一部分變成稀疏注意力,然后進行持續訓練。


      這種方式,就像是給一輛性能不錯的汽車做改裝升級,而不是重新設計一輛新車。它繼承了原模型已經學到的所有知識和能力,只是讓它學會了用一種更高效的方式去工作。相比從頭訓練,這個方法的成本直接降低了大約75%。

      這個訓練過程也很有講究,分為架構轉換,穩定訓練,短衰減,長衰減和微調五個階段。特別是在長衰減階段,模型逐步把上下文長度從4K擴展到520K,讓模型充分學習兩種注意力機制協同。

      我們來看效果數據。

      這次面壁并沒有用一堆榜單來證明自己,是出了真實場景下的性能數據,對比的是同等規模的全注意力模型Qwen3-8B,我挑幾個關鍵數據,

      在推理速度上,當上下文長度達到256K時,MiniCPM-SALA的速度是Qwen3-8B的3.5倍。

      這個提升完全來自架構本身的優勢。


      在顯存占用上,在RTX 5090這樣的消費級顯卡上,Qwen3-8B在上下文長度達到128K時,就會因為顯存不足而崩潰。而MiniCPM-SALA可以穩穩地跑到1M,也就是一百萬token的長度。


      但我是個挑剔的人,

      用了會丟信息的注意力,模型是不是沒腦子了?

      這也是這篇工作最有價值的部分。實驗數據顯示,MiniCPM-SALA在數學,代碼,知識問答這些常規能力上,和同規模的全注意力模型基本持平,沒有出現明顯的性能折損。


      傳統的全注意力模型,在處理長文本時,它的注意力容量被大量消耗在維持局部依賴上,比如識別一個多詞組成的人名。而SALA架構,把這些任務交給了更高效的模塊,從而釋放了稀疏注意力層的容量,讓它們可以更專注于建立全局的,跨越超長距離的上下文聯系。

      為了推動這個架構落地,面壁聯合了SGLang和NVIDIA,發起了一個稀疏算子加速大獎賽SOAR。


      SALA雖然在架構上做好了,

      但底層的計算算子,相比已經被優化到極致的FlashAttention,還有很大提升空間。

      這個比賽就是邀請全球的開發者,一起來把SALA這臺新引擎的性能,壓榨到極限。

      平時測評模型測多了,

      都是Coding,Coding,Coding,

      我很高興看到還不斷能有新的架構,

      新的算法出現,

      就算是DeepSeek這一年,

      更新模型的同時也沒停過公開自己的算法,

      面壁過去這一年也是不停發端側模型的工作,

      我覺得就這速度都不需要五年十年,

      可能過個兩三年,

      在小天才手表上也能跑個大大大模型。

      @ 作者 / 卡爾

      最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉發|評論

      如果想要第一時間收到推送,不妨給我個星標

      如果你有更有趣的玩法,歡迎在評論區和我聊聊

      更多的內容正在不斷填坑中……


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      日媒:日本隊26人大名單平均身高1米81,史上首次破1米8大關

      日媒:日本隊26人大名單平均身高1米81,史上首次破1米8大關

      懂球帝
      2026-05-15 15:09:09
      曼聯官方:德里赫特成功接受背部手術,預計下賽季初期回歸;卡里克:卡塞米羅可以出戰,謝什科還沒有完全恢復

      曼聯官方:德里赫特成功接受背部手術,預計下賽季初期回歸;卡里克:卡塞米羅可以出戰,謝什科還沒有完全恢復

      MUREDS
      2026-05-15 23:10:11
      韓媒:韓國官員稱霍爾木茲海峽船只襲擊事件幾乎可確定為伊朗所為

      韓媒:韓國官員稱霍爾木茲海峽船只襲擊事件幾乎可確定為伊朗所為

      璀璨幻行者
      2026-05-15 16:28:21
      山東榴蓮僅退款后續來了:女子被行政拘留7日,不道歉商家會起訴

      山東榴蓮僅退款后續來了:女子被行政拘留7日,不道歉商家會起訴

      映射生活的身影
      2026-05-15 15:43:54
      河南男子狂犬病發作去世,生前已打3針疫苗,為什么人還是走了

      河南男子狂犬病發作去世,生前已打3針疫苗,為什么人還是走了

      39健康網
      2026-05-15 18:30:57
      多項研究顯示:性生活頻率過低,男女容易早衰且患癌風險增高!

      多項研究顯示:性生活頻率過低,男女容易早衰且患癌風險增高!

      燈錦年
      2026-05-05 21:55:51
      金銅銀大幅下挫,現貨白銀跌近6%,紫金礦業跌5%,有色ETF匯添富(159652)跌超4%,是危是機?機構:回歸供需挺價!

      金銅銀大幅下挫,現貨白銀跌近6%,紫金礦業跌5%,有色ETF匯添富(159652)跌超4%,是危是機?機構:回歸供需挺價!

      有連云
      2026-05-15 15:02:42
      馬斯克黃仁勛空軍一號合影曝光 機艙內飾奢華大氣 馬斯克評論:愉快的旅途

      馬斯克黃仁勛空軍一號合影曝光 機艙內飾奢華大氣 馬斯克評論:愉快的旅途

      快科技
      2026-05-15 14:58:18
      成都商超便利店“面包大王”新廠區破土動工,建成后產能將提升2倍

      成都商超便利店“面包大王”新廠區破土動工,建成后產能將提升2倍

      紅星新聞
      2026-05-15 19:29:02
      無緣20分逆轉北京輸在哪?數據一目了然,4主力拖后腿,1人要擔責

      無緣20分逆轉北京輸在哪?數據一目了然,4主力拖后腿,1人要擔責

      后仰大風車
      2026-05-15 22:57:27
      坐在非機動車道喝咖啡?深圳網紅街占道經營引爭議,部門回應

      坐在非機動車道喝咖啡?深圳網紅街占道經營引爭議,部門回應

      南方都市報
      2026-05-14 18:51:01
      1952年許世友返鄉,不顧老母親下跪勸阻,掏出槍對準三叔:斃了你

      1952年許世友返鄉,不顧老母親下跪勸阻,掏出槍對準三叔:斃了你

      云端小院
      2026-05-12 06:41:03
      中國有宴會廳,美國也要修,特朗普迫不及待宣布要修園子

      中國有宴會廳,美國也要修,特朗普迫不及待宣布要修園子

      三叔的裝備空間
      2026-05-15 22:43:59
      特朗普專機離開這一幕 中國軍人的“不動”再刷屏

      特朗普專機離開這一幕 中國軍人的“不動”再刷屏

      看看新聞Knews
      2026-05-15 20:44:05
      不瞞了!馬斯克罕見承認:美國是第一,但第二到第十全都來自中國

      不瞞了!馬斯克罕見承認:美國是第一,但第二到第十全都來自中國

      瀲滟晴方DAY
      2026-04-25 23:29:34
      一張國宴自拍,炸出多少玻璃心

      一張國宴自拍,炸出多少玻璃心

      梳子姐
      2026-05-15 08:19:35
      華爾街精英利用馬斯克做局,使中國富豪損失百億,還不敢對外公布

      華爾街精英利用馬斯克做局,使中國富豪損失百億,還不敢對外公布

      吳學華看天下
      2024-11-12 19:42:48
      5月,遇到這水果別手軟,一次買20斤,曬干后美味翻倍,營養解饞

      5月,遇到這水果別手軟,一次買20斤,曬干后美味翻倍,營養解饞

      阿龍美食記
      2026-05-13 14:06:46
      鄭州再迎重磅首店,“必勝漢堡”三店同開切入“一人食”賽道

      鄭州再迎重磅首店,“必勝漢堡”三店同開切入“一人食”賽道

      大象新聞
      2026-05-15 16:54:40
      要為芯片的暴跌做準備

      要為芯片的暴跌做準備

      半導體行業觀察
      2026-05-15 08:52:08
      2026-05-16 07:52:49
      卡爾的AI沃茨 incentive-icons
      卡爾的AI沃茨
      前大廠算法工程師,3家科技公司技術總監|致力打造最系統的Al學習體系,讓1萬人通過Al提高生產力
      263文章數 134關注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      特朗普訪問中國43個小時行程密集緊湊 全程回顧

      頭條要聞

      特朗普訪問中國43個小時行程密集緊湊 全程回顧

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      健康
      旅游
      教育
      親子
      軍事航空

      專家揭秘干細胞回輸的安全風險

      旅游要聞

      2026年“5·19中國旅游日”山東分會場活動即將啟動,山東聊城送上文旅惠民大禮包,邀您樂享品質旅游,共赴美好山河!

      教育要聞

      除了 happy 你還知道怎么表達“我很快樂”嗎?

      親子要聞

      孕婦補鈣怕刺激怎么選?液體鈣無添加配方實測,藍帽認證更靠譜

      軍事要聞

      聯合國安理會審議敘利亞局勢

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 一本色道无码不卡在线观看| 精品自窥自偷在线看| 日本精品啪啪一区二区三区| 制服丝袜亚洲在线| 国产乱xxⅹxx国语对白| 91在线导航| 污污污污污污污网站污| 色综合色综合色综合频道| 影音先锋人妻资源| 好大好硬好爽免费视频| 91午夜在线观看免费| 丰满少妇棚拍无码视频| 96国产xxxx免费视频| 国产三级精品三级在线看| 亚洲中文在线观看| 艳妇臀荡乳欲伦交换h在线观看| 91亚洲精品国产自在现线| 99精品在线视频观看| 亚洲日韩在线观看免费视频| 欧洲码亚洲码的区别入口| 日韩精品人妻| 无码丰满熟妇| 精品国产自拍在线视频| 日日摸夜夜添夜夜添无码专区| 欧美顶级metart裸体全部自慰 | 国产精品厕所| www色色com| 国产成人久视频免费| 亚洲区一区二| 放荡的美妇在线播放| 五月天社区| 四虎永久在线精品免费视频观看 | 不卡一区二区国产在线| 一区二区中文| 国产手机在线精品| 在线看片免费人成视频无毒| 久久精品国产福利一区二区| 日本草逼视频免费观看| 成人无码h真人在线网站| 免费国产黄线在线播放| 最新免费av网站|