<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      為什么BF16的FlashAttention會把訓練「炸掉」?清華給出機制解釋

      0
      分享至



      一句話總結:社區里困擾了多年的一個 “玄學” 現象終于被拆解清楚了:在 BF16 等低精度訓練里,FlashAttention 不是隨機出 bug,而是會在特定條件下觸發有方向的數值偏置,借助注意力中涌現的相似低秩更新方向被持續放大,最終把權重譜范數和激活推到失控,導致 loss 突然爆炸。論文還給出一個幾乎不改模型、只在 safe softmax 里做的極小修改,實測能顯著穩定訓練。



      因果鏈總覽(論文 Figure 1)



      • 標題:Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention
      • 作者:邱海權,姚權銘
      • 機構:清華大學 電子工程系
      • 投稿:ICLR 2026 Oral
      • 關鍵詞:低精度訓練,BF16,FlashAttention,數值穩定性,舍入誤差(rounding error),低秩表示(low-rank)
      • 論文鏈接:https://arxiv.org/abs/2510.04212
      • 代碼鏈接:https://github.com/ucker/why-low-precision-training-fails

      背景:低精度訓練越來越 “剛需”,但注意力比你想的更敏感

      大模型訓練的現實是:顯存和吞吐決定一切。工業界普遍在混合精度里使用 BF16/FP16,甚至把 FFN 推到 FP8,以換取更高的訓練效率。但工程實踐同樣殘酷:越接近 “極限精度”,訓練越容易出現難以解釋的不穩定。

      Flash Attention 是長上下文訓練的關鍵加速組件,幾乎成了標配。問題在于,社區長期存在一個可復現卻難以解釋的失敗案例:

      • 用 FlashAttention + BF16 訓練 GPT-2,一開始正常收斂,但在幾千 step 之后突然 loss 爆炸。
      • 你可以通過回退到標準注意力、或把關鍵計算提高到 FP32 來 “救火”,但代價是吞吐和顯存優勢沒了。

      這類問題被報告了多年(相關 issue 在多個開源項目里反復出現),卻一直缺少一條能 “從數值誤差一路解釋到 loss 爆炸” 的機制鏈。



      作者的做法很工程,且足夠 “可復現”:





      機制解釋 1:相似低秩結構,讓誤差變成 “持續推力” 而不是噪聲







      結果就是:權重更新被 “帶偏”,譜范數和激活異常增長,最終把訓練推到 loss 爆炸。





      低秩結構相似性與偏置累積(論文 Figure 4/5)

      機制解釋 2:偏置從哪來?safe softmax + BF16 舍入誤差里藏著一個 “離散觸發器”



      作者把問題追到了 FlashAttention 前向里的未歸一化輸出:



















      • 檢測一行 S 中最大值是否出現多次
      • 一旦出現 “重復最大值”,就動態調整safe softmax 的行移位常數 m,讓最大位置的指數也變成嚴格小于 1

      論文給出的實現(概念上)如下:





      實驗結果:穩定訓練不再 “突然炸”

      論文在 BF16 設置下驗證了上述分析與修復:

      • GPT-2S:使用修改后的 FlashAttention,在 AdamW 與 Muon 兩種優化器下,都能穩定訓練到 600K steps
      • GPT-2M:同樣能在 AdamW 下穩定訓練(論文展示到 100K steps)
      • 論文還提到該現象與結論在多種硬件上保持一致(包括 A100、RTX 4090、Ascend 910B)



      驗證集 loss 曲線對比(論文 Figure 7)

      更重要的啟示:別把低精度誤差當成 “零均值噪聲”

      這篇論文的價值不只在 “修了一個 bug”,更在于給出了一個可遷移的診斷范式:

      • 數值誤差未必是隨機噪聲。在特定分布與離散事件(如重復最大值、概率精確為 1)下,舍入誤差可能形成系統性偏置。
      • 模型結構會放大偏置。注意力里涌現的相似低秩更新方向,讓偏置誤差更容易 “同向疊加”。
      • 經驗修復為什么有效也能被解釋:論文討論了 attention sinks 與多最大值的關系,并給出了一個數值層面的連接;同時也指出一些穩定化技巧(如 QK normalization、Gated Attention)可能通過 “打散結構相似性” 來阻止誤差同向累積。

      作者介紹

      邱海權是清華大學在讀博士研究生,研究方向涵蓋機器學習理論、表示學習與大模型機制分析。他的研究圍繞模型表達能力、結構歸納偏置以及參數空間幾何與優化動力學之間的內在聯系展開,關注模型在不同結構約束與訓練條件下的泛化行為與可組合性問題。整體上,他強調以可分析的理論框架刻畫模型的能力邊界與機制來源,從結構與原理層面理解深度模型為何有效、何時失效。

      姚權銘,清華大學電子工程系副教授。長期致力于數據高效學習與智能體系統研究,在少樣本學習、圖學習、知識圖譜與生物醫藥智能等方向取得系統性成果。發表 Nature 子刊、TPAMI、JMLR、ICML、NeurIPS、ICLR 等論文 130 余篇,被引 1.4 萬余次。代表性工作包括抗噪學習算法 Co-teaching、小樣本學習綜述、自動化圖學習方法及新藥物相互作用預測模型。現任 TPAMI、TMLR 編委及 Neural Networks 資深編委,多次擔任 ICML、NeurIPS、ICLR 領域主席,入選 IEEE Computing Top 30、IET Fellow 等。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      經濟復蘇的三個標志

      經濟復蘇的三個標志

      生命可以承受之輕
      2026-05-11 09:05:02
      張藝謀找秦海璐拍《主角》,秦海璐不看劇本不談錢,直接說時間

      張藝謀找秦海璐拍《主角》,秦海璐不看劇本不談錢,直接說時間

      童叔不飆車
      2026-05-12 12:23:25
      炸裂!姆巴佩拒絕再踢伯納烏!被噓到心態崩了,皇馬關系徹底破裂

      炸裂!姆巴佩拒絕再踢伯納烏!被噓到心態崩了,皇馬關系徹底破裂

      林子說事
      2026-05-13 00:06:12
      大陸不同意臺灣參加世衛大會,綠營急了,綠營官員還想到大陸參會

      大陸不同意臺灣參加世衛大會,綠營急了,綠營官員還想到大陸參會

      DS北風
      2026-05-12 17:10:07
      不少女網約車司機宣布退出女性友好計劃,直言不想接女乘客

      不少女網約車司機宣布退出女性友好計劃,直言不想接女乘客

      映射生活的身影
      2026-05-12 20:56:00
      徹底撕破臉!央視硬剛天價轉播費后,資本報復手段簡直不堪入目

      徹底撕破臉!央視硬剛天價轉播費后,資本報復手段簡直不堪入目

      微風輕拂面
      2026-05-12 01:32:22
      青海17歲女學生溺亡!主動去的橋邊,知情人曝猛料,恐不止是意外

      青海17歲女學生溺亡!主動去的橋邊,知情人曝猛料,恐不止是意外

      北緯的咖啡豆
      2026-05-12 11:29:42
      日本大型電機制造企業尼得科公司被曝大規模造假

      日本大型電機制造企業尼得科公司被曝大規模造假

      澎湃新聞
      2026-05-12 21:33:09
      美股全線下跌,超3500只個股走低,中概股普跌;英偉達逆勢上揚,再創歷史新高!金銀下挫,國際油價拉升|美股開盤

      美股全線下跌,超3500只個股走低,中概股普跌;英偉達逆勢上揚,再創歷史新高!金銀下挫,國際油價拉升|美股開盤

      每日經濟新聞
      2026-05-12 22:18:42
      美伊談崩無緩沖,不到一天,伊朗向世界宣告:第四個超級大國來了

      美伊談崩無緩沖,不到一天,伊朗向世界宣告:第四個超級大國來了

      凡知
      2026-05-12 16:35:35
      為啥建議盡量用現金支付?3個現實原因,看完你也會揣現金出門

      為啥建議盡量用現金支付?3個現實原因,看完你也會揣現金出門

      老特有話說
      2026-05-10 21:01:02
      無憂傳媒創始人凌晨發朋友圈 配圖文字:無情無義的人不能交往

      無憂傳媒創始人凌晨發朋友圈 配圖文字:無情無義的人不能交往

      快科技
      2026-05-12 16:13:29
      定了!天津市中心50年老舊小區要拆遷了!

      定了!天津市中心50年老舊小區要拆遷了!

      全接觸狐狐
      2026-05-12 21:13:55
      騰訊200億收購喜馬拉雅,獲批!

      騰訊200億收購喜馬拉雅,獲批!

      達摩財經
      2026-05-12 19:27:08
      尷尬!王石公開脫衣秀身材“翻車”,網友:像是一副被榨干的軀體

      尷尬!王石公開脫衣秀身材“翻車”,網友:像是一副被榨干的軀體

      火山詩話
      2026-05-08 21:39:02
      吹風機是大補,醫生提醒:一個吹風機等于半個老中醫!不要嫌棄

      吹風機是大補,醫生提醒:一個吹風機等于半個老中醫!不要嫌棄

      健康之光
      2026-05-06 16:55:06
      特朗普上飛機前攤牌,對華稱呼已變,美參議員:不能再向中國讓步

      特朗普上飛機前攤牌,對華稱呼已變,美參議員:不能再向中國讓步

      閱盡天下大事
      2026-05-13 01:26:57
      羅馬教皇遭銀行客服掛電話:必須本人前往銀行網點辦理

      羅馬教皇遭銀行客服掛電話:必須本人前往銀行網點辦理

      維城
      2026-05-08 19:29:12
      75歲大爺與保姆生下兒子,做親子鑒定后,大爺卻被子女們氣得心梗

      75歲大爺與保姆生下兒子,做親子鑒定后,大爺卻被子女們氣得心梗

      黃家湖的憂傷
      2025-03-06 09:30:21
      重慶一大橋橋底崖壁現佛頭雕塑?文旅部門回應

      重慶一大橋橋底崖壁現佛頭雕塑?文旅部門回應

      新京報
      2026-05-12 19:12:34
      2026-05-13 05:19:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12979文章數 142648關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      時尚
      家居
      游戲
      藝術
      數碼

      普通人真該學學如何穿搭!多穿裙子比褲子更時髦,大方提氣質

      家居要聞

      極簡主義下的居住場域與空間

      活久見!電棍與香鍋怒噴被擼圈開除后和解,祝Mlxg母親節日快樂

      藝術要聞

      震驚!他竟用鏡頭看透了所有女人的秘密!

      數碼要聞

      看電視的人越來越多了 3億臺電視在線 小米第一

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产日韩亚洲大尺度高清| 国产成人AV| 国产欧美另类久久久精品丝瓜| 亚洲欧洲日产国码无码久久99| 久久精品熟妇丰满人妻99 | 欧美激情精品久久| 亚洲码欧洲码一二三四五| 丝袜精品字幕| 国产久9视频这里只有精品| 久久中文字幕av不卡一区二区| 国产精品高清一区二区不卡 | 精品人妻一区二区蜜臀av| 在线中文一区字幕对白| 台山市| 啪啪视频一区二区三区入囗| 日韩免费无码一区二区视频| 亚洲A片V一区二区三区| 97无码人妻| 1024国产欧美日韩精品| 国产69精品久久久久孕妇| jizzjizzjizzjizz| 久久精品免视看国产盗摄| 日韩精品人妻系列无码专区免费| 亚洲第一aaaaa片| 无码人妻精品一区二区三区温州| 日本黄网站三级三级三级| 美女裸体18禁免费网站| 免费看a级毛片| 亚洲激情AV| 内射极品人妻| 三级网站在线免费观看| 久久精品a亚洲国产v高清不卡| 国语自产少妇精品视频蜜桃| 97国产成人无码精品久久久| 久久国产精品99精品国产| 久久精品国产69国产精品亚洲| 亚洲久av| 综合成人亚洲| a免费毛片在线播放| 久久精品国产亚洲a片高清不卡| 伊人久久大香线蕉综合中文字幕|