<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Kimi新架構(gòu)讓馬斯克嘆服!17歲高中生作者一戰(zhàn)成名

      0
      分享至

      • 克雷西 發(fā)自 凹非寺
        量子位 | 公眾號 QbitAI

      17歲高中生,以一作身份,在Kimi團隊把Ilya提出的設(shè)想,變成了現(xiàn)實。

      Ilya之前有個預(yù)言,把按時間先后順序處理數(shù)據(jù)的LSTM網(wǎng)絡(luò)“旋轉(zhuǎn)90度”,也就是把時間軸換成模型深度軸,就變成了現(xiàn)在的殘差網(wǎng)絡(luò)。

      Kimi團隊認為,既然時間上的LSTM能對應(yīng)深度上的殘差,那后來淘汰了LSTM的“注意力機制”自然也可以照做。

      他們新搞出的Attention Residuals技術(shù),就相當(dāng)于把注意力機制也“旋轉(zhuǎn)了90度”。



      用了這套新方法后,模型在計算當(dāng)前層時可以聰明地“回頭看”,根據(jù)需要自由決定去提取前面哪一層的信息。

      這篇論文讓馬斯克也來圍觀,表示令人印象深刻。



      除了馬斯克,這篇論文也引發(fā)了大神Karpathy的思考,直言我們對Attention is All You Need這篇Transformer開山之作的理解還是不夠。



      這種新機制放到Kimi自家的Kimi Linear 48B大模型(3B激活參數(shù))上驗證,訓(xùn)練效率提升25%,推理延遲增加不到2%。



      殘差連接的“記憶負擔(dān)”

      先回顧一下殘差連接的工作原理。

      傳統(tǒng)做法是:第N層的輸出 = 第N層的計算結(jié)果 + 第N-1層的輸出。這樣一路累加下去,每一層都能“記住”前面所有層的信息。

      問題來了,在大模型PreNorm主流范式下,殘差連接中所有層的貢獻都是等權(quán)累加。

      就像一個“記憶力太好的人”,把所有經(jīng)歷都以相同權(quán)重存進大腦。貢獻被逐步稀釋,早期信息難以檢索,且大量層可被剪枝而損失微小,稱之為“PreNorm dilution problem”。

      更麻煩的是,隱藏狀態(tài)的范數(shù)會隨著深度不斷增長。研究人員發(fā)現(xiàn),在深層網(wǎng)絡(luò)中,這種unbounded growth會導(dǎo)致訓(xùn)練不穩(wěn)定。

      月之暗面團隊換了個思路:既然問題出在“無差別累加”,那就讓網(wǎng)絡(luò)自己決定該回憶什么。

      用注意力“選擇性回憶”

      團隊觀察到一個有趣的對偶性:網(wǎng)絡(luò)的深度維度和序列的時間維度,本質(zhì)上是同構(gòu)的。

      在Transformer處理序列時,用注意力機制讓當(dāng)前位置“選擇性關(guān)注”之前的位置。那么在深度維度上,為什么不能讓當(dāng)前層“選擇性關(guān)注”之前的層?

      Attention Residuals就這么來的:

      • 當(dāng)前層的可學(xué)習(xí)偽查詢向量作為query(learnable pseudo-query)
      • 所有前層的輸出作為key和value
      • 用注意力機制加權(quán)聚合

      這樣一來,網(wǎng)絡(luò)可以學(xué)會哪些層的信息對當(dāng)前計算最重要,就多關(guān)注一點;不相關(guān)的層,權(quán)重自然降低。

      但這帶來一個新問題:計算量爆炸。

      如果一個100層的網(wǎng)絡(luò),每一層都要對前面99層做full attention residual,復(fù)雜度是O(L2),根本跑不動。

      Block AttnRes:分塊壓縮

      論文中的解決方案是Block AttnRes。

      核心思想是把連續(xù)的若干層打包成一個block,對block內(nèi)部的輸出做壓縮,只保留一個“摘要向量”。



      具體操作如下:

      • 把L層網(wǎng)絡(luò)分成B個block,每個block包含若干層
      • 每個block結(jié)束時,把block內(nèi)的信息壓縮成單個向量
      • 后續(xù)層做attention時,只需要關(guān)注塊間表征+塊內(nèi)實時層輸出,而非全部L個層

      這樣一來,attention的復(fù)雜度從O(L2)降到了O(L·B),在實踐中B可以設(shè)得很小(論文用的是8-16)。

      此外,團隊還做了數(shù)個工程優(yōu)化:緩存式流水線通信、序列分片預(yù)填充、KV 緩存粒度優(yōu)化等等。

      Kimi Linear驗證:1.25倍效率提升

      理論說得通,但真正讓人信服的是大規(guī)模驗證。

      團隊在自家的Kimi Linear架構(gòu)上做了測試。這是一個采用線性注意力的大模型,總參數(shù)48B,激活參數(shù)3B(MoE架構(gòu))。

      同等計算預(yù)算下,Attention Residuals能獲得更好的下游性能;反過來說,達到相同性能需要的訓(xùn)練計算量減少了約20%,相當(dāng)于獲得了1.25倍的效率優(yōu)勢。

      在具體任務(wù)上,數(shù)學(xué)推理(MATH、GSM8K)、代碼生成(HumanEval、MBPP)均持平或略優(yōu),多語言理解的一致性也有所改善。



      更重要的是,Attention Residuals是一個drop-in replacement,不需要修改網(wǎng)絡(luò)其他部分,直接替換殘差連接即可。

      論文里還講到一個有意思的視角。

      團隊把這項工作稱為“時間-深度對偶性”(time-depth duality)的應(yīng)用。

      在他們看來,深度神經(jīng)網(wǎng)絡(luò)的“層”和循環(huán)神經(jīng)網(wǎng)絡(luò)的“時間步”,本質(zhì)上是都是對信息的迭代處理。

      Transformer之所以成功,是因為用attention替代了RNN中固定的recurrence。

      那么在深度維度上,是不是也該用attention替代固定的residual?

      17歲高中生入列共同一作

      更有意思的是,這篇讓馬斯克、Karpathy等人都為之一震的論文,共同一作之一是一名年僅17歲的高中生——陳廣宇(Nathan)。



      另外兩名共同一作,分別是Kimi的關(guān)鍵人物之一、RoPE(旋轉(zhuǎn)位置編碼)的提出者蘇神(蘇劍林),以及Kimi Linear的第一作者張宇。

      誠然Attention Residuals是團隊協(xié)作取得的成果,但一名高中生出現(xiàn)在這樣的團隊之中,還與兩位大神共列一作,已經(jīng)足夠震撼。



      a16z創(chuàng)始人Marc Andreessen、Thinking Machines的聯(lián)創(chuàng)等人都關(guān)注了他的X賬號。



      一年前才剛剛開始了解大模型的陳廣宇,是從北京的一場黑客松開始,一路走向硅谷的。

      后來回國時,他選擇加入了Kimi。

      經(jīng)手過月之暗面投資的奇績創(chuàng)壇(原YC中國)創(chuàng)始成員董科含,也曾在其個人公眾號上刊載過陳廣宇的一份自傳。

      去年二月,北京的一場中學(xué)生黑客松上,陳廣宇展示了一個關(guān)于“人類第三只機械輔助手”的創(chuàng)新構(gòu)想——ThirdArm。

      也正是這個項目,讓他結(jié)識了黑客松評委董科含,后者也成為了他的創(chuàng)業(yè)導(dǎo)師。

      當(dāng)時,董科含追問他,未來是否會深耕這項技術(shù),這促使他開始重新審視自己的職業(yè)方向。

      隨后他入選了董科含發(fā)起的只有極少數(shù)人入選的青年計劃,開始接觸IOI(國際信息學(xué)奧林匹克)金牌得主及資深科研人員。

      此前他曾嘗試經(jīng)營Shopify跨境電商店鋪、運營短視頻賬號,但經(jīng)過董科含的建議,他決定轉(zhuǎn)向理解時代的底層技術(shù)。

      當(dāng)時還不知道Transformer是什么的他,在DeepSeek研究員袁境陽的指導(dǎo)下,利用Gemini作為輔助工具,通過研讀經(jīng)典論文、追蹤GitHub開源項目等方式逐步建立認知。

      有一次他在推特上分享了對一篇博客的反思后,獲得了作者的回復(fù),這篇帖子也因此引起了一家硅谷AI初創(chuàng)公司CEO的關(guān)注。

      該公司于2024年底成立,2025年初完成了800萬美元種子輪融資,資方背景涉及OpenAI與Anthropic。

      在通過一項限時通宵完成的實驗測試后,他拿到了對方的錄用通知。

      暑假期間,他前往舊金山開啟了為期七周的實習(xí)。其中前兩周,他負責(zé)定義并推進一個涉及144張H100顯卡的探索性項目。

      在CEO直接指導(dǎo)下,他的工作延伸至運營層面,參與了招聘系統(tǒng)搭建、技術(shù)內(nèi)容輸出及融資策略討論,并獲得與早期投資者Vinod Khosla交流的機會。

      在硅谷期間,他維持著高強度工作節(jié)奏,通過咖啡社交與英偉達工程師及初創(chuàng)創(chuàng)始人建立聯(lián)系。這次經(jīng)歷讓他將科研視為一種支撐創(chuàng)造的底層能力。



      實習(xí)結(jié)束后,陳廣宇回到國內(nèi),并于去年11月加入月之暗面。

      把他吸引進去的,正是Kimi一直做的Flash Linear Attention這一類高效attention工作。

      實際上,正是GitHub上的FLA項目,吸引了他對機器學(xué)習(xí)的興趣并被邀請加入Kimi團隊。

      也正是順著這條線,他開始一路往更底層鉆,從讀論文、看實現(xiàn),到研究 Triton kernel、理解attention為什么能被這樣重寫、這樣加速。

      到了月之暗面,這條路也算是繞了一圈又落回原點——

      他最初是被底層技術(shù)吸引,最后做的也正是最底層、最核心的那部分事。

      相比于講一個“少年天才一路開掛”的故事,陳廣宇的經(jīng)歷更像是另一種成長路徑——

      先被時代最前沿的技術(shù)擊中,再一步步把興趣磨成能力,把能力帶到真正的大模型研發(fā)現(xiàn)場里。

      論文地址:
      https://github.com/MoonshotAI/Attention-Residuals/
      [1]https://mp.weixin.qq.com/s/gRR99pEDWb5qsk2a2hwe2w
      [2]https://nathanchen.me/public/About%20me.html

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      首個退群北約的國家來了:已走程序,退意已決!

      首個退群北約的國家來了:已走程序,退意已決!

      福建睿平
      2026-04-27 11:46:08
      《愛情沒有神話》但凡趙又廷演技拉胯一點,都壓不住這群王炸配角

      《愛情沒有神話》但凡趙又廷演技拉胯一點,都壓不住這群王炸配角

      娛瓜醬
      2026-05-06 14:20:27
      5100萬鎊球星被棄+隊長易主?阿森納2026/27陣容劇變

      5100萬鎊球星被棄+隊長易主?阿森納2026/27陣容劇變

      賽場名場面
      2026-05-07 13:46:23
      騎士兩敗因出爐,米切爾無力回天!哈登犯兩大錯誤,阿特金森該批

      騎士兩敗因出爐,米切爾無力回天!哈登犯兩大錯誤,阿特金森該批

      魚崖大話籃球
      2026-05-08 10:39:15
      第一集就全裸出鏡,女神新劇破格出演了

      第一集就全裸出鏡,女神新劇破格出演了

      來看美劇
      2026-04-27 16:21:10
      榮毅仁女兒要嫁澳門富豪,葉劍英一句話讓廖承志慌了:快問周總理

      榮毅仁女兒要嫁澳門富豪,葉劍英一句話讓廖承志慌了:快問周總理

      史海孤雁
      2026-03-18 18:07:18
      比巴萊巴強太多!曼聯(lián)鎖定盯上世界最佳后腰,7000 萬就能拿下

      比巴萊巴強太多!曼聯(lián)鎖定盯上世界最佳后腰,7000 萬就能拿下

      瀾歸序
      2026-05-08 02:31:27
      馬斯克急了,求和不成當(dāng)場翻臉

      馬斯克急了,求和不成當(dāng)場翻臉

      新行情
      2026-05-07 15:17:44
      志愿軍最狠連長:1個連打掉敵軍2個師,戰(zhàn)后授銜,你猜他當(dāng)?shù)绞裁醇墑e

      志愿軍最狠連長:1個連打掉敵軍2個師,戰(zhàn)后授銜,你猜他當(dāng)?shù)绞裁醇墑e

      寄史言志
      2026-03-16 20:53:08
      次輪G2打完!8隊實力一目了然:騎士墊底,1隊被低估!

      次輪G2打完!8隊實力一目了然:騎士墊底,1隊被低估!

      運籌帷幄的籃球
      2026-05-08 13:40:18
      北京的很多房子不好出租了

      北京的很多房子不好出租了

      微微熱評
      2026-05-07 21:05:19
      強烈信號!美國務(wù)卿魯比奧正式宣布,特朗普訪華將討論臺灣問題

      強烈信號!美國務(wù)卿魯比奧正式宣布,特朗普訪華將討論臺灣問題

      一念癡狂
      2026-05-07 15:57:04
      “銀行員工轉(zhuǎn)走儲戶1800萬元炒股”,最新進展:銀行全額支付儲戶1000萬元存款本金和利息,另一儲戶800萬元仍無明確進展

      “銀行員工轉(zhuǎn)走儲戶1800萬元炒股”,最新進展:銀行全額支付儲戶1000萬元存款本金和利息,另一儲戶800萬元仍無明確進展

      大風(fēng)新聞
      2026-05-07 15:17:13
      張康陽現(xiàn)狀證明,不怕富二代躺平就怕有野心,僅5年千億身價歸零

      張康陽現(xiàn)狀證明,不怕富二代躺平就怕有野心,僅5年千億身價歸零

      青杉依舊啊啊
      2026-03-19 22:10:26
      唐努烏梁海:被割裂的北疆翡翠,蘇俄強行奪走成為圖瓦共和國

      唐努烏梁海:被割裂的北疆翡翠,蘇俄強行奪走成為圖瓦共和國

      南極狼人
      2026-05-01 20:16:22
      7年敗光2億!鄒市明冉瑩穎共同發(fā)文:二人最終還是邁出了這一步!

      7年敗光2億!鄒市明冉瑩穎共同發(fā)文:二人最終還是邁出了這一步!

      拳擊時空
      2026-04-16 06:04:48
      演員王姬氣質(zhì)絕絕子, 如今62歲的她,依舊風(fēng)韻猶存

      演員王姬氣質(zhì)絕絕子, 如今62歲的她,依舊風(fēng)韻猶存

      娛你同歡
      2026-05-07 20:29:52
      林徽因不為人知的另一面:性格急躁,吵架會用3種語言從不落下風(fēng)

      林徽因不為人知的另一面:性格急躁,吵架會用3種語言從不落下風(fēng)

      老范談史
      2026-05-08 03:49:36
      老詹23+6+3+2無緣今日最佳!對不起,你碰到暴走的康寧漢姆了

      老詹23+6+3+2無緣今日最佳!對不起,你碰到暴走的康寧漢姆了

      世界體育圈
      2026-05-08 12:47:06
      趙祥松|14歲“神童”手搓渦噴發(fā)動機,一場漏洞百出的包裝表演

      趙祥松|14歲“神童”手搓渦噴發(fā)動機,一場漏洞百出的包裝表演

      祥松談
      2026-05-02 15:01:46
      2026-05-08 13:51:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態(tài)
      12589文章數(shù) 176461關(guān)注度
      往期回顧 全部

      科技要聞

      追趕星艦:中國商業(yè)火箭離SpaceX有多遠?

      頭條要聞

      "4只皮皮蝦1035元"店主事發(fā)次日病逝 家屬:不再開業(yè)

      頭條要聞

      "4只皮皮蝦1035元"店主事發(fā)次日病逝 家屬:不再開業(yè)

      體育要聞

      巴黎再進歐冠決賽,最尷尬的情況還是發(fā)生了

      娛樂要聞

      黃子佼獲緩刑4年,無需入獄服刑

      財經(jīng)要聞

      一覺醒來,美伊又打起來了

      汽車要聞

      雷克薩斯全新純電三排SUV 全新TZ全球首發(fā)

      態(tài)度原創(chuàng)

      家居
      數(shù)碼
      本地
      藝術(shù)
      公開課

      家居要聞

      流動的尺度 打破家的形式主義

      數(shù)碼要聞

      內(nèi)存漲價致手機行業(yè)大量產(chǎn)品延期/取消 涉及多款闊屏機

      本地新聞

      用蘇繡的方式,打開江西婺源

      藝術(shù)要聞

      探索施密德的油畫,感受無法抵擋的藝術(shù)魅力!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: yiren22亚洲综合高清一区| 国产成人区在线观看视频| 久久超级碰| 亚洲性激情| 国产欧美精品区一区二区三区| 久久精品亚洲中文字幕乱码| 男人扒开女人腿桶到爽免费| 国产91丝袜在线播放动漫| 欧美午夜理论在线网站入口| 精品国产一区二区三区无码| 亚洲国产良家在线观看| 热99re久久精品| 久久精品熟妇丰满人妻99| 无码精品国产D在线观看| 农夫在线精品视频导航| 波多野结衣一区二区三区av高清| 国产激情影院| 中文字幕一区二区三区麻豆| 亚洲Av综合日韩精品久久久| 亚洲成女人综合图区| 国产精品www夜色影视| 瑞昌市| 久青草国产高清在线视频| 亚洲中文一区二区av| 亚洲女人天堂| a毛片免费在线观看| 成人国产一区二区三区| 91在线精品麻豆欧美在线| 国内精品久久人妻互换| 高清无码一区二区在线观看吞精| 少妇性l交大片久久免费| 免费的很黄很污的视频| 亚洲无码丝袜加勒比东京热精品| 在线精品亚洲一区二区古装| 国产成人综合久久| 亚洲欧洲av人一区二区| 日韩av激情| 一本加勒比hezyo无码专区| 久久riAV1| 日韩精品无码不卡无码| 精品国产一区二区三区2021|