<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      馬斯克親自點贊,Kimi動了十一年沒人敢碰的東西

      0
      分享至



      科技博主Avi Chawla在X上發(fā)了一條長帖,詳細拆解了月之暗面Kimi團隊剛剛發(fā)布的一篇技術(shù)報告。

      帖子發(fā)出后不久,馬斯克本人在下面回復(fù)了一句:“月之暗面做出了令人印象深刻的結(jié)果”(Impressive work from Kimi.)



      馬斯克在AI領(lǐng)域的表態(tài)向來以挑剔著稱,沒少罵過Anthropic和OpenAI,甚至曾直言說Anthropic的圖標像是某種人體器官。

      他自己的xAI最近還在經(jīng)歷大規(guī)模重組,多位華人聯(lián)合創(chuàng)始人離職,Grok的表現(xiàn)也不盡如人意。

      可就在這個節(jié)骨眼上,他主動對一家中國AI公司的技術(shù)論文表示認可,多少有些出人意料。

      說回被馬斯克點贊的這個東西,其實是有點抽象的,因為它壓根不是一個模型。

      Kimi團隊提出了一種新的方式,試圖替換掉Transformer架構(gòu)里一個自2015年以來就幾乎沒人動過的基礎(chǔ)組件。

      這是一篇純粹的架構(gòu)層面的技術(shù)論文。

      雖然說這篇論文的影響,未必會被普通用戶感知到,可實際上,它觸碰的是整個深度學(xué)習(xí)的基石。

      01

      月之暗面到底改了什么

      要理解這篇論文在做什么,得先搞清楚一個背景。現(xiàn)代大語言模型,無論是GPT、Claude,還是國內(nèi)的豆包、DeepSeek,哪怕是Kimi自己的K2.5,其底層架構(gòu)都是Transformer。

      Transformer之所以能訓(xùn)練到幾十層甚至上百層而不崩潰,都是因為一個叫“殘差連接(Residual Connection)”的機制在起作用。

      殘差連接的原理其實很簡單。

      每一層網(wǎng)絡(luò)在做完自己的計算之后,把自己的輸出和輸入加在一起,然后傳到下一層去再做計算。這樣做的好處是,梯度在反向傳播時可以沿著一條“高速公路”直達底層,不會因為層數(shù)太深而消失。

      這個設(shè)計來自何愷明在2015年參與的ResNet論文,后來被Transformer原封不動地繼承了下來。

      但這時候就有一個不大不小的問題,這種“加法”是完全平等的。

      第一層的輸出和第四十層的輸出,在最終的隱藏狀態(tài)里享有同等的權(quán)重,都是1。沒有任何機制去判斷哪一層的信息更重要、哪一層的貢獻可以被忽略。隨著層數(shù)增加,隱藏狀態(tài)的數(shù)值會線性增長,早期層的信息逐漸被稀釋,后面的層想要產(chǎn)生影響就必須輸出更大的數(shù)值,這反過來又加劇了不穩(wěn)定性。

      就像咱們所有人拉個微信群,一起討論晚上吃什么,每個人的發(fā)言權(quán)重完全一樣,不管誰說的有道理誰在瞎扯,最后群主只能把所有消息從頭到尾讀一遍,這就導(dǎo)致他越往后翻越記不住前面說了啥。

      這個現(xiàn)象在學(xué)術(shù)上被稱為“PreNorm稀釋”。

      Kimi團隊注意到,這個問題和早年RNN面臨的困境有一種結(jié)構(gòu)上的對稱性。

      RNN是在時間維度上做固定權(quán)重的累加,每個時間步的信息被等權(quán)地壓縮進同一個隱藏狀態(tài),導(dǎo)致長距離依賴難以捕捉。后來Transformer用注意力機制替代了RNN的這種線性累加,讓模型可以根據(jù)內(nèi)容動態(tài)地決定該關(guān)注序列中的哪些位置,這才有了后來的一切。

      兩者的區(qū)別在于,RNN就像上課,老師講到哪你就聽到哪,只能從頭聽到尾,沒記住的要么看筆記,要么再次從頭來。Transformer則是錄播網(wǎng)課,可以隨時翻回去看之前最重要的部分。

      但在深度維度上,同樣的問題一直存在,卻沒有人用同樣的思路去解決。每一層的輸出仍然是被等權(quán)相加的,模型沒有能力根據(jù)當(dāng)前輸入去選擇性地從某些層提取信息、忽略另一些層。

      Kimi團隊表示,標準殘差連接本質(zhì)上是“深度維度上的線性注意力”,他們要做的,是把它升級為“深度維度上的softmax注意力”。

      于是他們提出了一個“理想版”的方案,叫做全注意力殘差(Full Attention Residuals)。



      具體做法是給每一層賦予一個可學(xué)習(xí)的查詢向量,這個向量會對之前所有層的輸出做一次注意力計算,產(chǎn)生一組歸一化的權(quán)重。

      然后當(dāng)前層的輸入不再是之前所有層輸出的簡單求和,而是按照這組權(quán)重的加權(quán)組合。權(quán)重是輸入相關(guān)的,也就是說,不同的token在經(jīng)過同一層時,可能會從不同的歷史層中提取不同的信息。

      那我們還是用前面微信群的例子。現(xiàn)在群主不用從頭到尾翻聊天記錄了,有個助手幫他標出“這幾條最值得看”,不同的話題還會標出不同的重點消息。

      理想豐滿現(xiàn)實骨感,全注意力殘差這個方案其實“不靠譜”。

      大規(guī)模訓(xùn)練時,模型通常會使用流水線并行和激活重計算來節(jié)省顯存,這意味著之前層的輸出不會被保留在內(nèi)存里。

      如果要做全注意力,就需要把所有層的輸出都存下來并在流水線的不同階段之間傳遞,內(nèi)存和通信開銷都會變得不可接受。

      為了解決這個問題,Kimi團隊又提出了塊注意力殘差(Block Attention Residuals)。



      思路是把所有層分成若干個塊,每個塊內(nèi)部仍然使用傳統(tǒng)的殘差連接做求和,但塊與塊之間使用注意力機制來做選擇性聚合。這樣需要存儲和傳輸?shù)牟辉偈敲恳粚拥妮敵觯敲總€塊的匯總表示,內(nèi)存占用從 O(Ld)降到了 O(Nd),其中 N 是塊的數(shù)量,通常只有8個左右。

      這就相當(dāng)于是把剛才那個微信群分成了八個小組,每組先內(nèi)部討論出一個結(jié)論,群主只需要看八條小組總結(jié)就行。

      在此基礎(chǔ)上,他們還做了一系列工程優(yōu)化。

      比如跨階段緩存消除了流水線并行中的冗余傳輸,兩階段推理策略通過在線softmax把跨塊注意力的計算分攤到各個塊的處理過程中。最終的結(jié)果是,注意力殘差作為標準殘差連接的替代品,訓(xùn)練時的額外開銷很小,推理時的延遲增加不到2%。

      Kimi團隊又做了兩個實驗。

      一是scaling law實驗,驗證這個改進在不同模型規(guī)模下是否一致有效。結(jié)果顯示,注意力在所有計算預(yù)算下都優(yōu)于基線,其效果相當(dāng)于用1.25倍的計算量訓(xùn)練出的基線模型。

      二是Kimi拿自己的大模型上做了實戰(zhàn)驗證。模型參數(shù)量為480億,用超過一萬億個詞的數(shù)據(jù)做了完整的預(yù)訓(xùn)練。然后在科學(xué)問答、數(shù)學(xué)推理、代碼生成、綜合知識等一系列主流測試中,加了塊注意力殘差的版本全面超過了沒加的版本。



      從訓(xùn)練動態(tài)的分析來看,塊注意力殘差確實緩解了PreNorm稀釋問題。各層輸出的幅度不再隨深度線性增長,而是保持在一個相對穩(wěn)定的范圍內(nèi);梯度的分布也更加均勻,也不再會出現(xiàn)淺層梯度過大、深層梯度過小的失衡現(xiàn)象。

      除此以外,論文中還做了一個統(tǒng)一的結(jié)構(gòu)化矩陣分析,證明了標準殘差連接和之前的各種變體(比如 Highway Networks、DeepNet 的 scaled residuals 等)本質(zhì)上都是深度維度上的線性注意力的特例。

      簡單來說就是,自2015年ResNet以來,在殘差連接這個板塊,沒有任何實質(zhì)性的變化。而Kimi的這篇論文,是第一個既有理論依據(jù),又能大規(guī)模實際部署且低成本的方案。

      馬斯克也正是因為這個結(jié)論,才親自下場點贊Kimi。

      02

      融資、爭議和馬斯克的那個贊

      月之暗面正處在一個微妙的時間節(jié)點上,那就是上市。

      2025年12月底,月之暗面完成了5億美元的C輪融資。投后估值43億美元。兩個月后,月之暗面完成超7億美元的C+輪融資,由阿里、騰訊、五源資本等老股東聯(lián)合領(lǐng)投,投后估值突破100億美元。

      到了3月中,月之暗面最新投前估值已上升至180億美元,新一輪10億美元融資正在推進中,3個月內(nèi)估值實現(xiàn)超4倍增長。

      實際上月之暗面最近的收入增長得很快,Kimi K2.5模型發(fā)布不到一個月,累計收入就超過了2025年全年總收入。

      根據(jù)全球支付平臺Stripe的數(shù)據(jù),Kimi個人訂閱用戶的支付訂單數(shù)在1月環(huán)比增長了 8280%,2月又環(huán)比增長了123.8%,已經(jīng)進入Stripe全球榜單前十。

      但融資順利并不意味著沒有爭議。

      就在幾天前,OpenClaw創(chuàng)始人彼得·斯坦伯格公開對月之暗面的Kimi Claw產(chǎn)品提出了質(zhì)疑。事

      情的起因是,月之暗面此前推出了OpenClaw的云端一鍵部署服務(wù)Kimi Claw,它的邏輯有悖于OpenClaw的設(shè)計理念。

      有用戶在X上詢問這個產(chǎn)品是否值得嘗試并 @了斯坦伯格,斯坦伯格的回應(yīng)很直接:他們有沒有把安全文檔作為必讀項展示給用戶?



      斯坦伯格的核心關(guān)切在于,OpenClaw的邏輯是“本地優(yōu)先”。agent運行在用戶自己的設(shè)備上,但可能因為過高的本地權(quán)限,引發(fā)了安全風(fēng)險,因此工信部也建議“優(yōu)先考慮在容器或虛擬機中隔離運行,形成獨立的權(quán)限區(qū)域。”

      但KimiClaw的做法正是如此,它把OpenClaw搬到了云端的虛擬機。在安全和隱私層面,這兩種模式的風(fēng)險等級完全不同。

      對于正在高速融資的月之暗面來說,來自O(shè)penClaw創(chuàng)始人的公開批評,多少會在海外技術(shù)社區(qū)中制造一些負面情緒。

      然后馬斯克的那條回復(fù)出現(xiàn)了。

      雖然這兩件事是風(fēng)馬牛不相及的,但在輿論場上,它們會不可避免地被放在一起解讀。

      一邊是OpenClaw創(chuàng)始人對月之暗面產(chǎn)品的安全質(zhì)疑,另一邊是馬斯克對月之暗面研究論文的公開認可。

      對于正在進行新一輪融資的月之暗面來說,后者的時機幾乎不能更好。在資本市場的敘事邏輯里,這種來自頂級人物的認可,往往比任何分析報告都更有說服力。

      當(dāng)然了,不應(yīng)該過度去解讀馬斯克的一條推文。他在X上的互動頻率極高,對各種技術(shù)話題都會隨手點評,一句“impressive”并不意味著他會投資月之暗面或者在xAI中采用月之暗面的方法。

      但不管怎么說,馬斯克那條回復(fù)發(fā)出去之后,很多原本不關(guān)注架構(gòu)研究的人,也開始去翻這篇論文了。一個十一年沒人碰過的組件被重新打開,接下來會發(fā)生什么,誰也不知道。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      用AI生成鄭麗文形象直播帶貨 網(wǎng)民邢某已被行拘

      用AI生成鄭麗文形象直播帶貨 網(wǎng)民邢某已被行拘

      閃電新聞
      2026-05-07 10:24:05
      無名無分45年,賺錢補貼原配還絕育,70歲才轉(zhuǎn)正的她到底圖啥?

      無名無分45年,賺錢補貼原配還絕育,70歲才轉(zhuǎn)正的她到底圖啥?

      星娛叨叨社
      2026-05-07 14:35:16
      曹德旺關(guān)閉8.84億美廠:美國不講理,不再陪玩

      曹德旺關(guān)閉8.84億美廠:美國不講理,不再陪玩

      最新聲音
      2026-05-07 07:04:47
      你個服務(wù)人員比顧客還牛!護士夜班上廁所被投訴,領(lǐng)導(dǎo)還逼道歉!

      你個服務(wù)人員比顧客還牛!護士夜班上廁所被投訴,領(lǐng)導(dǎo)還逼道歉!

      川渝視覺
      2026-05-08 20:50:52
      甘肅省人民政府關(guān)于陳鋒彥等同志職務(wù)任免的通知

      甘肅省人民政府關(guān)于陳鋒彥等同志職務(wù)任免的通知

      天水在線
      2026-05-08 20:13:49
      CCTV直播!國乒男團有望3-1爆冷韓國!雨果戰(zhàn)勒布倫兄弟!附今日賽程

      CCTV直播!國乒男團有望3-1爆冷韓國!雨果戰(zhàn)勒布倫兄弟!附今日賽程

      好乒乓
      2026-05-08 11:11:11
      Anthropic考慮以近萬億美元估值達成交易

      Anthropic考慮以近萬億美元估值達成交易

      財聯(lián)社
      2026-05-08 12:22:04
      55歲大巴黎主帥身材似猛男!晚餐秘訣竟是一頓狂吃6個蛋?

      55歲大巴黎主帥身材似猛男!晚餐秘訣竟是一頓狂吃6個蛋?

      仰臥撐FTUer
      2026-05-08 14:24:04
      任何一個男人到了六十歲后,只要還對異性懷有欣賞與追求,往往因為這兩件事

      任何一個男人到了六十歲后,只要還對異性懷有欣賞與追求,往往因為這兩件事

      心理觀察局
      2026-05-04 08:51:11
      一場4-0!讓英超保級又生變數(shù):熱刺有2對手要爭六,全輸或降級

      一場4-0!讓英超保級又生變數(shù):熱刺有2對手要爭六,全輸或降級

      體育知多少
      2026-05-08 09:00:37
      100 日元兌 4.33 元:日本用三十年,把自己熬成了 “廉價國家”

      100 日元兌 4.33 元:日本用三十年,把自己熬成了 “廉價國家”

      深析古今
      2026-03-31 10:10:57
      中俄一劍封喉!美國授權(quán)被當(dāng)場撕碎,魯比奧:中國別再動用否決權(quán)

      中俄一劍封喉!美國授權(quán)被當(dāng)場撕碎,魯比奧:中國別再動用否決權(quán)

      三毛看世界
      2026-05-07 18:07:13
      他是惡貫滿盈的特務(wù),41歲逃到臺灣,84歲在大街上說共產(chǎn)黨的好話

      他是惡貫滿盈的特務(wù),41歲逃到臺灣,84歲在大街上說共產(chǎn)黨的好話

      興趣知識
      2026-05-08 18:24:52
      新疆法學(xué)會原黨組副書記、副會長張云接受審查調(diào)查

      新疆法學(xué)會原黨組副書記、副會長張云接受審查調(diào)查

      界面新聞
      2026-05-08 09:02:46
      誰都不敢相信,打了四年的俄烏戰(zhàn)爭,居然會以這種方式停戰(zhàn)了!

      誰都不敢相信,打了四年的俄烏戰(zhàn)爭,居然會以這種方式停戰(zhàn)了!

      荷蘭豆愛健康
      2026-05-07 07:39:28
      不敢相信!一個落選秀,首次打季后賽,三分命中率58%

      不敢相信!一個落選秀,首次打季后賽,三分命中率58%

      球毛鬼胎
      2026-05-08 13:06:01
      中美印負債金額對比:美36萬億,印160萬億,中國負債幾何?

      中美印負債金額對比:美36萬億,印160萬億,中國負債幾何?

      聚焦真實瞬間
      2026-05-01 10:18:33
      東契奇最新消息!確定了,基本結(jié)束了…

      東契奇最新消息!確定了,基本結(jié)束了…

      左右為籃
      2026-05-07 21:34:27
      記者:伊勞拉接近執(zhí)教水晶宮,他被水晶宮的未來規(guī)劃吸引

      記者:伊勞拉接近執(zhí)教水晶宮,他被水晶宮的未來規(guī)劃吸引

      懂球帝
      2026-05-07 23:22:19
      伊朗動手了,中東出現(xiàn)新局面

      伊朗動手了,中東出現(xiàn)新局面

      一個壞土豆
      2026-05-07 19:22:58
      2026-05-08 21:23:00
      字母榜 incentive-icons
      字母榜
      讓未來不止于大。
      2443文章數(shù) 8062關(guān)注度
      往期回顧 全部

      科技要聞

      SK海力士平均獎金600萬 工服成相親神器

      頭條要聞

      媒體:"4只皮皮蝦1035元"店主去世僅43歲 觸發(fā)人們反思

      頭條要聞

      媒體:"4只皮皮蝦1035元"店主去世僅43歲 觸發(fā)人們反思

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經(jīng)要聞

      特朗普全球關(guān)稅又受阻,也能退款?

      汽車要聞

      MG 4X實車亮相 將于5月11日開啟盲訂

      態(tài)度原創(chuàng)

      健康
      數(shù)碼
      教育
      房產(chǎn)
      軍事航空

      干細胞能讓人“返老還童”嗎

      數(shù)碼要聞

      海信不卷電視了?六大3C潮品首發(fā),全場景殺向年輕人

      教育要聞

      英國留學(xué)一年,就業(yè)怎么保障?亨利商學(xué)院兩套體系的運作邏輯

      房產(chǎn)要聞

      豪擲6.8億拿地!何猷君大手筆投資三亞!

      軍事要聞

      伊朗:最高領(lǐng)袖穆杰塔巴全面掌控局勢

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 日韩中文字幕亚洲精品一| 国精品无码一区二区三区在线| 色久综合色久综合色久综合 | 亚洲熟女乱色一区二区三区| 白嫩情侣偷拍呻吟刺激| 影音先锋中文字幕无码| 全部免费特黄特色大片视频| 日韩精品免费一线在线观看| 欧美日韩精品一区二区视频| 成人无码区免费视频网站| 亚洲午夜香蕉久久精品| 国产一本一道久久香蕉下载| 亚洲国产午夜精品乱码| 五月丁香六月狠狠爱综合| 99久久精品看国产一区| 老司机亚洲精品| 久久中精品中文字幕入口| 起碰免费公开97在线视频| 国产午夜在线观看视频播放| 亚洲欧美成人aⅴ在线| 91精品免费久久久| 老熟妇国产一区二区三区| 永久免费无码av网站在线观看 | 伊人热热久久原色播放www| 一二三四在线视频观看社区| 久久久久人妻精品一区三寸蜜桃| 91视频免费在线观看| 波多野结衣av在线观看| 国产又猛又爽又黄视频| 国产成人精品日本亚洲11| 亚洲精品亚洲人成在线观看下载 | 狠狠肏天天艹| 岛国一区二区三区av| 国产高清在线精品一区二区三区| av色综合网站| 欧洲美女黑人粗性暴交| 制服丝袜亚洲在线| 99久久精品费精品国产一区二区| 亚洲?无码?双飞| 国产一区二区在线影院| 久久精品www人人做人人爽|