<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      扒完 DeepSeek V4 報告,我翻出了這個隱藏彩蛋

      0
      分享至

      今天上午,,直接把這個大模型瘋狂更新月推向了最高潮。

      百萬上下文標(biāo)配,性能比肩頂級閉源模型,首發(fā)適配華為昇騰芯片,隨便一個點單拎出來能寫一篇爆款頭條。

      不過在我翻看 V4 的技術(shù)報告的時候,在訓(xùn)練層面看到了一個被大部分人滑過去的名詞:Muon 優(yōu)化器


      這個技術(shù)名詞,怎么看著這么眼熟呢?

      原來是前兩天發(fā)布的 Kimi 2.6 里,就是通過 Muon優(yōu)化器,在相同的訓(xùn)練量下實現(xiàn)了2倍的效率提升,并在 1 萬億參數(shù)規(guī)模上解決了訓(xùn)練不穩(wěn)定的難題。


      早在上個月楊植麟站在英偉達(dá) GTC 2026 的舞臺上,花了演講中最長的一個板塊講它。

      Kimi 是全世界第一個發(fā)論文證明 Muon 可以用在萬億參數(shù)大模型訓(xùn)練上的團(tuán)隊。(更多解讀可參考)

      楊植麟是這樣說的:「用 MuonClip 而非 Adam 訓(xùn)練 Transformer 大模型,效果會好得多。」正確實現(xiàn)后,token 效率提升 2 倍。在數(shù)據(jù)墻面前,這相當(dāng)于把 50 萬億 token 用出了 100 萬億的效果。

      現(xiàn)在,這項技術(shù)出現(xiàn)在了 DeepSeek V4 的訓(xùn)練方案里。

      我又回來翻了一下 Kimi K2 的架構(gòu)底層,又發(fā)現(xiàn)了一個更有意思的細(xì)節(jié):它用的是 DeepSeek-V3 提出的 MLA(Multi-head Latent Attention)。

      DeepSeek 的技術(shù)報告寫著 Kimi 的名字,Kimi 的架構(gòu)底座寫著 DeepSeek 的名字。 你中有我,我中有你。

      這大概是中國 AI 圈最魔幻的一幕:兩家被外界反復(fù)對比的開源雙子星,技術(shù)底層早就長到了一起。

      而且,Kimi 類似這樣的巧合,已經(jīng)不是第一次了。

      五次「撞車」,五個拐點

      算上 V4 和 K2.6 前后腳上線,這已經(jīng)是 Kimi 和 DeepSeek 過去一年里的第五次「撞車」了。


      圖片由 image-2 制作.

      五次「撞車」,如果只是時間重合,那叫巧合。但把每次發(fā)布的內(nèi)容拉出來看,你會發(fā)現(xiàn)一條清晰的暗線:每次撞車恰好對應(yīng)一個 AI 行業(yè)拐點的到來

      第一次是最戲劇性的。2025 年 1 月 20 日晚 8 點 10 分,DeepSeek R1 發(fā)布并以 MIT 協(xié)議完全開源。不到兩小時后,Kimi k1.5 亮相。

      兩者都瞄準(zhǔn)同一件事:讓模型從「張嘴就來」變成「先想后說」,用強化學(xué)習(xí)跑通 Long-CoT 長思維鏈推理。

      在這之后,中國的開源力量就徹底改變了整個全球 AI 的格局。

      后來 OpenAI 在一篇論文中點名指出:Kimi 和 DeepSeek 是「最早復(fù)現(xiàn) OpenAI-o1 Long-CoT」的兩家公司。全世界只有這兩家中國公司看懂了 OpenAI 在做什么,并且用自己的方式做了出來


      那是中國 AI 從「追隨者」開始變成「引領(lǐng)者」的分水嶺。

      最近這次就是今天。四天之內(nèi),K2.6 帶來了 SWE-Bench Pro 58.6% 的 Agent 集群并行編程能力,V4 把百萬上下文做成了所有服務(wù)的標(biāo)配,輸出長度拉到 384K tokens。

      兩家同時推進(jìn)國產(chǎn)芯片適配:V4 下半年支持華為昇騰 950,寒武紀(jì)已完成 Day 0 適配;K2.6 支持國產(chǎn)芯片混合推理。

      Agent 能力、編程天花板、百萬上下文、國產(chǎn)芯片適配、開源生態(tài),全齊了。

      從「學(xué)會思考」到「學(xué)會干活」,從「改 Transformer」到「改算力底座」,五次撞車其實展現(xiàn)出來的,是中國 AI 不再一味對標(biāo) OpenAI ,逐漸不再依賴英偉達(dá),在開源上走出屬于自己的路。

      撞車背后的必然

      發(fā)布撞車的巧合固然有意思,但更值得關(guān)注的,其實是巧合背后的一些必然。

      讓我們先回到 DeepSeek 架構(gòu)里的 Muon 。

      楊植麟在 GTC 演講中講了一個技術(shù)困難:當(dāng) Kimi 把 Muon 擴展到 1 萬億參數(shù)時,訓(xùn)練不穩(wěn)定性成了攔路虎。最大 logits 爆炸超過 1000,正常值只有 50 到 100。


      損失先降后炸,根本無法收斂。他們的解法是 QK-Clip,對每個注意力頭計算最大 logit 的裁剪值,把查詢和鍵限制在合理范圍內(nèi)。訓(xùn)練損失不受影響,但穩(wěn)定性問題消失了。

      K2 模型用這套技術(shù)完成了訓(xùn)練,創(chuàng)下機器學(xué)習(xí)史上最大規(guī)模 Muon 訓(xùn)練的紀(jì)錄。

      而 DeepSeek V4 的技術(shù)報告里,Muon 被直接寫進(jìn)了訓(xùn)練方案。大多數(shù)模塊用 Muon 加速收斂,嵌入層和預(yù)測頭仍用 AdamW,混合使用。這是對 Kimi 底層創(chuàng)新的一次直接引用。


      反過來,Kimi K2 的底層架構(gòu)采用了 DeepSeek-V3 提出的 MLA。Multi-head Latent Attention,通過壓縮 KV 緩存大幅降低推理成本,是 V3 最核心的架構(gòu)創(chuàng)新之一。

      你的論文成了我的基礎(chǔ)設(shè)施,我的創(chuàng)新成了你的底座。 寫在引用列表里的互相成就。

      在硅谷,你很難看到這種事。OpenAI 和 Anthropic 之間的技術(shù)是「護(hù)城河」,能藏則藏。但 Kimi 和 DeepSeek 之間長出了一種更原始也更健康的關(guān)系:開源社區(qū)里的正向循環(huán)

      Kimi 和 DeepSeek 是中國首批開源萬億參數(shù)模型的玩家,都相信 Scaling Law。技術(shù)路線上,DeepSeek 以推理模型見長,Kimi 以 Agent 能力著稱。

      底層架構(gòu)上,兩家都在挑戰(zhàn)同一批「古老」的基礎(chǔ)設(shè)施。Kimi 發(fā)了「注意力殘差」論文,DeepSeek 做了 mHC 殘差連接,都在改 ResNet 時代留下來的殘差連接方式。

      在長文本這條線,Kimi 探索線性注意力(Kimi Linear),DeepSeek 探索稀疏注意力(DSA),殊途同歸。

      所以當(dāng)它們撞車時,與其說是巧合,不如說是對同一個方向的必然趨同。

      用中國的芯片,跑中國的模型,對全世界開源

      在 OpenRouter 上,Kimi 和 DeepSeek 穩(wěn)居中國模型調(diào)用量前兩名。

      Cursor 接入了 Kimi,日本樂天 Rakuten AI 3.0 基于 DeepSeek 開發(fā)。被海外產(chǎn)品「套殼」這件事,放在兩年前是恥辱,現(xiàn)在是勛章。

      Meta 新模型 Muse Spark 發(fā)布時,官方 Blog 做的對比基準(zhǔn)線里,Kimi 和 DeepSeek 跟 GPT-4、Claude 并排站著。英偉達(dá) GTC 上,黃仁勛用來展示芯片性能的中國模型就是這兩家。

      海外認(rèn)可之外,更值得注意的是國產(chǎn)芯片這條線。H20 芯片已斷供一年,高端推理芯片短期內(nèi)只有國產(chǎn)一個選項。兩家公司同時在做同一件事:讓中國模型跑在中國芯片上。


      上周黃仁勛在播客訪談里說了一句話:「如果當(dāng)初 DeepSeek 先在華為平臺上發(fā)布,那對我們來說非常可怕。

      今天,V4真的首發(fā)適配華為昇騰,工程團(tuán)隊把整個技術(shù)棧從 CUDA 遷移到了華為 CANN 框架,從算子庫到通信原語到內(nèi)存管理,V4 的混合注意力、MoE 專家并行、FP4 量化訓(xùn)練,幾乎每層從頭實現(xiàn)。寒武紀(jì)也在 Day 0 完成了 V4 全系列的 vLLM 推理適配,代碼已開源。


      黃仁勛一語成讖。

      而 Kimi 在國產(chǎn)芯片上走的路更早,也更深。為了給國產(chǎn)芯片「鋪路」,Kimi 在架構(gòu)創(chuàng)新上掏出了兩個殺手锏。

      Kimi Linear 混合注意力架構(gòu)把線性注意力層與全注意力層以 7:1 配比混合,將 KV 緩存體積壓縮到極低水平。實測數(shù)據(jù)很直觀:32K 上下文下,混合架構(gòu)模型 KV 吞吐量僅 4.66 Gbps,同規(guī)模稠密模型高達(dá) 59.93 Gbps。


      KV 緩存?zhèn)鬏斝枨蟊粔旱搅似胀ㄒ蕴W(wǎng)可承載的范圍,RDMA 高速網(wǎng)絡(luò)從「必選項」變成了「可選項」。

      在此基礎(chǔ)上,Kimi 聯(lián)合清華大學(xué)發(fā)布了 PrFaaS(預(yù)填充即服務(wù))論文,把推理的 Prefill 階段和 Decode 階段徹底解耦,調(diào)度到不同異構(gòu)硬件集群上。實測吞吐量提升 54%,首詞延遲降低 64%。

      這套方案打破了「大模型推理必須綁定同一種高端 GPU」的前提:算力強的國產(chǎn)卡做 Prefill,帶寬強的國產(chǎn)卡做 Decode,各司其職。


      DeepSeek 用 V4 證明了國產(chǎn)芯片能跑萬億參數(shù)的旗艦?zāi)P停琄imi 用架構(gòu)創(chuàng)新證明了國產(chǎn)芯片可以跑得好、跑得省。

      一個從工程適配切入,一個從架構(gòu)設(shè)計切入,終點都是同一個:讓英偉達(dá)不再是唯一選項

      以前的國產(chǎn) AI 敘事是「用英偉達(dá)的卡,追 OpenAI 的模型」。現(xiàn)在這對雙子星同時在寫另一個劇本:用中國的芯片,跑中國的模型,服務(wù)全世界的開發(fā)者

      你的 MLA 是我的基礎(chǔ),我的 Muon 是你的加速器

      回看這一周AI 行業(yè)的瘋狂更新,我們已經(jīng)處在了一個新的轉(zhuǎn)折點。

      同一周內(nèi),兩個中國團(tuán)隊各自發(fā)布了萬億參數(shù)級開源模型,性能逼近甚至持平美國頂級閉源模型。這在一年前是不可想象的。

      當(dāng)閉源模型的價格是開源模型的 50 倍,開源陣營每隔幾個月就推出一個新的萬億參數(shù)選手,競爭天平正在發(fā)生微妙的傾斜。

      這不是「贏了」或「超越」這么簡單的勝負(fù)之分。閉源模型在復(fù)雜推理和系統(tǒng)可靠性上仍然有明顯優(yōu)勢,Opus 4.6 的思考模式依然是 V4-Pro 追趕的目標(biāo)。但開源陣營的速度、成本優(yōu)勢和生態(tài)覆蓋面,正在改變這場競賽的規(guī)則本身。

      除了這五次撞車發(fā)布,這兩家公司還有一個巧合。梁文鋒來自廣東湛江,楊植麟來自廣東汕頭。兩個廣東人,撐起全球開源 AI 半邊天


      梁文鋒像工程師哲學(xué)家,相信開源和底層創(chuàng)新,V4 發(fā)布公告結(jié)尾引的是荀子,「不誘于譽,不恐于誹,率道而行,端然正己。」


      至于楊植麟在我看來像產(chǎn)品科學(xué)家,他認(rèn)為用戶體驗和技術(shù)突破可以兼得,在 K2.6 發(fā)布時他提到了 Linux 之父 Linus Torvalds 那句「Talk is cheap. Show me the code.」

      一個古典,一個極客。就是這兩個風(fēng)格迥異的創(chuàng)始人,一起定位了中國開源模型在世界坐標(biāo)系的位置。

      你的 MLA 是我的基礎(chǔ),我的 Muon 是你的加速器。這大概也是中國在能在短時間內(nèi)引領(lǐng)全球開源 AI 的重要原因之一

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      申花剛戰(zhàn)平重慶銅梁龍!斯盧茨基賽后就做出重要決定,已發(fā)聲確認(rèn)

      申花剛戰(zhàn)平重慶銅梁龍!斯盧茨基賽后就做出重要決定,已發(fā)聲確認(rèn)

      張麗說足球
      2026-05-10 16:10:48
      懸崖秋千墜亡事件后續(xù),排女孩后面游客發(fā)聲,有目擊者做幾天噩夢

      懸崖秋千墜亡事件后續(xù),排女孩后面游客發(fā)聲,有目擊者做幾天噩夢

      十九妹
      2026-05-07 16:16:16
      房子“以舊換新潮”終究還是來了?中央定調(diào),這4類房子無需加錢

      房子“以舊換新潮”終究還是來了?中央定調(diào),這4類房子無需加錢

      混沌錄
      2026-05-09 21:23:14
      10萬輛無人車已上路?杭州街頭的“空車”正悄悄改寫打車規(guī)則

      10萬輛無人車已上路?杭州街頭的“空車”正悄悄改寫打車規(guī)則

      三農(nóng)老歷
      2026-05-10 11:14:46
      記者:卡塞米羅缺陣意味著無法觸發(fā)續(xù)約條款,但他已放棄條款

      記者:卡塞米羅缺陣意味著無法觸發(fā)續(xù)約條款,但他已放棄條款

      懂球帝
      2026-05-09 21:07:05
      伊朗戰(zhàn)爭,出乎世界預(yù)料,美軍打出了一個更不想看到的對手

      伊朗戰(zhàn)爭,出乎世界預(yù)料,美軍打出了一個更不想看到的對手

      過期少女致幻錄
      2026-04-04 03:30:52
      我中了3800萬,父親謊稱拆遷逼我給弟弟買房,我反手打給了村長

      我中了3800萬,父親謊稱拆遷逼我給弟弟買房,我反手打給了村長

      曉艾故事匯
      2026-05-05 09:39:01
      河北王牌景區(qū)白洋淀徹底翻車!五一前3天不到2萬人,口碑徹底爛了

      河北王牌景區(qū)白洋淀徹底翻車!五一前3天不到2萬人,口碑徹底爛了

      譚談社會
      2026-05-07 20:44:05
      連中國都嫌棄!東南亞無一國可接納,這個族群被稱為“國際孤兒”

      連中國都嫌棄!東南亞無一國可接納,這個族群被稱為“國際孤兒”

      嘴角上翹的弧度
      2026-04-09 22:35:30
      當(dāng)著迪麗熱巴的面,金靖直接說:你好美,心好丑。全場都僵住了。

      當(dāng)著迪麗熱巴的面,金靖直接說:你好美,心好丑。全場都僵住了。

      鯨讓我照顧海
      2026-05-08 09:52:47
      球王降臨!歷史第1人!38歲梅西破門創(chuàng)造紀(jì)錄,落后C羅64球

      球王降臨!歷史第1人!38歲梅西破門創(chuàng)造紀(jì)錄,落后C羅64球

      烏龍球OwnGoal
      2026-05-10 11:50:54
      致命倒計時開始!朝鮮內(nèi)部細(xì)節(jié)曝光:7個月后,半島再無回頭路

      致命倒計時開始!朝鮮內(nèi)部細(xì)節(jié)曝光:7個月后,半島再無回頭路

      真的好愛你
      2026-05-09 15:52:00
      小姐姐穿著黑絲和高跟鞋翹著二郎腿坐在沙發(fā)上的樣子太有女人味了

      小姐姐穿著黑絲和高跟鞋翹著二郎腿坐在沙發(fā)上的樣子太有女人味了

      牛彈琴123456
      2026-04-30 10:35:26
      梁文鋒的師兄弟,集體南下深圳

      梁文鋒的師兄弟,集體南下深圳

      21世紀(jì)經(jīng)濟(jì)報道
      2026-05-09 19:23:57
      蔣介石晚年坦言:敗退臺灣無悔,此生最大不甘就是聽了斯大林此言

      蔣介石晚年坦言:敗退臺灣無悔,此生最大不甘就是聽了斯大林此言

      芳芳?xì)v史燴
      2026-05-04 01:43:43
      為什么發(fā)達(dá)國家對中國都不友好?

      為什么發(fā)達(dá)國家對中國都不友好?

      新浪財經(jīng)
      2026-05-04 07:26:54
      文章面館爆火后再開酒吧!劉歡劉威到場祝賀,張若昀父親張健捧場

      文章面館爆火后再開酒吧!劉歡劉威到場祝賀,張若昀父親張健捧場

      露珠聊影視
      2026-05-09 21:24:29
      誰都不敢相信,打了四年的俄烏戰(zhàn)爭,居然會以這種方式停戰(zhàn)了!

      誰都不敢相信,打了四年的俄烏戰(zhàn)爭,居然會以這種方式停戰(zhàn)了!

      別人都叫我阿腈
      2026-05-08 10:57:36
      廣東隊出征北京,杜鋒淡定,徐杰微笑,張皓嘉低調(diào),焦泊喬隨隊

      廣東隊出征北京,杜鋒淡定,徐杰微笑,張皓嘉低調(diào),焦泊喬隨隊

      老汆古裝影視解說
      2026-05-10 15:28:38
      上海綠捷公司串通投標(biāo)細(xì)節(jié)披露

      上海綠捷公司串通投標(biāo)細(xì)節(jié)披露

      看看新聞Knews
      2026-05-09 19:52:01
      2026-05-10 19:00:49
      AppSo incentive-icons
      AppSo
      讓智能手機更好用的秘密
      6365文章數(shù) 26832關(guān)注度
      往期回顧 全部

      科技要聞

      DeepSeek融資,改寫所有人的估值

      頭條要聞

      面對中方強硬態(tài)度 世界杯中國轉(zhuǎn)播費從3億美元腰斬

      頭條要聞

      面對中方強硬態(tài)度 世界杯中國轉(zhuǎn)播費從3億美元腰斬

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學(xué)畢業(yè)了

      娛樂要聞

      大S女兒玥兒開通賬號,用煙花緬懷母親

      財經(jīng)要聞

      白酒大逃殺

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態(tài)度原創(chuàng)

      本地
      親子
      數(shù)碼
      房產(chǎn)
      公開課

      本地新聞

      用蘇繡的方式,打開江西婺源

      親子要聞

      我有的是辦法

      數(shù)碼要聞

      華為智慧屏S7正式開售,300Hz Super MiniLED超清護(hù)眼

      房產(chǎn)要聞

      低價甩賣!海口這個地標(biāo)商業(yè),無人接盤!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产福利小视频高清在线观看| 99久久婷婷国产综合精品青草五月 | 国产成人片视频一区二区| 日本不卡片一区二区三区| 人操人人| 国产va| 亚洲黄色电影| 国产偷国产偷亚洲高清午夜| 亚洲无人区一码二码三码| 中文字幕亚洲在线观看| 国产又色又爽又刺激在线播放| 亚洲黄色av| 97午夜影院| 国产成人亚洲综合app网站| 午夜影视啪啪免费体验区入口| 内射无码专区久久亚洲| av不卡一区二区| 亚洲gv天堂gv无码男同| jizzjizzjizz亚洲| 欧美zooz人禽交免费观看| 午夜免费男女aaaa片| 亚洲阿v天堂网2021| 五月丁香综合缴情六月小说| 日韩电影在线观看视频| 天美传媒精品| 摸咪网| 一边摸一边叫床一边爽视频| 无码专区aaaaaa免费视频| 无码一区二区三区不卡AV| 男人扒开女人腿桶到爽免费| 国产3P成人在线视频| 国产精品疯狂输出jk草莓视频| 国产精品xxxx| 国产AV激情久久无码天堂| 色护士极品影院| 西西人体44www大胆无码| 亚洲综合精品伊人久久| 国产av高清无亚洲| 777亚洲熟妇自拍无码区| 成人A级片| 强奷乱码中文字幕|