<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      不只是DeepSeek V4,還有個萬億級大模型,訓推全程國產芯片

      0
      分享至

      編輯|Sia

      同一天,兩件大事兒在 AI 圈正面碰撞。

      一邊是 DeepSeek。2026 年 4 月 24 日,正式發布新一代模型DeepSeek-V4 系列預覽版,并同步開源——總參數規模邁入萬億級,支持百萬字超長上下文。

      另一邊,美團悶聲干了件大事——用全國產算力集群,訓練出了萬億參數大模型 LongCat-2.0 系列預覽版( LongCat-2.0-Preview )。

      據知情人士透露,該預覽版與同日發布的 DeepSeek V4 Pro 在總參數規模、激活參數量上基本處于同一量級,同樣支持 1M 上下文。

      但關鍵不是第一梯隊成員的「參數對齊」,而是路徑分野——一個前沿萬億模型,訓推全流程「英偉達含量為 0」——這在業內尚屬首次。即便是 DeepSeek V4,也只是選擇國產算力做「首發推理」,并不意味著全流程完全擺脫英偉達。

      過去兩年,國產大模型領域最核心、也最令人焦慮的問題,終于迎來了明確答案:

      萬億參數級模型,究竟能不能依靠國產芯片穩定、高效地跑起來?

      答案是:能。

      只是很多人沒想到,在「國產算力支撐萬億級模型研發」這條高難度賽道上,率先跑出關鍵突破的,會是美團。

      某種程度上,這也呼應了王興過去的發言,「過去一年,保障充足的 GPU 資源供應,是美團的首要任務」、「我們將爭取把美團 App 率先升級成 AI-powered App。」顯然,這是戰略預判的結果。

      目前,LongCat-2.0-Preview 仍處于受邀內測階段,每天 1000 萬 token 額度。

      我們不禁好奇,他們到底是怎么做到的呢?



      抽絲剝繭 Flash ,原來早就有跡可循

      第一時間,我們聯想到去年 9 月開源的 LongCat-Flash 大模型。

      同樣采用 MoE 架構,總參數規模達到 5600 億,動態激活參數在 186 億至 313 億之間,在性能與計算效率之間做出了相當漂亮的平衡,推理速度和運營成本指標也頗為亮眼。

      彼時,業內就曾傳出消息:該模型訓練階段并未使用英偉達 GPU,而是基于國產加速卡完成。對此,美團始終未予置評。

      但現在,隨著 LongCat-2.0-Preview 的出現,我們重翻技術報告,很多細節突然有了新的解釋。

      那些當時看起來「用力過猛」、「沒必要」的工程優化,或許并不是單純秀肌肉,而是在國產算力環境下訓練超大模型時,必須跨過去的現實門檻。

      換句話說,那份報告的「微言大義」,其實是一套如何用國產芯片訓成超大模型的方法論。

      邏輯并不復雜。

      一個 560B 的 MoE 模型,訓練周期 30 天。如果底層運行在成熟的 NVIDIA + CUDA + NVLink + InfiniBand 生態里,通信、算子、調度、穩定性工具鏈早已高度成熟。在這樣的環境下,專門花大量篇幅去講底層算子優化、確定性計算、穩定性套件,邊際收益通常并不高。

      但如果底層不是英偉達,而是國產算力,一切就瞬間說得通了。

      第一個最微妙的信號,藏在用詞里。

      翻遍 Flash 技術報告的訓練章節,你會發現全文只提「accelerator 」,絕口不提「 GPU 」;而到了推理部分,卻明確寫的是「 H800 」。這種刻意的區分,在學術論文中并不常見——它更像是在合規框架下,用一種近乎明示的方式告訴你:訓練跑的那套硬件,不是英偉達。

      第二個信號,是顯存數字。

      Flash報告第 5.3 節提到,經過 V-ZB 算法優化后,訓練峰值顯存被壓到了60GB 以下。這是一個非常具體的數字。如果是 H800(80GB 顯存),壓到60GB并無太大必要;但如果是單卡顯存原本就偏緊的國產芯片,這個優化就是生死線。

      同樣,在后來開源的 DORA異步訓練框架論文中,團隊再次明確寫道:「 our production cluster consists of midrange accelerators, especially with only around 60GB of available device memory 」——60GB,這個數字反復出現,指向的不是偶然。

      第三個,也是最硬核的,是算子的「確定性實現」。

      技術報告專門拿出章節講「 Determinism 」。在外界看來,這只是一個工程潔癖。但知情人士透露,這背后是一場硬仗。

      當訓練平臺從成熟的 CUDA 換成一個較新的國產芯片生態時,很多基礎的算子要么缺失,要么性能不可接受。最典型的是FlashAttention 反向梯度( FAG )——它直接決定了長上下文訓練的穩定性。

      當時國產芯片上只有一個「確定性」實現,但為了做到計算順序固定,它被迫退化成單核順序執行,耗時比「非確定性」版本慢了20 到 70 倍,在生產環境中幾乎不可用。

      LongCat 團隊沒有等。他們在國產芯片上自研了高性能的確定性 FAG 算子,最終將性能損失控制在5%左右——既保住了確定性,又沒有犧牲效率。據我們所知,這一實現早于國產芯片廠商官方推出的確定性版本,且性能更優。

      同樣的自研重構還發生在Scatter 類算子上。原有的單核實現效率極低,團隊設計了一套確定性并行算法,將梯度聚合任務拆解到所有可用計算單元上,性能提升數十倍。

      而對于GEMM 這類高耗時計算模塊,團隊也放棄了通用實現,轉而采用確定性 Tiling 策略,疊加深度調優,實現了「高性能 + 確定性」的雙重目標。

      正是在這些底層算子的深度自研之上,「整網確定性訓練」才真正成為可能——

      每一步的計算結果都能精確復現,任何一次異常都能被快速定位。這在國產芯片工具鏈尚不完善的階段,不是錦上添花,而是排障的剛需。

      把這些細節放在一起,Flash 的技術報告,實則是一份沒有點名硬件平臺的國產算力訓練經驗總結,也是一輪提前完成的驗證:

      先用 560B 跑通工程棧,驗證架構、通信、訓練穩定性與工具鏈閉環,再把同一套方法論,放大到 1.6T。

      模型架構又有創新了

      因此, LongCat-2.0-Preview ,本質上可以看作是這一套方法論第一次被完整推到萬億參數級后的「階段性驗證」。據多位接近項目的人士透露,這一版本的技術細節含金量,似乎明顯高于外界目前所看到的公開信息。

      LongCat-2.0-Preview 采用 MoE 架構,總參數規模約 1.6T,平均激活參數約 48B,同時支持 1M 級超長上下文。在國產算力環境下,同時支撐超大參數規模與百萬級上下文,本身就是對顯存、通信與系統穩定性的綜合考驗。

      消息人士稱,為了進一步降低底層硬件負擔,同時提升整體推理與訓練效率,團隊在架構層面做了幾個核心創新。

      其中一個延續性較強的方向,是在 LongCat-Flash-Lite 已驗證的 N-gram Embedding 路線基礎上繼續增強

      傳統 MoE 模型通常依賴不斷擴展 FFN 專家數量來提升能力,但隨著專家規模增加,跨節點通信開銷也同步上升,整體收益逐漸遞減。

      LongCat 干脆將一部分原本位于專家層的參數前移至 embedding 層,并引入 N-gram(詞組級)建模能力,使部分高頻語言模式可以直接匹配命中,而不再依賴逐層計算。

      據說,在這一設計下,模型在保持 1.6T 參數容量的同時,在代碼生成、指令理解以及專業語義任務中獲得更穩定的表現,推理成本也得到明顯控制。

      另一個關鍵創新來自注意力機制層面

      長上下文能力的主要瓶頸,仍然來自 Transformer 的 O(n2) 計算復雜度。LongCat-2.0-Preview 通過引入輕量稀疏注意力機制,并疊加「跨層流感知索引」設計,在不同層之間識別關鍵語義路徑,減少了重復的全量 attention 計算。

      據說,這一組合設計使模型能夠穩定支持 1M token 上下文,同時在推理延遲與計算成本上保持相對可控。

      5–6 萬卡國產集群,何以托起萬億模型?

      據機器之心了解,LongCat-2.0-Preview 的訓推,均完全基于國產芯片完成,英偉達算力占比為零。

      有接近項目的人士透露,訓練階段調用的國產加速卡規模已達 5 萬至 6萬張——這也刷新了當前已知范圍內,國產算力支撐超大模型訓練的規模上限。

      這意味著其已經進入典型的超大規模工程系統階段,對通信、算子和穩定性提出的要求,遠比外界想象高得多。

      首當其沖的是顯存與帶寬約束。相比英偉達高端 GPU(如 H100、B200),國產芯片在單卡 HBM 容量與帶寬上仍存在差距,這使得可用顯存空間被明顯壓縮。如何將 1.6T 級別「專家庫」在工程實現上,仍需要在集群側進行極其精細的切分與調度。

      換句話說,研發團隊必須在萬卡規模上,對專家并行(EP)、張量并行(TP)與流水線并行(PP)進行重新組合與解構,才能完成整體訓練部署。

      有接近研發的人士表示,圍繞并行策略與顯存優化,團隊做了大量底層調整。包括前述的 N-gram Embedding 與稀疏注意力設計,本質上也在為顯存與帶寬「騰空間」。

      另一個更隱性的難點,是軟件生態與算子效率。

      不比CUDA 生態在算子庫與調度效率上的優勢,國產芯片在部分核心算子(如 GEMM、注意力相關計算)上仍存在優化空間。消息人士透露,為了提升執行效率,團隊并未完全依賴通用框架,而是對核心算子進行了針對性重寫與優化,并引入「確定性計算」機制,以保證大規模訓練中的可復現性與調試能力。

      而當訓練規模擴展至數萬卡級別后,系統穩定性成為另一個主要變量。

      在長周期訓練過程中,硬件掉線、通信抖動與任務中斷是常態問題,而不是異常情況。為此,團隊額外構建了一套容錯與恢復體系,包括鏈路感知、自動重調度與多層異常檢測機制,用于降低局部故障對整體訓練的影響。

      最后,團隊針對國產硬件的特點,對訓練框架和模型結構做了親和設計,顯著提升了計算性能。

      綜合來看,在國產芯片上跑通 1.6T 模型,本質上是在「用軟件工程的勤奮,彌補硬件生態的欠缺」。其結果,正如消息人士所稱,雖然國產芯片在顯存等硬指標上還存在差距,但在計算正確性、數值精度以及長周期訓練穩定性這些最核心的指標上,已經能夠追平國際水平,足以支撐萬億級 MoE 模型的全流程訓推。

      國產算力,正從能用邁向好用

      過去幾年,關于國產芯片始終有一個現實問題:能不能做大模型?答案逐漸變成「能做」。但行業更在意的是下一問:能不能支撐最前沿、最高強度、最長周期的頂級任務?

      在國產生態仍處于「補課期」的現實下,LongCat 團隊沒有選擇在岸邊等待水清,而是選擇「邊渡江邊修船」。但與 DeepSeek V4 相比,LongCat-2.0-Preview 走得更遠——從訓練到推理,全流程完全國產化。

      這也讓它的意義,超出了「又一個萬億模型」,更是一場產業級驗證:國產算力,正在跨過從「可替代」到「可承擔頂級任務」的關鍵門檻。

      正如業內人士所言,將 DeepSeek V4 與 LongCat-2.0-Preview 放在一起看,國產大模型生態雖仍不完美,但已經邁出了肉眼可見的關鍵一步。那些踩過的坑、補齊的短板、攻克過的工程難題,最終也會沉淀成整個國產 AI 基礎設施的公共能力。

      當國產芯片開始承載這些前沿大模型,并獲得實際驗證與背書,不僅為國產生態注入了信心,也為更深層的結構性變革打開了空間。

      如果說全流程國產化是「造出了車」,那么開源就是「修好了路」,邀請所有人一起跑起來。這種開放基因早已植根于 LongCat 的版圖中。



      這一次 LongCat-2.0 Preview 大概率也將延續這一開放路線。至于具體的開源方式與時間,我們不妨拭目以待。

      目前LongCat-2.0-Preview 已開放內測,每天提供 1000 萬免費 Token 額度,無論是技術發燒友想親手跑一下這個全自研的萬億模型,還是企業開發者想評估國產算力 API 的可用性,都值得一試。

      訪問鏈接:

      https://longcat.chat/platform/usage

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      風向變了?北京昌平職業學校面試現場人山人海,家長半夜來排隊

      風向變了?北京昌平職業學校面試現場人山人海,家長半夜來排隊

      老郭在學習
      2026-05-11 14:35:37
      善惡有報!許家印剛認罪1天,子女近況曝光,大兒子的安排全白費

      善惡有報!許家印剛認罪1天,子女近況曝光,大兒子的安排全白費

      歷史偉人錄
      2026-05-10 22:06:40
      快訊!想談了,日本喊話中國了!

      快訊!想談了,日本喊話中國了!

      故事終將光明磊落
      2026-05-11 09:42:41
      女子碩士入學清華后參與智力測驗,僅得25分,回應:無論是學習、工作、創業,我都沒有遇到困難,但我居然智力中下

      女子碩士入學清華后參與智力測驗,僅得25分,回應:無論是學習、工作、創業,我都沒有遇到困難,但我居然智力中下

      揚子晚報
      2026-05-11 07:48:21
      特朗普本周訪華,怎么看“中美共同的兩個敵人”?

      特朗普本周訪華,怎么看“中美共同的兩個敵人”?

      新民周刊
      2026-05-11 12:14:57
      在不確定的時代,嵐圖給出的確定性答案

      在不確定的時代,嵐圖給出的確定性答案

      汽車觀察AUTO
      2026-04-30 15:41:19
      江西一精神病院炒股碾壓高盛國際,原因讓人笑掉大牙

      江西一精神病院炒股碾壓高盛國際,原因讓人笑掉大牙

      大道微言
      2026-05-11 09:06:06
      極氪品牌銷量、口碑大幅提升!用戶關系不是玄學,一個字——誠!

      極氪品牌銷量、口碑大幅提升!用戶關系不是玄學,一個字——誠!

      車旅人牛姑娘
      2026-05-08 19:52:43
      炸裂!漢坦病毒零號地大反轉,荷蘭夫婦冤了,游輪致命疫情藏秘密

      炸裂!漢坦病毒零號地大反轉,荷蘭夫婦冤了,游輪致命疫情藏秘密

      溫讀史
      2026-05-11 10:05:45
      馬姆達尼執政不足百天時間,印證了平均主義民粹政治的徹底破產

      馬姆達尼執政不足百天時間,印證了平均主義民粹政治的徹底破產

      壹家言
      2026-05-11 09:06:45
      “進取無界”,AUDI加速布局豪華純電市場新賽道

      “進取無界”,AUDI加速布局豪華純電市場新賽道

      座駕car
      2026-04-27 21:08:13
      狀元簽到手卻要賣?奇才交易狀元簽理由曝光,神思路性價比拉滿

      狀元簽到手卻要賣?奇才交易狀元簽理由曝光,神思路性價比拉滿

      夜白侃球
      2026-05-11 11:10:16
      蔣友青硬剛蔣萬安:“改姓換不來入場券”,父子這回臉可有點疼了

      蔣友青硬剛蔣萬安:“改姓換不來入場券”,父子這回臉可有點疼了

      阿胂是吃瓜群眾
      2026-05-11 10:33:52
      人大代表建議機關事業單位雙休制調整為“大周休3天,小周休2天”

      人大代表建議機關事業單位雙休制調整為“大周休3天,小周休2天”

      細說職場
      2026-05-10 10:34:41
      震驚!網傳無錫一女律師稱交不起律協會費,甚至動了“賣血交費”

      震驚!網傳無錫一女律師稱交不起律協會費,甚至動了“賣血交費”

      火山詩話
      2026-05-11 07:29:49
      被伊朗羞辱的特朗普,急需來中國“沖喜”

      被伊朗羞辱的特朗普,急需來中國“沖喜”

      觀察者網
      2026-05-11 13:22:08
      29歲中國工程師背叛馬斯克,套現700萬,偷走核心代碼投奔死對頭

      29歲中國工程師背叛馬斯克,套現700萬,偷走核心代碼投奔死對頭

      阿器談史
      2026-05-10 04:03:40
      中國政府獎學金留學人員抵達平壤,正式開啟在朝留學生活

      中國政府獎學金留學人員抵達平壤,正式開啟在朝留學生活

      大風新聞
      2026-05-11 08:36:09
      出乎所有人預料,特朗普修改訪華計劃,中方官宣,他必須多來一天

      出乎所有人預料,特朗普修改訪華計劃,中方官宣,他必須多來一天

      牛鍋巴小釩
      2026-05-11 11:23:22
      ?圍觀也能賠上千億:中東這把火,把印度燒成了最慘的局外人

      ?圍觀也能賠上千億:中東這把火,把印度燒成了最慘的局外人

      局勢帝
      2026-05-10 18:00:40
      2026-05-11 14:52:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12968文章數 142648關注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機會

      頭條要聞

      媒體:特朗普確定本周訪華 中美在東亞有個共同的敵人

      頭條要聞

      媒體:特朗普確定本周訪華 中美在東亞有個共同的敵人

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      “孕婦墜崖案”王暖暖稱被霸凌協商解約

      財經要聞

      "手搓汽車"曝光:偽造證件、電池以舊代新

      汽車要聞

      全球化成國內車企未來勝負手,誰是出海最強"水手"?

      態度原創

      藝術
      本地
      教育
      親子
      公開課

      藝術要聞

      2026中央美術學院博士生畢業作品選

      本地新聞

      用蘇繡的方式,打開江西婺源

      教育要聞

      雞娃越用力孩子越擺爛 | 霧見錄07

      親子要聞

      從依戀到分化:我們是如何一步步走出“媽媽的世界”的?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 成人久久免费网站| 国产真实自在自线免费精品| 影音先锋91| 日本久久香蕉一本一道| 精品久久综合1区2区3区激情| 永久免费无码成人网站| 日本丰满老妇bbb| 又粗又黄又硬又爽的免费视频| 久久av嫩草影院| 一区二区三区自拍偷拍视频| 人妻色综合网站| 噜噜色综天天综合网| 久久特级毛片| 日韩欧美aⅴ| 美女一区二区三区亚洲麻豆| 国产成人亚洲欧美二区综合| 亚洲精品乱码久久久久久中文字幕| 久久久久久亚洲精品不卡| 欧美视频第一页| 18禁裸乳啪啪无遮裆网站| 国产精品久久久久av福利动漫| 8AV国产精品爽爽ⅤA在线观看| 免费吃奶摸下激烈视频| 一区二区亚洲精品| 免费又爽又大又高潮视频| 艹逼欧美| 国产精品亚洲欧美大片在线观看| 国产成人无码18禁午夜福利p| 成人无码h真人在线网站| 国产精品V日韩精品| 国产精品毛片一区视频播| 制服丝袜无码在线| 成人另类小说| 国产在线一区二区三区四区五区 | 白丝精品一区二区三区| 国产公开久久人人97超碰| 国产农村精品一级毛片视频| 亚洲精品熟女| 97人妻熟女成人免费视频色戒| 亚洲欧美自拍小说区| 国产福利酱国产一区二区|