<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      美團發布原生多模態 LongCat-Next:把物理世界變成 AI “文字”

      0
      分享至

      物理世界的信息由圖像、聲音、文字交織而成,但通往真正物理世界智能的邊界,絕不僅僅是語言。近日,美團發布并全面開源原生多模態大模型 LongCat-Next 及其核心組件——離散原生分辨率視覺分詞器(dNaViT)。



      ▲美團發布原生多模態LongCat-Next:讓視覺和語音成為AI“母語”(資料圖)

      該模型打破了當前大模型以“語言為中心”的傳統拼湊式架構,將圖像、語音與文本統一映射為同源的離散 Token。通過純粹的“下一個 Token 預測”(Next Token Prediction,NTP)范式,LongCat-Next 讓視覺與語音成為 AI 的“原生母語”。這不僅是一次底層架構的革新,更是美團 LongCat 團隊在通往物理世界 AI 道路上邁出的堅實一步。

      打破模態壁壘:賦予 AI 物理世界的“統一母語”

      今天的主流多模態大模型,本質上仍是"語言基座 + 外掛視覺/語音模塊"的拼湊系統。非語言模態往往只作為輔助組件被"投影"到語言空間,導致圖像的理解(依賴對齊機制)與生成(依賴擴散模型)在結構與優化上長期割裂。

      能否讓 AI 像處理語言一樣,用同一種方式簡潔有效地處理物理世界的多種信息?



      ▲LongCat-Next 架構概覽,該架構基于DiNA范式設計(資料圖)

      美團 LongCat 團隊給出了肯定的答案。通過構建 DiNA(Discrete Native Autoregressive)離散原生自回歸架構,LongCat-Next 將所有模態統一為離散 Token,并共享同一個自回歸骨干。無論輸入的是文字、圖像還是音頻,模型都使用同一套參數、同一個注意力機制和同一個損失函數。

      在這一極簡架構下,視覺的“看”與“畫”、聽覺的“聽”與“說”,不再是異構模塊的拼接,而是同一套預測邏輯的自然涌現。給定圖像預測文字是“理解”,給定文字預測圖像是“生成”——兩者在數學形式上完全一致,不再割裂,多模態信息真正實現了更深層的模態“內化”。

      三大核心技術,重塑多模態底層邏輯

      為了讓物理世界的信號真正轉化為 AI 的“母語”,LongCat-Next 實現了三項關鍵技術突破:

      第一,離散原生自回歸架構(DiNA)徹底打破模態隔閡。

      以 LongCat-Flash-Lite MoE(總參數 68.5B,激活參數僅 3B)為基座,DiNA 讓所有模態共享同一個自回歸骨干,訓練時更穩定,部署時更輕量。實驗表明,DiNA 的 MoE 路由在訓練中逐漸出現模態專精化——激活專家數量相比純語言設置有所增加,模型正在用更大容量支撐能力擴展。與此同時,不同模態的 Token 表征在表示空間中自然融合(t-SNE 可視化可見),MoE 專家自發形成模態偏好分化。這表明模型并非在“對齊模態”,而是在內部形成了統一的多模態表征結構——從“對齊”走向了真正的“內化”。

      第二,離散原生分辨率視覺分詞器(dNaViT)構造視覺世界的“詞典”。

      dNaViT 相當于視覺領域的“分詞器”,將圖像拆解為一系列有意義的“視覺詞匯”,成功實現了“image → Token → image”的完整閉環——既用于“看懂”圖像,也用于“畫出”圖像。這其中包括了三項關鍵設計。

      原生任意分辨率支持:不做縮放、裁剪與填充,完整保留畫面每一處細節,dNaViT 實現了任意分辨率的圖像編碼與解碼——在文檔解析(OCR)、復雜圖表推理等對細節敏感的任務中具備優勢,并在 OmniDocBench、OCRBench 等密集文本場景的測試中均表現優異;

      8 層殘差向量量化(RVQ):通過8層級聯遞歸擬合“殘差中的殘差”,實現高達 28 倍的極致像素空間壓縮;解碼時,DepthTransformer 將多級 Token 合并重建,讓壓縮與還原高效協同;

      解耦雙軌生成解碼器:離散 Token 還原圖像時,先由“結構像素解碼器”還原布局,再由“擴散像素細化器”注入紋理細節,解耦設計降低生成方差,確保文本渲染清晰無損。

      值得強調的是,在 LongCat-Next 中,視覺 Token 完成的僅是圖像到離散 ID 的映射,真正的視覺表征是在語言模型內部通過 embedding 原生學習得到的。模型不是"接入視覺能力",而是在內部學習并形成了自己的視覺語言——這種從“借用模態”到“內生模態”的轉變,正是原生多模態建模的核心所在。

      第三,語義對齊完備編碼器破解“離散化必然損失信息”的行業難題。

      團隊引入 SAE(Semantic-and-Aligned Encoder)范式。不同于以對比學習為主的模型(如 SigLIP),SAE 通過大規模視覺-語言監督(涵蓋圖像描述、視覺問答乃至視覺推理等任務),學習高信息密度、多屬性的表征。這類表征不僅具備豐富的語義結構,同時在網絡殘差傳遞機制下,底層視覺細節能夠持續向高層傳播,在抽象語義中保留顏色、紋理與空間結構等細粒度信息,為離散 Token 的語義完備性提供基礎。在此之上,多級殘差向量量化(Residual Vector Quantization, RVQ)機制,對表征進行逐級離散建模,在有限離散空間內逼近高維連續表示,從而在壓縮率與信息保真之間取得平衡。

      最終得到的離散視覺 Token,不僅能夠支撐細粒度理解任務(例如在密集文本識別中優于連續表征模型),同時也具備高保真的圖像重建能力。這表明:離散表示并非信息的退化形式,而可以成為統一理解與生成的完備表達載體。

      實證破局:打破三大行業刻板印象

      LongCat-Next 在視覺理解、圖像生成、音頻、智能體等多個維度的基準測試中,以一套離散原生框架,展現出與多模態專用模型相當甚至領先的性能,驗證了三個關鍵發現。



      ▲LongCat-Next 的基準測試性能(資料圖)

      發現一:離散視覺沒有天花板。

      行業曾普遍認為,離散模型在細粒度文本識別上必然不如連續模型。但 LongCat-Next 在 OmniDocBench(學術論文、財報、行政表格)上取得 0.152 / 0.226 的成績,不僅超越 Qwen3-Omni,還超過了專用視覺模型 Qwen3-VL。離散化不是細粒度感知的天花板,關鍵在于如何構建語義完備的離散視覺表征。

      發現二:理解與生成可以協同。

      傳統觀點認為,單一模型難以兼顧理解與生成。但 LongCat-Next 證明了兩者不僅不沖突,反而表現出協同潛力:統一模型的理解損失僅比純理解模型高 0.006,而生成損失比純生成模型低 0.02。在圖像生成上,GenEval(84.44)、LongText-Bench (英文 93.15)等基準測試結果均顯著超越 BAGEL 等統一模型;在圖像理解上,MathVista(83.1)達到行業領先水平。

      發現三:統一框架不折損語言能力,在智能體與音頻上形成跨模態協同。

      在純文本任務上,LongCat-Next 的 MMLU-Pro(77.02)和 C-Eval(86.80)表現領先,證明原生多模態訓練未削弱語言核心能力。在工具調用上,τ2-Bench 零售場景(73.68)大幅領先
      Qwen3-Next-80B-A3B-Instruct(57.3);在代碼能力上,SWE-Bench(43.0)顯著超越同類模型。

      在音頻領域,TTS 任務 SeedTTS 中文 WER 低至 1.90、英文 WER 低至 1.89;音頻理解 MMAU(76.40)、TUT2017(43.09)均達到先進水平。模型同時支持低延遲并行文本語音生成與可定制語音克隆,讓語音交互更自然、更個性化。

      全面開源,共建物理世界 AI 基石

      “作為一個初步的嘗試,我們展示了一個有意義的視角:物理世界的信息可以被離散化、統一化、像語言一樣被建模,讓 AI 第一次能夠像處理文字一樣原生地理解物理世界的多模態信號。”美團 LongCat 團隊相關負責人表示,“我們期待,有一天 AI 能真正‘看懂’物理世界的每一個角落、‘聽懂’顧客的每一句話、理解物理世界的每一條規律。”

      在他看來,LongCat-Next 以小尺寸驗證了原生離散架構的潛力,是通往物理世界 AI 道路上的一塊重要基石,但未來仍有非常多且重要的方向尚未被充分探索——這恰恰是未來研究的機遇所在。

      目前,LongCat-Next 模型、dNaViT 分詞器及相關技術報告全面開源,開發者可通過以下鏈接獲取資源:

      Paper: https://github.com/meituan-longcat/LongCat-Next/blob/main/tech_report.pdf
      GitHub: https://github.com/meituan-longcat/LongCat-Next
      HuggingFace: https://huggingface.co/meituan-longcat/LongCat-Next

      更多體驗前往:

      Demo: https://longcat.chat/longcat-next
      Blog: https://longcat.chat/longcat-next/intro

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      1987年,馬季宴請馮鞏等幾位徒弟,這一桌菜,可不便宜

      1987年,馬季宴請馮鞏等幾位徒弟,這一桌菜,可不便宜

      喜文多見01
      2026-05-12 10:54:13
      24小時內,中國收3個好消息!特朗普的第一份大禮,已經到位了!

      24小時內,中國收3個好消息!特朗普的第一份大禮,已經到位了!

      千里持劍
      2026-05-13 11:31:35
      我一直糾結劉濤的長相很久了,昨天拿去讓老人家幫忙看看面相。

      我一直糾結劉濤的長相很久了,昨天拿去讓老人家幫忙看看面相。

      小光侃娛樂
      2026-05-13 11:59:03
      安帥談內馬爾:我很清楚他非常受歡迎;沒有人施壓讓我征召他

      安帥談內馬爾:我很清楚他非常受歡迎;沒有人施壓讓我征召他

      懂球帝
      2026-05-13 07:33:06
      無才無德、整日裝瘋賣傻博眼球,究竟是誰把這群小丑捧上天?

      無才無德、整日裝瘋賣傻博眼球,究竟是誰把這群小丑捧上天?

      夢醉為紅顏一笑
      2026-05-11 11:34:43
      6月入戶調查啟動!不查房產不查存款,看完這些徹底不慌了

      6月入戶調查啟動!不查房產不查存款,看完這些徹底不慌了

      老特有話說
      2026-05-11 13:39:00
      中方一錘定音給特朗普最高禮遇,普京通告全球:中俄關系獨一無二

      中方一錘定音給特朗普最高禮遇,普京通告全球:中俄關系獨一無二

      快看張同學
      2026-05-13 09:52:25
      皇馬為穆里尼奧回歸開啟大清洗!9名球員將離隊,今夏折價拋售

      皇馬為穆里尼奧回歸開啟大清洗!9名球員將離隊,今夏折價拋售

      夜白侃球
      2026-05-13 09:20:50
      津媒:U19國青出戰土倫杯以小打大,隊內不少頗具潛質的球員

      津媒:U19國青出戰土倫杯以小打大,隊內不少頗具潛質的球員

      懂球帝
      2026-05-13 11:27:05
      徹底不裝了!央視拒付天價轉播費僅48小時,炸出一堆“牛鬼蛇神”

      徹底不裝了!央視拒付天價轉播費僅48小時,炸出一堆“牛鬼蛇神”

      好賢觀史記
      2026-05-08 16:10:06
      5月13日至5月19日,本市部分路段交通臨時管制

      5月13日至5月19日,本市部分路段交通臨時管制

      上海交通
      2026-05-13 13:41:37
      騎士全隊出征底特律!ESPN預測騎士僅三成勝率,哈登天王山7勝6負

      騎士全隊出征底特律!ESPN預測騎士僅三成勝率,哈登天王山7勝6負

      錢說體育
      2026-05-13 12:39:00
      陪玩陪睡根本不夠!認干爹、舔手指,背地里的陰暗面完全藏不住了

      陪玩陪睡根本不夠!認干爹、舔手指,背地里的陰暗面完全藏不住了

      杰絲聊古今
      2026-05-03 13:35:27
      開羅會議時,羅斯福:把越南琉球歸還中國,蔣介石:不要!

      開羅會議時,羅斯福:把越南琉球歸還中國,蔣介石:不要!

      鶴羽說個事
      2026-05-12 22:42:24
      國乒太太天團貌美如花:邱貽可娶學霸,梁靖崑娶明星,王皓贏麻了

      國乒太太天團貌美如花:邱貽可娶學霸,梁靖崑娶明星,王皓贏麻了

      手工制作阿殲
      2026-05-13 12:29:49
      三名美人并排站著,你最偏愛哪一個

      三名美人并排站著,你最偏愛哪一個

      可樂談情感
      2026-05-13 01:20:36
      明星卸妝后,曾黎邋遢憔悴,田曦薇像無眉大俠,黃曉明撞臉大衣哥

      明星卸妝后,曾黎邋遢憔悴,田曦薇像無眉大俠,黃曉明撞臉大衣哥

      流云隨風去遠方
      2026-05-13 08:12:48
      主角:四個女人四種結局,李青娥慘死,米蘭嫁富商,花彩香最可惜

      主角:四個女人四種結局,李青娥慘死,米蘭嫁富商,花彩香最可惜

      阿廢冷眼觀察所
      2026-05-13 01:40:05
      尼日利亞一女星用500個面包制成禮服 驚艷亮相電影獎 現場撕下一塊大快朵頤

      尼日利亞一女星用500個面包制成禮服 驚艷亮相電影獎 現場撕下一塊大快朵頤

      快科技
      2026-05-12 15:00:24
      痛惜!衡陽5死2傷火災背后:無物業老小區的生存困境

      痛惜!衡陽5死2傷火災背后:無物業老小區的生存困境

      老貓觀點
      2026-05-13 06:45:49
      2026-05-13 14:51:00
      讀懂數字財經
      讀懂數字財經
      用數據,說點財經人話
      1913文章數 3571關注度
      往期回顧 全部

      科技要聞

      谷歌劇透安卓重大升級 Gemini深度集成底層

      頭條要聞

      特朗普空中發文:很榮幸與杰出人士同去偉大的中國

      頭條要聞

      特朗普空中發文:很榮幸與杰出人士同去偉大的中國

      體育要聞

      14年半,74萬,何冰嬌沒選那條更安穩的路

      娛樂要聞

      白鹿掉20萬粉,網友為李晨鳴不平

      財經要聞

      創業板指突破4037.96點創歷史新高

      汽車要聞

      4月新能源滲透率首破60% BBA無車型銷量破萬

      態度原創

      房產
      家居
      藝術
      手機
      公開課

      房產要聞

      海口禁摩,3.3萬名車主要慌了!

      家居要聞

      內在自敘,無域有方

      藝術要聞

      果然是經濟強省!浙江縣域第一高樓,高約300米!

      手機要聞

      索粉最期待的年度旗艦來了!索尼Xperia 1 VIII發布:售價1.2萬元起

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲视频一区| 亚洲国产欧美一区二区好看电影| 亚洲日本久久| 人妻熟女88AⅤ| 亚洲va在线播放一区| 国产精品亚洲第一区焦香味| av在线播放国产一区| 中文字幕?自拍| 午夜福利视频| 1024国产欧美日韩精品| 无码少妇一区二区浪潮免费| 国产精品人成在线播放| 日本熟妇人妻一区二区三区| jizz免费| 无码人妻精品一区二区三区9厂| 色综合久久88色综合天天| 久久精品波多野结衣中文字幕 | 亚洲色情在线播放| 8av国产精品爽爽ⅴa在线观看| 久久人妻无码一区二区| 国产精品无码在线看| 宅男午夜成年影视在线观看| 国产V亚洲V天堂A无码| 夜夜躁狠狠躁日日躁2022| 伊人久在线观看视频| 精品无码av一区二区三区| 国产精品免费久久久免费| 国产69精品久久久久乱码免费| 亚洲日韩精品A∨片无码加勒比| 亚洲午夜无码毛片av久久| 成人自拍偷拍| 国产乱人伦偷精品视频下| 99这里只有精品免费视频| 久久久久久国产福利网站| 亚洲精品久久久久久偷窥| 人人妻人人爽人人做夜欢视频九色| 国内少妇人妻丰满av| 亚洲精品一卡2卡三卡4卡乱码天 | 国产精品久久自在自线观看| 亚洲老鸭窝一区二区三区| 亚洲精品国产一二三区|