今天,我們正式發布并開源商湯日日新SenseNova U1 系列原生理解生成統一模型。
它基于商湯于今年三月份自主研發的 ,在單一模型架構上統一了多模態理解、推理與生成。
NEO-unify架構徹底摒棄了主流的拼接式,去除了視覺編碼器(VE)和變分自編碼器(VAE),重新構建了統一的表征空間,并且深入融入每一層計算中,從而實現從模態集成向原生統一的范式跨越。
SenseNova U1系列模型能夠將語言與視覺信息作為統一的復合體直接建模,實現語言和視覺信息的高效協同,讓理解與生成能力同步增強,在保留語義豐富度的同時,維持像素級的視覺保真度。
在邏輯推理與空間智能等方向上,它能夠深度理解物理世界的復雜布局與精細關系;在未來,它還能為機器人提供具身大腦,實現在單一模型閉環內完成從復雜環境感知、邏輯推演到精準任務執行的全過程,為推動技術與產業發展提供重要基礎與關鍵引擎。
本次開源發布的是 SenseNova U1 的輕量版系列 SenseNova U1 Lite。它包含兩個不同規格的模型:
SenseNova-U1-8B-MoT:基于稠密骨干網絡
SenseNova-U1-A3B-MoT:基于混合專家(MoE) 骨干網絡
了解更多信息,訪問GitHub
https://github.com/OpenSenseNova/SenseNova-U1
Hugging Face
https://huggingface.co/collections/sensenova/sensenova-u1
我們也將在近期公布詳實的技術報告。
極致高效,以小搏大:
開源SOTA,比肩商用
效率,是統一模型架構的核心技術優勢。
傳統多模態模型是把視覺編碼器和語言骨干通過適配器拼接在一起的。它像一個“說不同語言的人組成的工作組”:有人專門看圖,把圖像翻譯為語言,有人專門理解文字,進行推理,有人把結果再翻譯為設計指令,把圖畫出來。每完成一次任務,信息都要在不同成員之間來回傳遞。這個過程雖然可行,但難免會有等待、誤解和信息損耗。為了彌補這些損耗,模型往往需要做得更大才能達到好的效果。
SenseNova U1 是基于統一表征空間構建的,更像是一個從一開始就同時掌握多項技能的人。它不是先看懂圖像、再翻譯成文字、再交給另一個系統理解,而是在同一套“思考方式”里直接處理圖像、文字等不同信息。圖像和語言不再是兩套系統之間的接力,而是在同一個大腦中自然融合。
這樣帶來的好處是:信息流轉更快捷,理解更直接,生成更高效。模型不需要依賴單純堆大參數來彌補中間轉換的損耗,而是通過統一的內部表征,把不同模態的信息以更緊湊、更高密度的方式組織起來。
簡單來說,傳統架構像是“多人協作、層層轉述”;SenseNova U1 更像是“一個全能大腦,直接理解,直接表達”。少了中間轉譯,信息損耗更低,也能在相對更精簡的模型規模下,實現更強的多模態理解與生成能力。
實驗結果驗證了我們的想法。在涵蓋圖像理解、圖像生成與編輯、空間智能和視覺推理的多項基準測試中,SenseNova U1 Lite均達到同量級開源模型SOTA水平,為統一多模態理解與生成樹立了新的標桿。甚至僅憑8B-MoT的較小規格,就能達到甚至超越部分大型商業閉源模型,展現出全維度多領域的統治力。點擊可查看單圖↓
![]()
圖像理解基準
測試結果
![]()
圖像生成基準
測試結果
![]()
視覺推理基準
測試結果
以下兩組對比圖更直觀地展現了 SenseNova U1 Lite 在效率上的突出優勢。在通用的圖像生成測試中(上圖),SenseNova U1 Lite不但在圖像生成質量上比肩 Qwen-Image 2.0 Pro或 Seedream 4.5 等大型閉源模型,達到商業級水準,還在推理響應速度上有顯著優勢。即使在極具挑戰性、開源模型一直做不好的復雜信息圖生成任務中(下圖),SenseNova U1 Lite 也表現出商業級的水準,對復雜信息圖的排版和文字有很強的控制力。
![]()
Generation Latency vs. Averaging Performance on OneIG (EN, ZH), LongText (EN, ZH), BizGenEval (Easy, Hard), CVTG and IGenBenc
![]()
Generation Latency vs. Averaging Performance on Infographic Benchmarks, i.e., BizGenEval (Easy, Hard), and IGenBench
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
我們正在沿著當前的技術路徑繼續 Scale,計劃在未來推出體量更大的模型。我們相信,基于高效的原生架構,可以以低得多的計算成本達到國際頂尖模型的水平。
業內首創:
連續性圖文創作輸出
憑借NEO-unify架構的優勢,SenseNova U1在業內首個實現連續性的圖文創作輸出。并且只需要單次單模型調用,就能輸出更高質量的作品,相比傳統范式,實現了效率的大幅提升。
SenseNova U1 所具備的原生圖文理解生成能力,能天然將圖像和文本底層融合信號完整的保留上下文中,區別于過去只能利用多模型串聯勉強實現,它的圖像間風格具備明顯的高一致性,能在統一表征空間進行高效連貫思考。
下面兩個案例中,SenseNova U1 通過連貫高保真度的圖文交錯思考輸出。
任務一:五分熟牛排做法:SenseNova U1 可以通過思考和規劃產生分步的過程,并且給每一步輸出對應的圖像展示。各個步驟的圖示表現出極高的一致性。
![]()
上下滑動查看更多,點擊可查看原圖
任務二:繪制一個鋼鐵俠圖案。它可以從掃描草稿出發,逐步進行連續創作,最終做出一個完成度很高的圖像。每一步創作的過程對于前一步的結構和細節都做了精準的保持 —— 一個統一表征的共享上下文在其中發揮了關鍵作用。
![]()
上下滑動查看更多,點擊可查看原圖
全網開源,即刻可用
開源部署
GitHub:
https://github.com/OpenSenseNova/SenseNova-U1
Hugging Face:
https://huggingface.co/collections/sensenova/sensenova-u1
歡迎調用 SenseNova U1 Skill
https://github.com/OpenSenseNova/SenseNova-Skills
瀏覽海量樣例庫,獲取Prompt編寫指南,化繁為簡(繁雜文->有趣圖),讓您的Agent成為信息圖生成高手
在線體驗與接入
即將上線辦公小浣熊
我們相信,原生統一的多模態智能是通往 AGI 的必經之路。未來,我們還將持續推動開源生態建設,并發布更大參數規模的 U1 系列模型。迎社區廣大用戶和開發者提出寶貴建議,共同定義智能交互的未來。
![]()
SenseNova U1專屬群,歡迎入群掃碼交流↓↓↓
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.