<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      不卷參數卷架構,這個開源模型把圖像理解和生成統一了

      0
      分享至

      henry 發自 凹非寺
      量子位 | 公眾號 QbitAI

      這兩天打開朋友圈,10條里有7條都是GPT-Image-2生的圖。

      中文海報、復古雜志封面、直播畫面、社交截圖、連高考試卷都能照著出一張幾乎以假亂真的。

      對此,大家伙的反應也都出奇的一致——

      專業設計師們完了,我又能行了!

      但實際上上手你就會有同感:免費用戶一天幾張,抽卡次數有限,遇到稍微嚴肅點的活,額度馬上到頂,常常是活沒干完,次數沒了。

      針對這一空檔,商湯剛剛開源了一個全新架構的理解生成統一模型SenseNova-U1,雖然小尺寸版本只有8B,卻能復刻不少GPT-Image-2的拿手絕活。

      比如,我們拿它做一張量子位的招聘海報:文字、版式、配色,挑不出毛病。



      太陽系圖解,八大行星各自的軌道、屬性、圖文介紹一應俱全,看著挺像那么回事。



      畫個鋼鐵俠,模型也能自動從輪廓、鋪色、細節、質感、氛圍等多個階段拆解完整的繪畫流程。



      來個馬斯克太空集群的信息圖也審美在線。



      可以說,信息圖(InfoGraph)、文字密集排版、圖文交錯——

      這幾個曾經被公認是AI生圖最難啃的硬骨頭,U1能跟GPT-Image-2擠進一桌。

      在具體的圖像理解與生成的多項指標上,SenseNova-U1也是登頂開源模型的榜首。



      在推理響應速度上也具備相當的優勢,逼近主流商用閉源模型。





      這是怎么做到的,咱往下看。

      連續性圖文創作,這次是原生的

      先說U1這次最有意思的能力,連續性圖文創作

      所謂連續性圖文創作,就是文字和圖片在一段輸出里自然交疊,而不是文字歸文字、圖片歸圖片。

      這聽起來很簡單,但實際上很難。因為文字保留語義、圖片保留像素細節,這兩件事在傳統架構里幾乎是天敵——

      保了語義就丟了像素,保了像素就稀釋了語義。

      U1的做法是讓兩者在同一個表征空間里共享上下文,語義豐富性和像素級視覺保真度第一次同時拿住。

      簡單講,就是模型能像人一樣,邊思考邊畫草圖,文字和圖片在一段輸出里自然交疊。

      比如,我讓它生成一個“煎牛排的操作教學”。它能從食材準備,瀝干水分、調味、煎制和翻面……講到最后裝盤。

      每一步的關鍵操作都有圖,牛排的形象從生肉到五分熟一路保持高度一致,不會畫著畫著變成另一塊肉。



      再比如,我想學一點漫畫分鏡技巧。

      它能直接給我吐出圖文并茂的教材式段落,從準備階段、鏡頭建立、再到引入道具、次要角色一應俱全,比純文字解釋直觀得多。



      這種“始終是同一個主體”的連貫性看起來樸素,但對生成模型卻很難。

      傳統范式得在多個模型之間來回調用,各畫各的,角色形象很容易在第三步就走樣。U1是單次單模型調用直接出全套。

      對一個新模型來說,還有一個值得關注的考驗就是——

      高密度信息圖

      在模型界面中,你可以直接輸入“自己的簡歷信息”,它就能返回你一張手繪風格的海報,信息分布、配色、字體層級都安排得明明白白。



      讓它講“三只小豬蓋房子”,我輸入只有這么“7個字”,輸出就能直接給你一整組連環畫——

      三只小豬、三種材料、三棟房子、最后那只大灰狼,一格一格排好,順序對得上故事。



      炒紅燒肉這類做菜教程圖,也可以一次直出,圖文對應。



      給一句“做杯咖啡的英文流程圖”,圖也直接出來了。



      在講究排版、涉及多種元素的插畫場景中,U1也能實現比較精細的效果,比如這張劃船樂的教學總覽圖。



      最有意思的是這個,扔給它一張路邊常見的“電梯安全”警示牌,讓它換個排版做成一張信息圖。

      它還能直接把這個實現完美遷移,把版式從警示牌切成了科普卡片。





      前段時間火爆的產品爆炸圖,在U1這里也可以做到。一臺相機,被它拆得整整齊齊:

      鏡頭組、反光鏡、快門、傳感器、芯片,電池什么的,統統被它拆得整整齊齊懸浮在空中,標注線一根不少。



      這種程度的玩法,以前是超大參數模型的專屬。更有意思的一點是,SenseNova U1 Lite還在行業首創了圖文交錯的思維鏈。

      這種會推理的能力放到圖像編輯上會更有趣。

      我扔給它一張剛泡好的玻璃杯熱茶,讓它“畫出一小時后的樣子”。它沒有簡單地直接出圖,而是先做了一段推理:

      一是給自己定約束,同一只玻璃杯、同一張原木桌面、同一種側逆光,這樣兩張圖放一起才看得出“是同一杯茶過了一小時”。

      二是推導物理:剛泡時,葉片高速舒展、氣泡從葉脈逸出、蒸汽在杯壁上留下弧形折射;

      一小時后,多酚類擴散均勻,茶湯變深紅褐,葉子完全沉降呈半透明,杯底跟桌面交界處出冷凝痕跡。光影也跟著從“清晨的清冷”過到“午后的慵懶”。



      類似的還有幾個測試。

      給它一個綠色的香蕉,模型會先推理“葉綠素分解+糖化”,從而保證輸出的是一根帶著斑點的成熟香蕉。



      可以說,這款新模型不只是在改圖,還具備了一定的物理常識。

      NEO-unify,一個網絡實現“看”和“畫”

      看到這,你可能想問,這是怎么做到的?

      U1的底層是一套叫NEO-unify的架構。一個模型同時會看、會畫,理解和生成在同一個網絡里完成,中間沒有任何拼接。



      在過去,多模態模型的標配經常是這樣的,視覺編碼器(VE)負責看,變分自編碼器(VAE)負責畫,理解歸理解,生成歸生成,中間靠適配器拼起來。

      NEO-unify把這兩個東西都拿掉了,不需要VE,不需要VAE,模型直接吃像素,直接吐像素。

      具體來說,這一過程分為三步:

      第一步,引入近似無損的視覺接口,把圖像的輸入和輸出統一成同一種表示。

      第二步,用Mixture-of-Transformer做主干,理解和生成共享同一套底層。

      第三步,文本走自回歸,視覺走像素流匹配,兩套目標函數在同一個學習框架里跑完。

      △圖片由SenseNova U1生成

      這套技術架構給了NEO-unify獨門絕活,連續性圖文創作。

      傳統模型要做這件事,得外掛工具或者后處理拼接。U1底層就是統一的,原生支持圖片和文字的交叉排版,所有視覺內容都來自模型自身,不調用外部工具。

      模型在思考一個問題的時候,可以一邊推理一邊生成中間示意圖,把復雜邏輯可視化。

      生成一段教程,可以在恰當的位置自然地插入說明圖。

      落地到模型,兩個規格。SenseNova-U1-8B-MoT,8B參數,端側能跑。SenseNova-U1-3AB-MoT,總參數38B的MoE架構,提供更強的能力,底層都是同一套NEO-unify。

      此外,商湯還給U1配了一套自研推理棧,LightLLM跑理解、LightX2V跑生成,兩條路解耦各管各的。以H100/H200單節點為例,生成一張2048×2048的圖,端到端大概9秒。

      全網開源,即刻可用

      值得一提的是,商湯這次在README里把模型的局限也直接寫了出來:

      上下文最長32K、人物在復雜場景里的細節有時不夠穩、長文字渲染偶爾會出現拼寫或排版錯誤、連續性圖文創作目前還是beta。

      不過這些短板都標了“持續改進中”。換句話說,U1這次開的不是終點,是個起點。

      為了方便大家使用,商湯這次順手開源了一套SenseNova-Skills技能包,把U1做成了Agent里能直接調的工具。

      sn-infographic自帶87種版式、66種風格,自己評分自己挑;掛進OpenClaw,一句 /skill sn-infographic “提示詞”,圖就出來了。

      Skills不只是infographic一個,整套覆蓋圖像生成、PPT制作、Excel數據分析、深度研究、跨平臺搜索。

      目前,SenseNova-U1兩個模型已經全網開源。Hugging Face和GitHub都能下,倉庫地址在https://github.com/OpenSenseNova/SenseNova-U1。

      想直接體驗不動手部署的,現在可以直接進入SenseNova U1 Lite Skill,https://github.com/OpenSenseNova/SenseNova-Skills。

      另外,辦公小浣熊也即將上線U1。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      許國利被執行死刑,行刑前見了兒子最后一面,說出自己的殺妻真相

      許國利被執行死刑,行刑前見了兒子最后一面,說出自己的殺妻真相

      紙鳶奇譚
      2024-06-19 23:55:54
      馬克思:如果階級斗爭和階級存在的經濟條件未消失,用暴力消滅、改造

      馬克思:如果階級斗爭和階級存在的經濟條件未消失,用暴力消滅、改造

      瓜哥的動物日記
      2026-05-08 14:41:55
      美記:擁杜蘭特就像買游艇,買來和賣掉的第一天是最快樂的兩天

      美記:擁杜蘭特就像買游艇,買來和賣掉的第一天是最快樂的兩天

      懂球帝
      2026-05-07 22:03:04
      4只1035元天價皮皮蝦事件反轉?官方回復:未超調控價,游客:沒收到退款

      4只1035元天價皮皮蝦事件反轉?官方回復:未超調控價,游客:沒收到退款

      上觀新聞
      2026-05-07 20:24:15
      30條中日航線,4月取消全部航班

      30條中日航線,4月取消全部航班

      都市快報橙柿互動
      2026-05-08 13:42:34
      烏克蘭女督軍“炮轟”第58旅!這上校旅長,到底有多離譜?

      烏克蘭女督軍“炮轟”第58旅!這上校旅長,到底有多離譜?

      戰風
      2026-05-07 11:16:14
      29項全球第一!比亞迪大唐預售訂單突破10萬臺

      29項全球第一!比亞迪大唐預售訂單突破10萬臺

      快科技
      2026-05-07 20:56:31
      14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

      14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

      阿訊說天下
      2026-04-18 11:52:55
      奪冠僅1天,人民日報接連點名吳宜澤,釋放3個強烈信號,字字珠璣

      奪冠僅1天,人民日報接連點名吳宜澤,釋放3個強烈信號,字字珠璣

      尋墨閣
      2026-05-06 06:33:51
      拼爹還是拼自己?父親是前外交部長,他哈佛畢業卻擠公交搬啤酒箱

      拼爹還是拼自己?父親是前外交部長,他哈佛畢業卻擠公交搬啤酒箱

      南宗歷史
      2026-05-05 17:00:11
      你以為壞了,其實都能吃的7種食物,要是扔掉就虧大了

      你以為壞了,其實都能吃的7種食物,要是扔掉就虧大了

      室內設計師有料兒
      2026-03-21 16:29:09
      “機車女神”痞幼拿下張雪,網友吵翻了

      “機車女神”痞幼拿下張雪,網友吵翻了

      喜歡歷史的阿繁
      2026-05-08 12:49:39
      丈夫長征途中犧牲后,她掙扎許久才愿嫁給元帥,沒想到丈夫卻沒死

      丈夫長征途中犧牲后,她掙扎許久才愿嫁給元帥,沒想到丈夫卻沒死

      柳絮憶史
      2026-04-02 09:39:10
      消化科主任:胃癌最危險信號,不是胃疼,而是頻繁出現這3種異常

      消化科主任:胃癌最危險信號,不是胃疼,而是頻繁出現這3種異常

      垚垚分享健康
      2026-05-08 15:32:57
      從未缺席季后賽,8年6次至少進分決!生涯巔峰的他被這戰績氣瘋了

      從未缺席季后賽,8年6次至少進分決!生涯巔峰的他被這戰績氣瘋了

      阿浪的籃球故事
      2026-05-08 16:05:04
      看完這一部,我對奢侈品徹底祛魅了

      看完這一部,我對奢侈品徹底祛魅了

      四味毒叔
      2026-05-06 14:46:51
      印度首富300斤胖兒子的“廢柴人生”,全靠強悍姐姐在硬撐

      印度首富300斤胖兒子的“廢柴人生”,全靠強悍姐姐在硬撐

      白露文娛志
      2026-05-08 15:56:49
      不歡迎中國人的7個國家,不待見寫在臉上,中國游客仍蜂擁而至

      不歡迎中國人的7個國家,不待見寫在臉上,中國游客仍蜂擁而至

      番外行
      2026-04-23 07:54:08
      剛把專車運到北京,美國總統特朗普,就迎來2個壞消息!

      剛把專車運到北京,美國總統特朗普,就迎來2個壞消息!

      一家說
      2026-05-08 12:20:11
      澤連斯基不建議外國代表參加5月9日的莫斯科勝利日閱兵式

      澤連斯基不建議外國代表參加5月9日的莫斯科勝利日閱兵式

      山河路口
      2026-05-08 09:39:16
      2026-05-08 16:44:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12590文章數 176461關注度
      往期回顧 全部

      科技要聞

      SK海力士平均獎金600萬 工服成相親神器

      頭條要聞

      沙特翻臉突然對美軍關閉領空 特朗普連忙打電話都沒用

      頭條要聞

      沙特翻臉突然對美軍關閉領空 特朗普連忙打電話都沒用

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經要聞

      一覺醒來,美伊又打起來了

      汽車要聞

      智能雙艙大五座SUV 樂道L80將于5月15日正式上市

      態度原創

      藝術
      房產
      旅游
      時尚
      軍事航空

      藝術要聞

      探索施密德的油畫,感受無法抵擋的藝術魅力!

      房產要聞

      豪擲6.8億拿地!何猷君大手筆投資三亞!

      旅游要聞

      旅游收入近300億元 廣東:“演出+”“電影+”“體育+”解鎖消費新場景

      海魂衫搭配白色,更解暑!

      軍事要聞

      伊朗:最高領袖穆杰塔巴全面掌控局勢

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 望都县| 久久精品夜色噜噜亚洲a∨| 欧美日本在线一区二区三区| 三级电影网址| 精品乱码一区内射人妻无码| 亚洲性日韩精品一区二区三区| 精品成人无码中文字幕不卡| 3Pav图| 伊人色亚洲| 久久精品国产欧美日韩| 在线观看精品视频网站www| 国产美女在线精品免费观看网址| 伊人久久大香线蕉综合观| 欧美精品福利| 免费无码一区无码东京热| 亚洲人成色4444在线观看| 在线精品动漫一区二区无码| 桃色av一区二区三区| AV无码国产在线看岛国岛| 国产成人精品久久一区二区| 亚洲久久婷婷| 中文无码热在线视频| 久久无码精品精品古装毛片| 深夜福利网址| 亚洲精品午夜aaa级久久久久| 无码人妻久久1区2区3区| 中文字幕av无码免费一区| 超浪熟女在线| 国产美女久久久亚洲综合| 国产jizzjizz视频| 午夜成人亚洲理伦片在线观看| 久久www免费人成看片中文| ZZIJZZIJ亚洲日本少妇| 欧美三级欧美成人高清| 午夜成年影院| 国产伦精品一区二区三区免费| 亚洲av综合色一区二区| 国产AV旡码专区亚洲AV| 亚洲色大成网站www国产| 97人人添人澡人人爽超碰| 怡红院av一区二区三区|