<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      預測下一個像素還需要幾年?谷歌:五年夠了

      0
      分享至



      機器之心報道

      機器之心編輯部

      既然語言可以當序列來學,那圖像能不能也當序列來學?

      通過將圖像表示為像素序列,先前的研究表明通過下一像素預測,可以以一種簡單、端到端的方式同時學習視覺識別與生成。

      從概念上講,下一像素預測非常容易擴展,因為它是無監督學習:無需任何人工標注。同時,將圖像表示為像素序列,也對圖像結構施加了最少的歸納偏置。

      然而,盡管像素級端到端建模在早期被證明是可行的,但這一范式近年來卻不再流行。

      其主要原因在于出現了計算效率更高的方法,例如:使用視覺 tokenizer 進行 patch 級別學習。

      盡管研究重心已經發生轉移,但一個簡單卻極其關鍵的問題仍未被回答:我們距離真正大規模擴展下一像素預測,還有多遠?

      不可否認,相比自然語言中的下一詞預測,下一像素預測要困難得多,主要有以下幾點原因:

      • 首先,像素的語義信息極低。一個句子里的詞通常包含豐富含義,而一個像素只是一點顏色信息,兩者差距巨大。
      • 其次,像素之間的空間關系非常復雜,不容易用序列方式來表示。一個像素的顏色不僅受到周圍鄰域像素的影響,還受到圖像中那些與它不相鄰的物體和結構的影響。
      • 第三,隨著圖像分辨率升高,下一像素預測的計算量會急劇增加。例如,要生成一張 128 × 128 的圖片,一個自回歸模型必須逐個預測 16,384 個像素,一步都不能少。

      在這篇論文中,來自 Google DeepMind 的研究者分析了下一像素預測在圖像識別與圖像生成兩類任務中的擴展特性(scaling properties)。

      本文首先在固定的 32×32 像素分辨率下開展研究,在這一分辨率下,圖像已開始呈現清晰的結構與可辨識的物體交互,因此可被視為對原生高分辨率圖像的一種有意義的近似。

      實驗基于下一像素預測損失進行了初始 scaling 實驗。如圖 1 (a) 所示,結果表明:相較于文本 token,原始像素的學習需要顯著更高(10–20 倍)的最優 token-parameter 比例。更具體地,要實現計算最優平衡,像素模型所需的 token-per-parameter 至少比語言模型高一個數量級(約 400 vs. 20)。

      這一初步發現促使研究者進一步深入三個核心問題。第一,我們如何可靠地評估這些模型的性能,尤其是在較低分辨率下(低分辨率便于開展大量實驗)?第二,基于下一像素預測損失得出的 scaling 規律,是否與更有意義的下游任務(如分類與圖像補全)的 scaling 行為一致?第三,不同圖像分辨率下的 scaling 趨勢會如何變化?

      為回答這些問題,本文圍繞三類指標進行了系列可控實驗。

      在固定的 32×32 分辨率下,實驗結果(見圖 1 (b))顯示:最優的 scaling 策略高度依賴目標任務,其中圖像生成質量需要比分類任務或下一像素預測任務更大的 token-parameter 比例。此外,這些 scaling 動態并非靜態不變;對 16×16 與 64×64 等不同分辨率的研究顯示:隨著分辨率提升,模型規模的增長必須顯著快于數據規模的增長。

      最后,鑒于訓練算力正以每年四到五倍的速度增長,本文預測逐像素建模方式在未來五年內將變得可行。



      • 論文標題:Rethinking generative image pretraining: How far are we from scaling up next-pixel prediction?
      • 論文地址:https://arxiv.org/pdf/2511.08704

      方法介紹

      本文從 32×32 分辨率的圖像出發,在多種 IsoFlops(等算力)配置下訓練了一系列 Transformer 模型,最大計算量達到 7e19 FLOPs,并從三個不同指標對其性能進行評估:下一像素預測目標、ImageNet 分類準確率以及以 Fréchet Distance 衡量的生成質量。結果發現:

      • 首先,最佳擴展策略強烈依賴任務類型:即使在固定的 32×32 分辨率下,分類任務與生成任務的最優 scaling 需求也完全不同,其中生成任務要達到最優效果所需的數據規模增長速度是分類任務的三到五倍。
      • 其次,隨著圖像分辨率的提升,最優 scaling 策略顯示模型規模必須比數據規模增長得更快。更令人意外的是,根據趨勢外推,像素級模型的主要瓶頸并不是訓練數據,而是計算量。

      本文采用 Transformer 架構進行研究,共四種規模,參數從 2800 萬到 4.49 億不等。Transformer 架構的詳細信息列在表 1 中。



      本文在 JFT-300M 數據集上進行預訓練,該數據集包含 3 億張多樣化圖像,規模是 ImageNet ILSVRC 2012 訓練集的 10 倍以上。在分辨率為 32×32 的條件下,對數據集完整遍歷一遍相當于處理超過 3000 億個像素。訓練過程采用標準的 Inception 風格隨機裁剪,并以 50% 概率進行水平翻轉。

      在評估上,本文進行了兩種評估方式,即圖像分類和圖像補全。

      實驗及結果

      像素是否遵循與文本相同的規律?

      答案是肯定的:對原始像素預測的擴展趨勢與文本類似、可預測,但效率要低得多。由于單個像素所攜帶的語義信息遠少于語言 token,本文估計模型在學習原始像素時,需要比語言模型多 10–20 倍的 token-per-parameter 才能達到有效學習。



      本文進一步計算了在不同訓練 FLOPs 下的最優 token-per-parameter 比例,并與典型語言模型進行比較。如圖 1 (a) 所示,即便在超過 10^21 FLOPs 的訓練預算下,學習原始像素仍然需要比語言 token 多 10–20 倍的數據量。

      這表明,即便在低分辨率 32×32 圖像中,單個像素的語義信息密度仍遠低于語言 token,后者本身就是一種壓縮且意義集中的信息單位。例如,cat 這個詞是高度壓縮的符號,攜帶著大量抽象信息:它是一種動物,有毛,會喵叫,有胡須。而單個像素本身幾乎不包含語義,因為它的顏色值可能同時對應貓、汽車或天空的一部分。



      總的來說,實驗結果顯示,下一像素預測的最優擴展趨勢的確可以通過語言模型中已成熟的 scaling 框架進行預測。

      最優 scaling 是否能直接遷移到下游任務?

      答案是不行,至少不是以一種簡單方式。在固定的 32×32 分辨率下,由下一像素預測損失得到的最優擴展策略對圖像生成來說并非最優。具體而言,要獲得良好的生成質量,需要一種更加數據驅動的 scaling 方式,即數據規模的增長速度必須明顯快于模型規模的增長速度。

      不同任務的最優 scaling 存在顯著差異。如圖 1 (b) 所示,基于獨立 IsoFlops 配置得到的最優 token-to-parameter 比例在下一像素預測損失、ImageNet 分類 top-1 準確率以及基于圖像補全的 Fréchet Distance 之間存在明顯差別。

      隨著圖像分辨率提升,最優 scaling 會改變嗎?

      答案是會的。隨著圖像分辨率的提高,最優擴展策略從在 32×32 分辨率下對模型規模與數據規模的平衡,轉變為在更高分辨率下明顯偏向更大的模型,而非更多的數據。

      圖像分類 vs. 圖像生成。正如圖 4 (a) 和圖 4 (c) 所一致展示的,在更高分辨率下訓練模型能夠提升下游任務表現。

      對于圖像分類,從 16×16 切換到 32×32 時能夠帶來明顯提升,但在 FLOPs 超過 1e20 的情況下,從 32×32 增加到 64×64 僅帶來輕微改進。這表明:對于 ImageNet 分類任務,在 32×32 之后,進一步提升分辨率的收益趨于減弱。

      相比之下,對于圖像生成,32×32 附近的 scaling 趨勢并未飽和,將分辨率從 32×32 提升至 64×64 能帶來顯著改進。直觀來看,分辨率提高后,單像素的信息密度下降,但像素之間的視覺結構變得更復雜、更真實。抽象語義在低分辨率即可有效捕獲,而細粒度紋理則需要更高分辨率。



      我們距離原始下一像素預測還有多遠?

      目前由于巨大的計算成本而難以實際執行,但逐像素建模在未來五年內仍是一條可行路徑,并能達到具有競爭力的性能。其主要瓶頸是計算量,而不是訓練數據的可獲得性。本文預計在未來五年內,基于原始像素的學習將成為一條可行的發展方向。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      倫納德加盟勇士 巴特勒和今年5號簽前往籃網 這筆交易能成行嗎?

      倫納德加盟勇士 巴特勒和今年5號簽前往籃網 這筆交易能成行嗎?

      仰臥撐FTUer
      2026-05-15 09:27:05
      匈牙利新外長將召見俄大使

      匈牙利新外長將召見俄大使

      參考消息
      2026-05-14 13:40:06
      回顧:緬北女魔頭魏榕嗜好!經常“活剝驢耳”,3個閨蜜喜歡觀刑

      回顧:緬北女魔頭魏榕嗜好!經常“活剝驢耳”,3個閨蜜喜歡觀刑

      飛云如水
      2024-11-13 06:54:13
      原來她是媽媽,難怪兒子如此惹人愛,孩子4個月大就與馬斯克分手

      原來她是媽媽,難怪兒子如此惹人愛,孩子4個月大就與馬斯克分手

      白面書誏
      2026-05-15 13:57:35
      馬克龍非洲上演“皇上回宮”,丟盡法蘭西臉面

      馬克龍非洲上演“皇上回宮”,丟盡法蘭西臉面

      浪子的煙火人間
      2026-05-15 13:03:22
      熟客不再光顧都是因為啥?網友:這老板掉錢眼里了

      熟客不再光顧都是因為啥?網友:這老板掉錢眼里了

      解讀熱點事件
      2026-05-05 00:05:15
      全體集合,下周的預測出來了!A股深V反轉,我來說兩句!

      全體集合,下周的預測出來了!A股深V反轉,我來說兩句!

      一擔金
      2026-05-15 12:07:23
      尷尬啊!家委會發布高考結束,舉行謝師宴,全班50人只有31人報名

      尷尬啊!家委會發布高考結束,舉行謝師宴,全班50人只有31人報名

      火山詩話
      2026-05-14 17:54:05
      我工資4150全部門最低,我遞辭呈后,老板急忙挽留:年薪隨便提

      我工資4150全部門最低,我遞辭呈后,老板急忙挽留:年薪隨便提

      麥子情感故事
      2026-05-14 17:07:37
      蘇超爭冠大戲:凱爾特人讀秒點球絕殺,將與哈茨上演末輪生死戰

      蘇超爭冠大戲:凱爾特人讀秒點球絕殺,將與哈茨上演末輪生死戰

      星耀國際足壇
      2026-05-14 15:37:44
      66歲大爺相親50歲大媽:兩人婚前同居一段時間,大媽:白日做夢

      66歲大爺相親50歲大媽:兩人婚前同居一段時間,大媽:白日做夢

      惟來
      2026-05-14 12:01:27
      廣東一地緊急通知:停課

      廣東一地緊急通知:停課

      南方都市報
      2026-05-15 13:20:47
      年薪4000萬變1700萬?范喬丹或降薪長留火箭!爭冠計劃邁出第1步

      年薪4000萬變1700萬?范喬丹或降薪長留火箭!爭冠計劃邁出第1步

      熊哥愛籃球
      2026-05-15 12:12:29
      76年毛主席病重后,王震前去看望葉劍英,葉帥問:汪東興你熟悉嗎

      76年毛主席病重后,王震前去看望葉劍英,葉帥問:汪東興你熟悉嗎

      大運河時空
      2026-05-14 13:00:03
      澤連斯基提出請求,希望特朗普這次訪華,能讓中國調解下俄烏沖突

      澤連斯基提出請求,希望特朗普這次訪華,能讓中國調解下俄烏沖突

      小影的娛樂
      2026-05-15 12:39:58
      日韓股市,集體跳水

      日韓股市,集體跳水

      第一財經資訊
      2026-05-15 10:12:22
      包養10位情婦,睡覺靠翻牌,生下11個私生子,75歲仍在拼命生娃!

      包養10位情婦,睡覺靠翻牌,生下11個私生子,75歲仍在拼命生娃!

      蜉蝣說
      2026-04-17 11:02:03
      特朗普愛吃的兩道中國菜,好多老外都猜不到

      特朗普愛吃的兩道中國菜,好多老外都猜不到

      阿萊美食匯
      2026-05-15 00:03:02
      任嘉倫婚變的瓜!

      任嘉倫婚變的瓜!

      八卦瘋叔
      2026-05-15 11:31:11
      中美關系,有了新定位

      中美關系,有了新定位

      中國新聞周刊
      2026-05-14 16:01:38
      2026-05-15 14:35:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13001文章數 142648關注度
      往期回顧 全部

      科技要聞

      兩年聯姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      特朗普訪華"二號位"系美國駐華大使 其曾受超規格禮遇

      頭條要聞

      特朗普訪華"二號位"系美國駐華大使 其曾受超規格禮遇

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛回應住男生單人間:女孩的配得感

      財經要聞

      特朗普的北京時刻

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      親子
      教育
      本地
      公開課
      軍事航空

      親子要聞

      女子花大價錢入住月子中心,多名月嫂的行為讓她無法理解

      教育要聞

      趕緊看!2026山東三模試題+答案!

      本地新聞

      用蘇繡的方式,打開江西婺源

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      烏克蘭首都基輔遭空襲 死亡人數增至12人

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲青青草原男人的天堂| 国产精品一区二区AV不卡| 亚洲欧洲日产国码久在线观看| 欧美日韩免费观看视频| 人妻av一区二区三区精品| 亚洲综合精品第一页| 在线天堂中文字幕| 欧美精品国产制服第一页| 蜜臀av999无码精品国产专区 | 午夜免费视频| 高清破外女出血AV毛片| 亚洲乱码国产乱码精品精剪| 精选二区在线观看视频| 久久国产精品99精品国产| 精品国产一区二区三区四区五区| 性欧美长视频免费观看不卡| 免费国产a国产片高清网站| 久久久四虎成人永久免费网站| 亚洲中文字幕人成影院| 国产无遮挡猛进猛出免费 | 日本高清不卡一区二区三| 国产无遮挡又黄又爽不要vip软件| 国产内射成人在线观看| 国产特级毛片aaaaaaa高清| 国产制服丝袜在线| 精品无码一区二区三区在线视频 | 99热这里| 精品综合久久久久久8888| 粉嫩一区二区三区色综合| 欧洲无码AV| 80s成年女人毛片免费观看观看| 欧美牲交a欧美牲交aⅴ一| 久久这里只有精品青草| 少妇无码一区二区三区免费| 国产精品自在在线午夜出白浆| 国产大片黄在线观看| 亚洲天堂一区二区三区| 国产成人久久精品流白浆| 麻豆国产AV剧情偷闻女邻居内裤 | 麻豆乱码国产一区二区三区 | 欧美黑人性暴力猛交喷水黑人巨大|