<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      AI像電影人一樣「看」視頻,8B小模型反超GPT-5與Gemini-3.1-Pro

      0
      分享至



      團隊一作林之秋(Zhiqiu Lin)是卡內基梅隆大學(CMU)機器人研究所的博士,研究方向涵蓋視覺 - 語言大模型的評估、數據與生成;前作 CameraBench 曾獲 NeurIPS’25 Spotlight(Top 3%)。二作 Chancharik Mitra 即將前往麻省理工學院(MIT)攻讀博士,專注于多模態大模型。本工作由 CMU 與哈佛大學合作完成。

      先來做一個小實驗:把希區柯克變焦(dolly zoom)、拉焦(rack focus)、荷蘭角(Dutch angle)或變速剪輯(speed ramp)這幾個詞,輸入到大部分主流視頻生成器里。結果幾乎都一樣,你只會得到一個普通的推鏡,或一段平庸的慢動作。

      原因很簡單:這些技法對應著電影人之間通用的一套「鏡頭語言」,而當前的視覺 - 語言大模型幾乎聽不懂。



      視頻鏈接:https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA

      近日,由 CMU 聯合哈佛大學組成的研究團隊推出了CHAI(Critique-based Human-AI Oversight),一整套從「標注體系」「可擴展監督」到「后訓練方法」再到「視頻生成」的完整方案。該工作已被CVPR 2026 接收為 Highlight 論文(Top 3%)



      • 論文鏈接:https://arxiv.org/abs/2604.21718
      • 代碼:https://github.com/chancharikmitra/CHAI



      圖 1:CHAI 的整體方案。上半(紅)是過往視頻字幕工作的三大短板:缺乏統一規范、僅用人類或模型標注、僅憑輸出對比做后訓練;下半(藍)是 CHAI 的對應方案:精準的結構化規范、可擴展的人機監督、基于顯式偏好與批改的后訓練,最終反哺出更專業的視頻生成。

      概述:CHAI 的四塊拼圖

      CHAI 不是一個單獨的模型,而是一整套面向精準視頻語言的落地方案,由四塊拼圖組成:

      1. 標注體系(Specification):覆蓋主體、場景、動作、空間構圖和移動、鏡頭參數和運動 5 大維度,由 200+ 個與職業攝影師共同設計的視覺基元支撐。
      2. 可擴展監督(Scalable Oversight):讓 LLM 起草字幕,由人類專家給出批改(critique),指出錯誤并提供修正,再交由 AI 改寫。這一過程讓 AI 負責寫作,人類專注糾錯,各司其長。
      3. 后訓練方法(Post-Training):基于(初稿,批改,終稿),同時訓練字幕、獎勵模型與批改模型。團隊訓練的 Qwen3-VL-8B 開源小模型得以反超閉源的 Gemini-3.1-Pro 與 GPT-5。
      4. 更好的視頻生成(Better Generation):用后訓練好的模型重新對專業視頻打字幕,再微調 Wan2.2,使其能聽懂長達 400 英文詞的電影級指令,精準生成希區柯克變焦、拉焦、荷蘭角、變速、等距視角等專業攝影技法。

      一、標注體系:把電影人的鏡頭語言寫下來

      過去的視頻文本數據集(如 ActivityNet、MSR-VTT、PerceptionLM)由于缺乏字幕規范,常見問題包括:混淆 dolly-in(推軌)與 zoom-in(變焦),遺漏關鍵相機與變焦細節,用「氛圍感足」「讓人熱血沸騰」等主觀描述代替客觀視覺內容。

      電影人以及更廣泛的視頻創作者則沒有這個問題。他們用拉焦(rack focus)、荷蘭角(Dutch angle)、中景(medium full shot)這樣的專業術語在片場與團隊實現了精準的溝通、協作。CHAI 正是把這套影視行業內的通用詞匯整理成了一套清晰的標注體系



      圖 2:與 100+ 位職業視頻創作者歷時一年共建的標注體系。左(紅):過往數據集的三類典型問題,包括術語含混、信息缺失、主觀描述;右(藍):CHAI 的結構化標注體系及配套的標注規則與教程。

      CHAI 的字幕標注覆蓋 5 大維度:

      • 主體(Subject):類型、外觀、姿態、主體關系等
      • ? 場景(Scene):視角、疊加元素、環境、時間等
      • 動作(Motion):動作行為、人物互動、群體動態等
      • 空間構圖和移動(Spatial):景別、畫面位置、縱深、空間運動等
      • 鏡頭參數和運動(Camera):機位高度、角度、焦距、聚焦、穩定度、運動軌跡等



      圖 3:CHAI 的視頻語言分類體系:各一級維度進一步細分為多個子維度,并由 200 余個視覺與運動基元支撐,實現對視頻內容的精細化表達。

      二、可擴展監督:AI 起草,人類批改

      規范告訴你「描述什么」,但「誰來寫」仍是個問題。

      人類親手寫的字幕常見問題有:錯別字、語法錯誤、事件順序混亂。模型寫的字幕:行文流暢,卻經常憑空捏造畫面里沒有的物體和動作(模型幻覺)。

      CHAI 的核心思路是可擴展監督(Scalable Oversight):讓模型負責寫作,讓人類專注發現字幕中的視覺與動作錯誤,各司其長

      CHAI 的標注流程由此被重新設計為「AI— 專家 —AI」的三段式協作:模型先按既定規范生成一份覆蓋全面的「pre-caption」初稿,專家隨后在初稿基礎上指出錯誤并提出修改建議(critique),無需從零撰寫字幕;模型再依據專家的批改意見進行改寫,生成準確的「post-caption」終稿。

      同時,CHAI 引入同行評審獎勵機制:標注越準確,獎勵越高;審核糾錯同樣有獎勵。這一舉措顯著提升了標注的質量。



      圖 4:左(紅):傳統純人工或純模型標注的三類問題,包括視覺幻覺、行文糟糕、細節不準;右(藍):CHAI 的可擴展監督框架。AI 基于基元生成初稿(pre-caption),人類用批改(critique)把幻覺與細節錯誤指出來,再由 AI 生成終稿(post-caption);標注員與審核員之間則通過同行評審獎勵機制相互制衡。

      把標注員工作重心從「寫作」轉向「校對」,他們對單個視頻的認知負擔得以顯著降低,卻能產出準確度更高的 200–400 詞長字幕。

      三、后訓練效果:8B 小模型反超 GPT-5 與 Gemini-3.1-Pro

      CHAI 流水線產出的不只是字幕,而是(pre-caption, critique, post-caption)三元組:一份數據,同時可以訓練三種模型能力,包括字幕生成、獎勵建模、批改生成。

      CHAI 團隊發現:批改的質量,決定了模型能力



      圖 5:一條好的批改必須同時滿足三個屬性:準確(precision)、完整(recall)、有建設性(constructive)。CHAI 的標注機制通過強制標注員撰寫高質量批改,直接指導模型改寫,自然實現了這三點。

      為了證明這一點,團隊做了一組對比實驗:分別削弱批改的某一項屬性,觀察對下游任務的影響。



      研究得出三項關鍵結論。其一,在模型訓練時加入獎勵(reward)和批改(critique)的數據能夠顯著提升 SFT 與 RL 的效果,僅 8B 參數的 Qwen3-VL 經過后訓練,便在多項關鍵評測上反超閉源的 Gemini-3.1-Pro 與 GPT-5。其二,批改質量是真正的瓶頸所在,準確性、完整性、和建設性三者缺一不可;然而過往工作(如 OpenAI GDC、MM-RLHF)所收集的批改樣本中,超過 50% 屬于非建設性反饋。其三,推理時擴展(Inference-Time Scaling)同樣適用于這一框架,以同一份獎勵模型進行 best-of-N 選擇,無需新增數據,性能即可持續提升。

      四、更準的理解 → 更好的生成

      視頻字幕做得更準之后,最直接的下游應用就是視頻生成

      研究團隊用后訓練好的字幕模型,重新對大規模專業視頻(電影、廣告、MV、游戲畫面)進行打標,再以這些數據微調 Wan2.2。結果:模型可以聽懂長達 400 詞的電影級指令,對那些開源生成器(Wan2.2)普遍翻車的技法實現精準生成。





      圖 6:在重新打標的專業視頻上微調后,Wan2.2 對詳細的電影級指令顯著更忠實,可以精準執行希區柯克變焦(上)、保持 2.5D 等距視角(下)等過往視頻模型頻繁失敗的復雜技法。

      下面是更多團隊展示的「電影技法」生成樣例:



      荷蘭角(Dutch Angle)畫面地平線傾斜

      視頻鏈接:https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA



      拉焦(Rack Focus)焦點在不同平面切換

      視頻鏈接:https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA

      為什么不用眾包?為什么過去的標注總是失敗?

      在請來職業創作者之前,團隊也嘗試過眾包工人。結果?眾包標注員仍然分不清 推軌(dolly-in)與 變焦 (zoom-in)、把全景鏡頭(full shot)叫成 特寫(close-up shot)、把魚眼鏡頭(fisheye lens)造成的建筑物變形描述成「圓形的建筑」。



      圖 7:眾包標注員描述常見鏡頭技法時的典型錯誤。把鳥瞰鏡頭叫「鳥瞰視圖」、把魚眼鏡頭看作「圓形建筑」、把推焦鏡頭描述為「推軌鏡頭」等,反映出他們缺乏對鏡頭語言的基本視覺詞匯。

      為進一步驗證這一判斷,團隊系統評估了 2016 至 2025 年間發布的 8 個公開視頻 - 文本數據集(包括 MSR-VTT、PerceptionLM、Dream1K 等),結果指向兩類反復出現的問題。其一源于標注規則缺失,術語含混、關鍵信息缺失;其二源于監督不足,導致行文混亂與細節失真。無論擴大模型規模還是增加數據體量,都難以解決,根本問題在于流程,必須從數據標注源頭入手。這一發現直接促成了 CHAI 團隊和 100+ 位職業視頻創作者的長期合作。

      寫在最后:開源生態

      為了支持后續研究與產業落地,CHAI 團隊完整開源了:標注體系、培訓教材、標注平臺、質控流程、數據、代碼與模型。

      項目主頁:https://linzhiqiu.github.io/papers/chai/

      CHAI 是該 CMU 團隊「精準視頻語言」研究計劃中的一環。同期推進的還有兩項工作:CameraBench(NeurIPS'25 Spotlight,入選率前 3%)作為相機運動理解的前作基準,包含約 3000 個專家標注視頻、一套完整的運動基元分類體系,以及對 SfM 與 VLM 方法的系統性評測;Moodio 與 CameraBench-Pro(2026 年 5 月發布)則在此基礎上更進一步,基于 225 個電影級基元與 150 萬余條專業標注,面向專業視頻制作場景打造 AI 協作工具。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      震驚!小馬云18歲成年首播,在線人數破7萬,與女生接吻刷爆網絡

      震驚!小馬云18歲成年首播,在線人數破7萬,與女生接吻刷爆網絡

      火山詩話
      2026-05-09 16:02:57
      功夫巨星新片慘敗,三天沒有票房統計,觀眾差評如潮

      功夫巨星新片慘敗,三天沒有票房統計,觀眾差評如潮

      影視高原說
      2026-05-10 13:09:18
      “我家三個兒子都不見了,小的才9歲”,臺州一家長急瘋深夜報警!凌晨3點被警察找到后,仨娃撒腿就跑……

      “我家三個兒子都不見了,小的才9歲”,臺州一家長急瘋深夜報警!凌晨3點被警察找到后,仨娃撒腿就跑……

      環球網資訊
      2026-05-10 15:25:11
      世乒賽女團落幕:孫穎莎拿2分,國乒翻盤日本奪冠,馬琳現場落淚

      世乒賽女團落幕:孫穎莎拿2分,國乒翻盤日本奪冠,馬琳現場落淚

      侃球熊弟
      2026-05-10 21:06:23
      NBA樂透抽簽:墊底奇才抽中狀元 步行者成最大輸家

      NBA樂透抽簽:墊底奇才抽中狀元 步行者成最大輸家

      體壇周報
      2026-05-11 04:18:18
      孫穎莎獨得2分!中國女團逆轉日本,世乒賽團體賽七連冠

      孫穎莎獨得2分!中國女團逆轉日本,世乒賽團體賽七連冠

      澎湃新聞
      2026-05-10 21:38:28
      三亞皮皮蝦再升級!老板身亡仍被追責,游客曝猛料,不止是為了錢

      三亞皮皮蝦再升級!老板身亡仍被追責,游客曝猛料,不止是為了錢

      北緯的咖啡豆
      2026-05-10 11:43:20
      套路一模一樣!2026 年漢坦病毒剛露頭,西方又準備好了老劇本

      套路一模一樣!2026 年漢坦病毒剛露頭,西方又準備好了老劇本

      魔都姐姐雜談
      2026-05-09 20:58:28
      一問到底丨世界杯轉播費談判為何陷入僵局,中國球迷還能愉快地看球嗎?

      一問到底丨世界杯轉播費談判為何陷入僵局,中國球迷還能愉快地看球嗎?

      上游新聞
      2026-05-10 15:45:20
      72歲濮存昕硬捧外孫女拍戲,全網吐槽:尖嘴猴腮求放過

      72歲濮存昕硬捧外孫女拍戲,全網吐槽:尖嘴猴腮求放過

      阿廢冷眼觀察所
      2026-05-10 19:41:35
      烏克蘭的“機器狗”們已實戰,單次俘虜多名俄士兵,摧毀俄軍坦克

      烏克蘭的“機器狗”們已實戰,單次俘虜多名俄士兵,摧毀俄軍坦克

      網易新聞出品
      2026-05-09 11:37:34
      尷尬!王石公開脫衣秀身材“翻車”,網友:像是一副被榨干的軀體

      尷尬!王石公開脫衣秀身材“翻車”,網友:像是一副被榨干的軀體

      火山詩話
      2026-05-08 21:39:02
      善惡有報!許家印剛認罪1天,子女近況曝光,大兒子的安排全白費

      善惡有報!許家印剛認罪1天,子女近況曝光,大兒子的安排全白費

      歷史偉人錄
      2026-05-10 22:06:40
      教育“特權”全清零,9月起上學再也不需要拼爹拼房了

      教育“特權”全清零,9月起上學再也不需要拼爹拼房了

      輝哥說動漫
      2026-05-10 18:18:32
      太過分!皮皮蝦風波當事人把泰國瀨尿蝦說成普通蝦,至今沒有道歉

      太過分!皮皮蝦風波當事人把泰國瀨尿蝦說成普通蝦,至今沒有道歉

      小徐講八卦
      2026-05-10 07:56:14
      29歲克雷桑回應歸化:有意愿去談 明年4月馳援國足 中超9場造12球

      29歲克雷桑回應歸化:有意愿去談 明年4月馳援國足 中超9場造12球

      我愛英超
      2026-05-10 21:49:17
      NBA戰報:尼克斯144-114 76人取NBA4連勝,麥克布萊德25+4

      NBA戰報:尼克斯144-114 76人取NBA4連勝,麥克布萊德25+4

      懂球帝
      2026-05-11 06:30:22
      伊朗對美國方案的回應聚焦“結束戰爭與海上安全”

      伊朗對美國方案的回應聚焦“結束戰爭與海上安全”

      新華社
      2026-05-10 23:08:04
      連續上演驚天大逆轉!一波流把比賽帶走,梁靖崑擊潰張本智和

      連續上演驚天大逆轉!一波流把比賽帶走,梁靖崑擊潰張本智和

      中國足球的那些事兒
      2026-05-11 00:11:10
      英超最新積分榜:維拉掉鏈子,阿森納驚險絕殺,曼城奪冠希望渺茫

      英超最新積分榜:維拉掉鏈子,阿森納驚險絕殺,曼城奪冠希望渺茫

      足球狗說
      2026-05-11 06:19:33
      2026-05-11 06:52:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12957文章數 142646關注度
      往期回顧 全部

      科技要聞

      DeepSeek融資,改寫所有人的估值

      頭條要聞

      兒子車禍受傷生存希望不足0.1% 母親請中醫熬"還魂湯"

      頭條要聞

      兒子車禍受傷生存希望不足0.1% 母親請中醫熬"還魂湯"

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      趙露思老實人豁出去了 沒舞蹈天賦硬跳

      財經要聞

      白酒大逃殺

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態度原創

      房產
      數碼
      藝術
      旅游
      手機

      房產要聞

      低價甩賣!海口這個地標商業,無人接盤!

      數碼要聞

      你昂貴的DDR5內存可能是假貨:穿著三星的馬甲 心里卻是SK海力士

      藝術要聞

      全國最值得去的八大最美古鎮

      旅游要聞

      北京“二綠地區”郊野公園煥新升級

      手機要聞

      小米本月發新機?待發新品匯總

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 青青在线视频一区二区三区| 亚洲精品乱码久久久久久中文字幕 | 91久久国产青草亚洲| 在线中文字幕亚洲日韩2020| 国产成人精品亚洲男人的天堂| 人人妻人人澡人人爽久久av| 国产中文天堂在线观看| 国内精品一区二区三区| 中国av一区二区三区| 中文字幕乱码无码人妻系列蜜桃| AV不卡国产在线观看| 一区二区福利在线视频| 色四区| 亚洲一区二区精品久久岳| 美女裸体啪啪无遮挡免费| 国内精品一区二区三区| 亚洲VA一区二区国产精品| 中文字幕无码不卡在线| 亚洲AV成人综合网久久成人| 亚洲中文在线精品国产| 国产成人精品性色av麻豆| 逆3p在线| 色婷婷综合久久久久中文| 国产在线不卡免费播放| 天天干伊人| 精品a片| 乱人伦人妻中文字幕| yellow高清在线观看免费观看视频www | 国产精品国产三级国产AV中文| 国产午夜51tv福利在线 | 久久国产精品电影| 日本高清视频网站www| 视频一区二区三区中文字幕狠狠 | A片丝袜| 狠狠干| 国产精品aⅴ视频在线播放| 久在线精品视频线观看| 久久精品国产国产精| 国产V亚洲V天堂无码久久久| 男插女高潮一区二区| 亚洲乱码av中文一区二区|