<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      「聽覺」引導「視覺」,OmniAgent開啟全模態主動感知新范式

      0
      分享至



      針對端到端全模態大模型(OmniLLMs)在跨模態對齊和細粒度理解上的痛點,浙江大學、西湖大學、螞蟻集團聯合提出 OmniAgent。這是一種基于「音頻引導」的主動感知 Agent,通過「思考 - 行動 - 觀察 - 反思」閉環,實現了從被動響應到主動探詢的范式轉變。

      在 Daily-Omni 等多個基準測試中,其準確率超越 Gemini 2.5-Flash 和 Qwen3-Omni 等開閉源模型。



      • 論文地址:https://arxiv.org/pdf/2512.23646
      • 論文主頁:https://kd-tao.github.io/OmniAgent
      • 發起實驗室ENCODE LAB:https://westlake-encode-lab.github.io/



      背景與痛點



      1. 端到端全模態模型雖然實現了視聽統一,但往往受限于高昂的訓練成本和困難的跨模態特征對齊,導致在細粒度跨模態理解上表現不佳;
      2. 基于固定 Workflow 的智能體依賴人為設定僵化的流程,缺乏細粒度和靈活性,無法根據問題自主的進行規劃與信息獲取;
      3. Caption-based 視頻智能體需要在分析問題之前,先針對整個視頻構建幀 caption 數據庫,隨后基于視頻字幕數據庫來理解內容,但這種方法計算成本高,難以捕捉細節的跨模態信息。

      相比之下,OmniAgent 引入了一種全新的主動感知推理范式。通過在迭代反思循環中策略性地調度視頻與音頻理解能力,該方法有效攻克了跨模態對齊的難題,從而實現了對視聽內容的細粒度理解。

      方法論



      OmniAgent 摒棄了固定的工作流,采用了「思考 - 行動 - 觀察 - 反思」閉環機制 。

      1.思考:OmniAgent 會根據問題進行分析,自主決定「聽」還是「看」。

      2.行動:根據計劃,OmniAgent 會從構建的多模態工具中選取合適的工具進行調用:

      1. 事件工具:利用音頻能夠高效捕捉全局上下文的特性,首創音頻引導事件定位,快速鎖定關鍵時間窗口,避免對長視頻進行無效的視覺掃描 。
      2. 視頻工具:包含粗粒度的全局視頻問答,以及在特定時間內基于更高幀率進行分析的片段問答工具。
      3. 音頻工具:涵蓋音頻全局描述、細粒度問答,以及支持精確時間戳的語音轉錄 (ASR)。

      3.觀察與反思機制:智能體接受工具結果,評估目前已有的證據能否正確的回答問題,并且結合之前在多步推理中進行跨模態一致性檢查,確保視聽證據互證,解決幻覺與對齊問題。

      效果如何?

      OmniAgent 在三個主流視聽理解基準測試中均取得了 SOTA 成績,顯著優于現有的開源及閉源模型:

      1.Daily-Omni Benchmark:準確率達到 82.71%,超越 Gemini 2.5-Flash (72.7%) 和 Qwen3-Omni-30B (72.08%),提升幅度超 10% 。



      2.OmniVideoBench:在長視頻理解任務中,準確率達 59.1%,大幅領先 Qwen3-Omni-30B (38.4%) 。



      3.WorldSense:OmniAgent 也保持了領先的準確度。



      未來愿景

      1. OmniAgent 的設計理念有很高的擴展性,能夠繼續結合其他模態的工具;
      2. OmniAgent 能夠幫助生成高質量的 COTT 數據,用來構建可以自我調用工具的下一代智能體全模態模型。

      總的來看,OmniAgent 證明了在全模態理解任務中,音頻引導的的主動感知策略是解決跨模態對齊困難、提升細粒度推理能力的有效路徑。該工作為未來的全模態 Agent 算法設計提供了新的范式參考。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      高通、英特爾股價跌幅均擴大至5%以上

      高通、英特爾股價跌幅均擴大至5%以上

      每日經濟新聞
      2026-05-14 21:38:47
      形勢有多嚴峻?坐標上海:80末90初程序員都開始失業,評論區炸了

      形勢有多嚴峻?坐標上海:80末90初程序員都開始失業,評論區炸了

      慧翔百科
      2026-05-14 09:00:11
      “排隊王”也虧錢?南京滿大街的“小東小西店”,快要掏空年輕人的耐心了

      “排隊王”也虧錢?南京滿大街的“小東小西店”,快要掏空年輕人的耐心了

      揚子晚報
      2026-05-14 15:26:10
      4000萬年薪泡湯?倫敦之夜,張本宇看兒女慘敗,紅著眼眶收拾書包。

      4000萬年薪泡湯?倫敦之夜,張本宇看兒女慘敗,紅著眼眶收拾書包。

      最愛乒乓球
      2026-05-15 00:08:05
      馬斯克兒子新中式服裝虎頭包走紅,由桂林繡娘一針一線手工制作

      馬斯克兒子新中式服裝虎頭包走紅,由桂林繡娘一針一線手工制作

      凡知
      2026-05-15 08:16:06
      特朗普愛吃的兩道中國菜,好多老外都猜不到

      特朗普愛吃的兩道中國菜,好多老外都猜不到

      老寓雜談
      2026-05-14 16:25:31
      3個信號說明他早已放棄:第2個最傷人,90%的人還在自欺欺人

      3個信號說明他早已放棄:第2個最傷人,90%的人還在自欺欺人

      心事寄山海
      2026-05-14 07:22:54
      不瞞了!馬斯克罕見承認:美國是第一,但第二到第十全都來自中國

      不瞞了!馬斯克罕見承認:美國是第一,但第二到第十全都來自中國

      瀲滟晴方DAY
      2026-04-25 23:29:34
      90歲鐘南山公開6個長壽秘訣:第一條就很多人做不到,看完就明白

      90歲鐘南山公開6個長壽秘訣:第一條就很多人做不到,看完就明白

      醫學科普匯
      2026-05-14 17:41:18
      王洪文38歲正國級,狂草藏三處神技,你絕對沒見過!

      王洪文38歲正國級,狂草藏三處神技,你絕對沒見過!

      書畫相約
      2026-05-14 09:15:45
      湖人休賽期引援三大目標出爐:字母哥僅排第三,第一場均兩雙

      湖人休賽期引援三大目標出爐:字母哥僅排第三,第一場均兩雙

      錢說體育
      2026-05-15 08:12:49
      沒有美國,澤連斯基為何依然能贏得戰爭?

      沒有美國,澤連斯基為何依然能贏得戰爭?

      高博新視野
      2026-05-14 07:30:18
      “殺他全家也不解恨”,討薪1560元20次遭拒,農民工怒殺老板全家

      “殺他全家也不解恨”,討薪1560元20次遭拒,農民工怒殺老板全家

      易玄
      2026-05-12 18:58:46
      寧夏惡魔,白天在謝晉電影里演好人,晚上回家當閻王,殺人喂狗!

      寧夏惡魔,白天在謝晉電影里演好人,晚上回家當閻王,殺人喂狗!

      莫地方
      2026-05-14 00:55:03
      上海樓市爆了!

      上海樓市爆了!

      地產觀點
      2026-05-14 18:00:07
      創歷史,特奧成法國隊史首位入選世界杯名單的非歐洲聯賽球員

      創歷史,特奧成法國隊史首位入選世界杯名單的非歐洲聯賽球員

      懂球帝
      2026-05-15 06:15:04
      鄭強翻車,翻得一點也不冤!

      鄭強翻車,翻得一點也不冤!

      梳子姐
      2026-05-13 12:19:44
      法網倒計時,世界排名掉出TOP50,痛失種子席位的鄭欽文將如何觸底反彈

      法網倒計時,世界排名掉出TOP50,痛失種子席位的鄭欽文將如何觸底反彈

      上觀新聞
      2026-05-14 17:23:29
      終于懂了!紅裙小女孩身份為何不公開

      終于懂了!紅裙小女孩身份為何不公開

      阿廢冷眼觀察所
      2026-05-15 01:09:10
      美股收漲,道指重返五萬點,思科飆高13.4%,英偉達大漲4.4%

      美股收漲,道指重返五萬點,思科飆高13.4%,英偉達大漲4.4%

      第一財經資訊
      2026-05-15 07:25:41
      2026-05-15 09:20:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12996文章數 142648關注度
      往期回顧 全部

      科技要聞

      兩年聯姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      歡迎宴會座位公開:馬斯克黃仁勛與中國企業家同桌吃飯

      頭條要聞

      歡迎宴會座位公開:馬斯克黃仁勛與中國企業家同桌吃飯

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      特朗普的北京時刻

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      游戲
      家居
      健康
      親子
      本地

      萬字解析:大叔蘿莉的組合為什么經久不衰?"/> 主站 商城 論壇 自運營 登錄 注冊 萬字解析:大叔蘿莉的組合為什么經久不衰? 神堡薛師傅 2026-0...

      家居要聞

      精神奢享 對話塔尖需求

      專家揭秘干細胞回輸的安全風險

      親子要聞

      “67歲自然懷孕”的天賜媽媽,現狀曝光:7年前的預言,正在應驗

      本地新聞

      用蘇繡的方式,打開江西婺源

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中文字幕国产精品资源| 久久久www成人免费无遮挡大片| 四虎精品国产永久在线观看| 日本疯狂爆乳xxxx| 亚洲精品成人区在线观看| 国产xxx| 亚洲福利视频一区二区| 国产粉嫩嫩00在线正在播放| 在线无码va中文字幕无码| 亚洲国产欧美日韩精品一区二区三区| 国产精品嫩草影院一二三区入口| 就去干成人网| 秋霞在线观看秋| 少妇无码AV无码专区| 新晃| 午夜亚洲AV日韩AV无码大全| 欧美777| 亚洲国语无码| 久久美腿丝袜激情综合| 免费观看潮喷到高潮| 国产一二三五区不在卡| 亚洲精品天天影视综合网| 无码123| 免费a级毛片18以上观看精品| 免费人成视频网站在线观看不卡| 狠狠久久亚洲欧美专区| 女女互慰吃奶互揉免费视频| 国产一区二区三区内射高清| 三级黄色电影网站| 国产精品美女久久久m| 亚洲美女少妇偷拍萌白酱| av天堂中文字幕| 午夜性刺激免费看视频| 99久久999久久久综合精品色| 亚洲av日韩av无码尤物| 无码不卡黑人与日本人| 国产亚洲视频免费播放| 欧洲AAAA一區二區三區導航| 最新午夜国内自拍视频| 免费看一级a女人自慰免费| 激情偷拍av|