<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      AAAI 2026 Oral|InfiGUI-G1模型來了,刷新GUI Grounding SOTA

      0
      分享至



      隨著多模態大語言模型(MLLM)的飛速發展,能夠像人類一樣通過視覺輸入操作圖形用戶界面(GUI)的智能體(Agent)正逐漸成為現實。然而,在通往通用計算機控制的道路上,如何讓模型精準地將自然語言指令對應到屏幕上的具體元素 —— 即 GUI Grounding 任務,依然是一大難題。

      現有的方法,特別是基于驗證獎勵的強化學習(RLVR),雖然在提升 “指得準”(空間對齊)方面表現出色,卻往往在 “指得對”(語義對齊)上遭遇瓶頸。模型常常陷入 “自信陷阱”,在復雜的語義場景下無法通過有效探索找到正確的功能圖標。

      針對這一痛點,來自浙江大學、香港理工大學及 InfiX.ai 的研究團隊提出了一種全新的自適應探索策略優化框架(AEPO),并推出了InfiGUI-G1系列模型。該模型通過多答案生成與自適應獎勵機制,徹底打破了傳統 RLVR 的探索瓶頸。僅憑 3B 和 7B 的參數量,InfiGUI-G1 便在多個高難度 GUI 基準測試中刷新了 SOTA,部分指標甚至大幅超越了閉源模型。

      本文將深入介紹這項被 AAAI 2026 接收為 Oral 的工作,解讀其如何通過 “學會探索” 來實現更精準的 GUI 語義理解。



      • 論文標題:InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization
      • 論文鏈接:https://arxiv.org/abs/2508.05731
      • 代碼鏈接:https://github.com/InfiXAI/InfiGUI-G1

      從 “空間對齊” 到 “語義對齊”:被忽視的探索瓶頸

      GUI Grounding 任務的核心是將自然語言指令(如 “打開相機”)映射到屏幕上的特定元素坐標。研究團隊指出,這一任務可以解構為兩個正交的維度:

      1. 空間對齊(Spatial Alignment):能否精確地定位到元素(即 “指得準”)。

      2. 語義對齊(Semantic Alignment):能否識別出功能正確的元素(即 “指得對”)。

      現有的 RLVR 方法(如 Naive RLVR)雖然能通過優化坐標生成來提升定位精度,但在面對語義模糊或復雜的指令時卻顯得力不從心。

      例如,當指令是 “使用相機搜索物體” 時,屏幕上可能同時存在普通的 “相機應用” 和具有視覺搜索功能的 “Google Lens”。缺乏深度語義理解的模型往往會自信地死磕 “相機應用” 圖標。由于傳統 RL 依賴當前策略采樣,模型會不斷重復這個高置信度的錯誤,陷入“自信陷阱”(Confidence Trap),從而無法發現真正正確的 “Google Lens” 圖標,導致無法獲得修正語義誤解所需的學習信號。



      GUI Grounding 的主要失敗模式: (a) 空間對齊失敗,(b) 語義對齊失敗

      InfiGUI-G1:自適應探索策略優化(AEPO)

      為了解決這一探索效率低下的問題,InfiGUI-G1 引入了AEPO(Adaptive Exploration Policy Optimization)框架。與傳統的單次回答生成不同,AEPO 旨在通過更廣泛且高效的探索來捕捉低概率但正確的選項。

      AEPO 框架由三個協同工作的核心組件構成:

      1.多答案生成機制(Multi-Answer Generation)傳統的 RL 方法通常只采樣一個動作,一旦模型 “固執己見” 地選錯,梯度的學習信號就會消失。AEPO 強制模型在一次前向傳遞中生成 N 個候選坐標點。這一機制迫使模型跳出單一的高置信度預測,去探索策略分布長尾中的可能性,從而大幅增加了發現正確答案(如上述例子中的 Google Lens)的概率。

      2.自適應探索獎勵(Adaptive Exploration Reward, AER)僅僅生成多個答案是不夠的,如何評價這些答案的質量至關重要。研究團隊基于效率第一性原理(效率 = 效用 / 成本)設計了 AER 函數。

      • 動態激勵:如果模型在靠前的排名(Rank k)就找到了正確答案,給予高額獎勵;如果失敗,則給予較小的懲罰以鼓勵繼續探索。
      • 這種非線性的獎勵設計在失敗時鼓勵模型 “廣撒網”,在成功時引導模型追求 “快準狠”,實現了探索與利用的動態平衡。

      3.共線懲罰(Collinear Penalty)為了防止模型通過生成近似直線的點來 “作弊”(簡單的線性掃描策略),研究引入了共線懲罰。如果生成的多個候選點在幾何上近似共線,將被視為低質量探索并受到嚴厲懲罰。這強制模型在語義空間而非單純的幾何空間中進行多樣化探索。



      AEPO 與 Naive 強化學習基準方法的對比

      實驗結果:小參數量實現性能越級

      研究團隊在 MMBench-GUI、ScreenSpot-Pro、UI-Vision 等五個極具挑戰性的基準上對 InfiGUI-G1(3B 和 7B 版本)進行了全面評估。

      1.綜合性能全面領先:在 MMBench-GUI 基準測試中,InfiGUI-G1-7B 在 Windows、iOS、Android 等多個平臺上的表現均刷新了開源模型的最佳成績。值得注意的是,InfiGUI-G1-7B 在部分指標上甚至優于參數量大得多的 Qwen2.5-VL-72B 和閉源模型 GPT-4o。

      2.攻克高難度語義理解任務ScreenSpot-Pro 基準專門區分了文本類(Text)和圖標類(Icon)任務。結果顯示,InfiGUI-G1 在更依賴語義理解的 “圖標” 任務上提升尤為明顯。這直接證明了 AEPO 策略有效解決了語義對齊的瓶頸,讓模型真正 “看懂” 了抽象圖標背后的功能含義,而不僅僅是進行簡單的文本匹配。

      3.讓 “不可學習” 變得 “可學習”為了驗證 AEPO 是否真的解決了探索難題,研究團隊將樣本按難度分為簡單、中等和困難。實驗發現,InfiGUI-G1 在 “困難” 樣本(即基座模型幾乎無法答對的樣本)上的提升最為巨大,相對 Naive RLVR 基線提升了超過60%。這意味著 AEPO 成功挖掘出了那些以往因缺乏探索而被模型 “放棄” 的長尾知識。



      ScreenSpot-Pro 基準測試的性能對比

      總結與展望

      InfiGUI-G1 的成功表明,GUI 智能體的性能瓶頸不僅僅在于視覺識別能力,更在于如何通過有效的強化學習策略來解決語義對齊問題。通過引入自適應探索機制,InfiGUI-G1 以極高的數據效率和較小的模型規模,實現了超越大模型的 GUI Grounding 能力。這項工作為未來開發更通用、更智能的 GUI 交互助手提供了堅實的技術基礎。

      目前,InfiGUI-G1 的代碼、模型權重及相關資源已在 GitHub 開源,歡迎社區進一步研究與使用。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      印度首富一家集體露面:太太戴1億九寶項鏈,62歲比兩個兒媳都美

      印度首富一家集體露面:太太戴1億九寶項鏈,62歲比兩個兒媳都美

      照見古今
      2026-05-12 15:50:13
      巨大遺憾!19歲新星落選巴西55人名單:11場5球 無緣世界杯

      巨大遺憾!19歲新星落選巴西55人名單:11場5球 無緣世界杯

      葉青足球世界
      2026-05-12 07:41:17
      伊朗官員:若再次遭襲,伊方或選擇將濃縮鈾豐度提升至90%

      伊朗官員:若再次遭襲,伊方或選擇將濃縮鈾豐度提升至90%

      界面新聞
      2026-05-12 14:55:29
      時隔13年回歸!曝63歲穆帥執教皇馬已達協議,下周官宣+本月亮相

      時隔13年回歸!曝63歲穆帥執教皇馬已達協議,下周官宣+本月亮相

      我愛英超
      2026-05-12 19:25:44
      曾因綜藝爆紅,廣州東山口“明星老洋房”6310萬元流拍

      曾因綜藝爆紅,廣州東山口“明星老洋房”6310萬元流拍

      中國房地產報官方號
      2026-05-12 17:05:35
      俄羅斯無人機核心負責人科扎連科被捕!曾親自向普京匯報

      俄羅斯無人機核心負責人科扎連科被捕!曾親自向普京匯報

      項鵬飛
      2026-05-11 20:08:25
      誰能晉級CBA總決賽?西熱力江看好2支球隊,無廣東和北京隊

      誰能晉級CBA總決賽?西熱力江看好2支球隊,無廣東和北京隊

      體育哲人
      2026-05-12 18:22:37
      村民被眼鏡王蛇咬傷打13支血清 專家:我國尚無專門血清,可用抗銀環蛇毒血清加抗眼鏡蛇毒血清

      村民被眼鏡王蛇咬傷打13支血清 專家:我國尚無專門血清,可用抗銀環蛇毒血清加抗眼鏡蛇毒血清

      封面新聞
      2026-05-11 19:00:03
      外交部回應普京最新涉華表態

      外交部回應普京最新涉華表態

      中國網
      2026-05-11 16:22:47
      周星馳又做短劇了!與抖音集團短劇版權中心聯手,翻拍《食神》

      周星馳又做短劇了!與抖音集團短劇版權中心聯手,翻拍《食神》

      新腕兒
      2026-05-11 19:13:21
      徐帆澄清離婚僅7個月,馮小剛近況曝光,曾與養女徐朵貼臉惹爭議

      徐帆澄清離婚僅7個月,馮小剛近況曝光,曾與養女徐朵貼臉惹爭議

      黎兜兜
      2026-05-11 21:20:14
      晚清最慘絞肉戰:七位頂級提督殞命 左宗棠為何三日不眠不食?

      晚清最慘絞肉戰:七位頂級提督殞命 左宗棠為何三日不眠不食?

      掠影后有感
      2026-05-10 10:43:55
      秦始皇子孫后代被找到,這四個姓氏都是他的后裔,有你的姓氏嗎?

      秦始皇子孫后代被找到,這四個姓氏都是他的后裔,有你的姓氏嗎?

      興趣知識
      2026-05-11 18:04:48
      日本大型電機制造企業尼得科公司被曝大規模造假

      日本大型電機制造企業尼得科公司被曝大規模造假

      澎湃新聞
      2026-05-12 21:33:09
      毛主席83歲給華國鋒的珍貴書法,練字真的有意義嗎?

      毛主席83歲給華國鋒的珍貴書法,練字真的有意義嗎?

      書畫相約
      2026-05-11 10:09:02
      蚌埠演唱會驚天騙局?成龍20 分鐘撈金離場?觀眾花千元看場笑話

      蚌埠演唱會驚天騙局?成龍20 分鐘撈金離場?觀眾花千元看場笑話

      做一個合格的吃瓜群眾
      2026-05-12 15:10:23
      美總統出訪為何連排泄物都要打包帶回?

      美總統出訪為何連排泄物都要打包帶回?

      觀星賞月
      2026-05-12 02:38:46
      劉曉彤當選!惠若琪在列,徐云麗無緣,中國排協公布完整名單

      劉曉彤當選!惠若琪在列,徐云麗無緣,中國排協公布完整名單

      跑者排球視角
      2026-05-12 16:49:17
      離婚后住浙江娘家,親媽和繼父給帶孩子,她卻在娛樂圈闖出一片天

      離婚后住浙江娘家,親媽和繼父給帶孩子,她卻在娛樂圈闖出一片天

      阿鳧愛吐槽
      2026-05-11 22:13:02
      陪玩陪睡根本不夠!認干爹、舔手指,背地里的陰暗面完全藏不住了

      陪玩陪睡根本不夠!認干爹、舔手指,背地里的陰暗面完全藏不住了

      杰絲聊古今
      2026-05-03 13:35:27
      2026-05-13 00:12:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12979文章數 142648關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      游戲
      時尚
      教育
      親子
      公開課

      LPL第二賽段:又是讓一追二,BLG三局戰勝IG

      普通人真該學學如何穿搭!多穿裙子比褲子更時髦,大方提氣質

      教育要聞

      “5塊錢能吃啥早餐?”小學兒子索要20元早餐費,家長卻翻出煙盒

      親子要聞

      dhea什么時候吃最好時間?卵巢早衰做試管成功率高嗎?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 一区二区激情| 国产999精品2卡3卡4卡| 午夜精品国产精品大乳美女| 永久黄网站色视频免费直播| 日韩无码AV电影网| 久久香综合精品久久伊人| 宅男午夜成年影视在线观看| 亚洲av综合色区在线观看| 国内在线视频一区二区三区| 国产精品一级av一区二区| 麻豆国产96在线日韩麻豆| 国产99在线 | 欧美| 99久久国产综合精品女同| 黑巨人与欧美精品一区| 成年无码av片在线狼人| 天天躁日日躁狠狠很躁| 18久久| 国产精品视频福利一区二区| 国产片免费福利片永久| 人妻丰满熟妇av无码区乱| 黑人av无码一区| 国产精品一级av一区二区| 亚洲熟妇色自偷自拍另类| 男人扒开女人腿桶到爽免费| 亚洲国产成人无码av在线影院| 久久久WWW成人免费精品| 国产成人精品自在钱拍| 18禁裸乳无遮挡啪啪无码免费| 亚洲自偷自拍另类第1页| 亚洲日本欧洲二区精品| 日本乱码在线| 男人av无码天堂| 天天爱天天做天天爽夜夜揉| 丰满少妇内射一区| 日韩中文一区二区| 香蕉久人久人青草青草| 无码av无码天堂资源网影音先锋| 伊人久久亚洲综合影院首页| 日p视频免费看| 久久精品天天中文字幕人妻| 中文字幕久久久久久久系列|