<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      ACL 2026|AI for聾啞群體,港理工開源思考型手語翻譯模型

      0
      分享至



      本文作者分別來自香港理工大學以及四川大學。第一作者江奕飏是來自香港理工大學的博士生,指導老師為李青教授與魏驍勇教授。

      長期以來,聽障群體在信息獲取、公共服務和社會交流中都處于相對邊緣的位置。主流社會的大量信息傳播方式默認建立在語音和文字之上,這意味著許多依賴手語進行表達和理解的人群,在教育、醫療、政務服務以及日常溝通中,往往天然面臨更高門檻。與此同時,當人工智能正在快速改變內容生產、知識獲取和人機交互方式時,這部分群體卻并沒有同等程度地享受到技術發展的紅利。如何讓 AI 真正服務更多人,而不是只服務于主流交互方式下的多數群體,已經成為一個越來越重要的問題。

      也正是在這樣的背景下,手語翻譯(Sign Language Translation, SLT)的研究顯得尤為重要。它不僅關乎一個具體的多模態任務,更關乎如何借助人工智能幫助聽障群體更順暢地接入主流社會,降低溝通壁壘,提升信息可達性與社會參與度。從這個意義上說,SLT 不只是「把視頻翻譯成文字」,而是在嘗試搭建一座連接不同表達體系與社會環境的橋梁。

      但從技術角度看,手語翻譯遠比想象中復雜。長期以來,許多方法默認手語視頻中的局部片段可以直接對應到自然語言中的詞語或短語,仿佛只要完成逐段對齊,就能得到正確翻譯。然而,這一假設在真實場景中并不總是成立。手語表達往往依賴動作軌跡、空間位置、身體朝向以及上下文關系共同構成語義,同一個手型或動作在不同語境下甚至可能表達完全不同的含義。也正因如此,這篇論文提出:手語翻譯本質上更接近一種跨模態推理問題,而不只是簡單的視頻到文本映射。

      針對這一問題,研究團隊提出了 SignThought。這是一種面向 gloss-free 手語翻譯的全新框架,其核心思想是在視頻理解與文本生成之間,引入一條有序的 latent thoughts 鏈條,讓模型在生成翻譯之前,先逐步組織中間語義表示,再根據這些中間語義去檢索視頻證據,最終完成更連貫、更忠實的翻譯。與此同時,論文還提出了 plan-then-ground 的解碼方式:模型先決定「要說什么」,再回到視頻中尋找「證據在哪里」。

      目前,該工作已被 ACL 2026 Main Conference 接收,并擬推薦為口頭報告。



      • 論文標題:Think in Latent Thoughts: A New Paradigm for Gloss-Free Sign Language Translation
      • 論文地址:
      • https://arxiv.org/abs/2604.15301
      • 代碼地址:
      • https://github.com/fletcherjiang/SignThought

      研究背景


      近年來,gloss-free 手語翻譯逐漸成為研究熱點。與傳統依賴 gloss 標注的方案不同,這類方法希望直接從手語視頻生成自然語言句子,避免昂貴而繁瑣的中間標注成本。

      但真正的困難在于,手語的語義往往并不是由某一個固定手勢直接決定的,而是由動作軌跡、空間位置和上下文關系共同生成。如圖所示,同樣與「車輛」相關的手型,如果只做直接的視頻到文本映射,模型可能只能識別出「車輛」和「樹」這類表層元素,最終生成類似「一輛車在樹旁邊」這樣的描述;但實際上,手語中真正的含義可能來自運動方向和空間關系本身,例如「車輛」從位置 A 朝位置 B 移動,并與「樹」發生交互,這時更準確的語義應是「一輛車撞上了一棵樹」。換句話說,同一個與車輛相關的手型,在不同動作方式和空間配置下,可能表達「停車」「撞擊」或「行駛」等完全不同的含義。



      這也說明,現有 gloss-free 方法面臨一個關鍵瓶頸:模型往往需要同時完成兩件事。第一,它要決定當前到底應該表達什么語義;第二,它還要在長視頻中定位支持這一語義的時序證據。這兩件事被強行耦合在一起后,很容易造成語義規劃不穩定、注意力分散,或者雖然生成的句子表面流暢,卻沒有真正對應到視頻中的核心語義關系。

      相比文本推理任務可以顯式維護中間 reasoning steps,手語翻譯中的推理更難,因為它橫跨視覺與語言兩種模態,缺乏天然離散、可直接操作的中間推理單元。也正因如此,這篇論文提出:手語翻譯本質上更接近一種跨模態推理問題,而不只是簡單的視頻到文本映射。論文正是從這里切入,嘗試為 gloss-free 手語翻譯建立一個顯式的中間推理接口。

      核心方法


      SignThought 的整體框架主要由三部分組成。第一部分是Sign Encoder,負責把輸入的手語視頻編碼成稠密的時序證據特征;第二部分是核心的Latent Chain-of-Thought Thinking Module,它通過一組可學習的 thought slots,把長視頻中的連續證據逐步壓縮成一條有順序的 latent thought chain;第三部分是Dual-Stream Decoder,先基于 thought chain 完成語義規劃,再回到視頻特征中做細粒度 grounding,最終生成翻譯文本。



      這套設計背后有三個關鍵點。首先,論文把 latent thoughts 視為視覺證據與自然語言生成之間的中間語義接口,不再把所有信息都壓縮進一個黑盒 encoder 表示中。其次,模型通過plan-then-ground把「語義決策」和「證據檢索」顯式拆開,減少兩者相互干擾。最后,latent thoughts 不只是內部狀態,還能作為可追蹤的中間錨點,把生成文本與輸入視頻中的特定時間區域對應起來,從而提升翻譯的 faithful grounding 能力。



      SignThought 的內部推理過程:完整模型能夠形成沿時間順序遞進且較為集中的 thought-to-frame 對齊。


      更具體地說,在 thinking module 中,模型先用帶有因果約束的 thought 更新機制,讓前面的 thoughts 偏向表示較粗粒度的語義,后面的 thoughts 再逐漸補充細節;隨后,通過結構化路由機制,把不同時間段的視覺證據分配給不同 thoughts;到了 decoder 階段,模型會先查看當前最相關的 thought,再根據 thought 對應的時序先驗去視頻中查找證據。這使得「先想清楚,再去找依據」第一次以相對明確的方式寫進了手語翻譯模型結構里。

      數據集構建


      除了方法本身,這項工作還同步構建了一個新的大規模香港手語數據集LC-HKSLT。論文介紹,LC-HKSLT 主要來自公開視頻場景中的播報式內容,具有持續可見的手語翻譯員,并且只保留句子級監督信號,不引入 gloss 標注或 SLR vocabulary,更貼近真實部署環境。



      從規模上看,LC-HKSLT 總計包含1311 小時的手語視頻、432K clips,覆蓋14 位 signer,SLT vocabulary 達到125,833。論文還特別說明,完整數據集是在大規模真實場景中收集而來,而本文實驗主要使用其中一個精心整理的30 小時子集,以便和現有中文手語翻譯 benchmark 保持更可比的評測設置。



      這個數據集的意義不只是「更大」。更重要的是,它提供了一種更真實的弱監督訓練條件:模型拿到的不是干凈、精細的人為對齊標注,而是更接近真實世界的數據形態。也正是在這樣的設定下,顯式的跨模態推理與證據組織能力才會真正變得重要。

      實驗結果





      論文在五個手語翻譯 benchmark 上進行了實驗,包括PHOENIX14T、CSL-Daily、How2Sign、OpenASL以及新提出的LC-HKSLT。結果顯示,SignThought 在這些數據集上都取得了最好的 gloss-free BLEU-4,并且在PHOENIX14T、How2Sign、OpenASL 和 LC-HKSLT上拿到了最高的 ROUGE,整體表現非常穩定。



      具體來看,在PHOENIX14T上,SignThought 達到27.22 BLEU-4 / 54.50 ROUGE;在CSL-Daily上達到23.92 BLEU-4 / 50.99 ROUGE。在更大規模的數據集上,提升更加明顯:How2Sign的 BLEU-4 從此前方法的9.37提升到13.39,OpenASL從13.21提升到19.55。

      在自建數據集LC-HKSLT上,SignThought 同樣取得了很強結果。論文報告,公開設置下模型達到21.15 BLEU-4 / 47.87 ROUGE;進一步在其余 LC-HKSLT 數據上進行預訓練后,再在 30 小時子集上微調,性能提升到30.22 BLEU-4 / 60.01 ROUGE。這也說明,對于手語翻譯而言,大規模、領域內一致的 sign-text 數據仍然具有非常高的價值。



      論文中的消融實驗也支持了這套設計的有效性。結果表明,一旦去掉 latent thinking module,性能下降最明顯;而去掉 causal thought 更新、結構化 routing、dual-stream decoder 或 thought-guided prior injection,也都會帶來不同程度的退化。這說明 SignThought 的提升并不來自某個單獨技巧,而是來自「中間推理鏈 + 路由 + grounding」這一整套機制的協同作用。

      總結與展望


      這項工作的價值,不只是提出了一個新的手語翻譯模型,更重要的是,它嘗試重新定義這個任務:手語翻譯不應只被看成視頻到文本的映射問題,而應被視作跨模態推理問題。圍繞這一判斷,SignThought 給出了一個相對完整的答案:通過 latent thoughts 建立中間語義層,通過 plan-then-ground 解耦語義規劃與證據檢索,再借助大規模真實場景數據驗證這一方向的可行性。

      當然,目前模型中的「thinking」仍然是 latent 的,而不是完全顯式、可讀、可控的人類語言推理鏈。換句話說,這項工作并不是終點,但它向前邁出了一步:它讓手語翻譯第一次更明確地擁有了「先組織語義、再 grounded 生成」的中間過程。

      對于整個手語語言技術領域來說,這個方向很值得期待。未來如果進一步把 latent planning 與更顯式的語義結構、文本 rationale 或可控推理機制結合起來,手語翻譯模型或許不僅能給出更準確的輸出,還能更好地解釋「為什么這樣翻譯」。而這,也可能成為下一階段多模態理解與生成系統的重要突破口。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      突傳噩耗!何慶魁晚年再遭打擊,54歲愛女病逝,家族遺傳病曝光

      突傳噩耗!何慶魁晚年再遭打擊,54歲愛女病逝,家族遺傳病曝光

      尺素a
      2026-05-10 15:08:55
      鄉鎮女大學生曬“低審美”穿搭,網友眼前一黑:求求你都扔了吧!

      鄉鎮女大學生曬“低審美”穿搭,網友眼前一黑:求求你都扔了吧!

      妍妍教育日記
      2026-05-09 10:34:34
      從緬甸槍口下救回男友,她卻等不來婚禮:網貸,比電詐更狠的刀子

      從緬甸槍口下救回男友,她卻等不來婚禮:網貸,比電詐更狠的刀子

      許三歲
      2026-05-10 18:48:07
      選秀抽簽結果:奇才喜獲狀元簽!火箭無首輪,手握2次輪仍可撿漏

      選秀抽簽結果:奇才喜獲狀元簽!火箭無首輪,手握2次輪仍可撿漏

      熊哥愛籃球
      2026-05-11 12:20:58
      農村老輩子的泡酒有多厲害?網友:喝過才知道,被謊言上了一課

      農村老輩子的泡酒有多厲害?網友:喝過才知道,被謊言上了一課

      夜深愛雜談
      2026-04-13 13:02:13
      李晨在《跑男》委屈到骨子里,被新嘉賓嘲諷、節目組針對,陳赫提他紅了眼,劉浩存力挺

      李晨在《跑男》委屈到骨子里,被新嘉賓嘲諷、節目組針對,陳赫提他紅了眼,劉浩存力挺

      科學發掘
      2026-05-10 18:54:06
      5月1日起!全院一張床全國落地,住院再也不用托關系

      5月1日起!全院一張床全國落地,住院再也不用托關系

      牛鍋巴小釩
      2026-05-09 15:51:16
      向華強的“保命”之道|基本不去外面吃飯,百億富豪自帶飯盒

      向華強的“保命”之道|基本不去外面吃飯,百億富豪自帶飯盒

      孤城落日
      2026-05-09 15:58:05
      國產內存想打價格戰?長江存儲高管潑冷水:產能缺口太大

      國產內存想打價格戰?長江存儲高管潑冷水:產能缺口太大

      菜但癮大第一名
      2026-05-09 11:57:36
      女主持人:為了給兒子弄到簽名手套,我曾和庫爾圖瓦好過一陣

      女主持人:為了給兒子弄到簽名手套,我曾和庫爾圖瓦好過一陣

      懂球帝
      2026-05-09 08:33:15
      約中年女人出來玩,學會4個“不要臉”神操作,沒有搞不定的女人

      約中年女人出來玩,學會4個“不要臉”神操作,沒有搞不定的女人

      小影的娛樂
      2026-04-11 16:46:06
      別罵巴爾韋德了!皇馬真正擺爛巨星曝光,他正親手毀掉傳奇

      別罵巴爾韋德了!皇馬真正擺爛巨星曝光,他正親手毀掉傳奇

      瀾歸序
      2026-05-11 00:51:39
      任茜剛被求婚,陳若琳又上熱搜:這屆跳水女皇,活成了最不想看到

      任茜剛被求婚,陳若琳又上熱搜:這屆跳水女皇,活成了最不想看到

      手工制作阿殲
      2026-05-11 13:45:56
      醫生發現:堅持走路鍛煉的老人,過不了半個月,會迎來4大變化

      醫生發現:堅持走路鍛煉的老人,過不了半個月,會迎來4大變化

      蜉蝣說
      2026-05-11 12:00:09
      宏遠早報!李春江回歸主場觀賽,徐昕簽新合同,奎因有望續約留隊

      宏遠早報!李春江回歸主場觀賽,徐昕簽新合同,奎因有望續約留隊

      多特體育說
      2026-05-11 09:48:59
      《水滸傳》騙了世人幾百年:宋江戰勝方臘?他連給人家提鞋都不配

      《水滸傳》騙了世人幾百年:宋江戰勝方臘?他連給人家提鞋都不配

      長風文史
      2026-05-09 17:57:13
      張文宏:此次疫情核心在于傳播路徑異常;“洪迪厄斯”號郵輪8人發病3死,“室內房間不能隨意開窗”;西班牙稱接收工作“一切準備就緒”

      張文宏:此次疫情核心在于傳播路徑異常;“洪迪厄斯”號郵輪8人發病3死,“室內房間不能隨意開窗”;西班牙稱接收工作“一切準備就緒”

      大象新聞
      2026-05-10 08:46:41
      吹掉西漢姆絕平球的VAR是達倫-英格蘭,他將執法足總杯決賽

      吹掉西漢姆絕平球的VAR是達倫-英格蘭,他將執法足總杯決賽

      懂球帝
      2026-05-11 02:37:14
      比亞迪新車,5月18日正式上市!

      比亞迪新車,5月18日正式上市!

      新浪財經
      2026-05-11 07:52:04
      心理學有個發現:下等的挽回,是糾纏;中等的挽回,是斷聯;頂級的挽回,是讓對方做這兩件事

      心理學有個發現:下等的挽回,是糾纏;中等的挽回,是斷聯;頂級的挽回,是讓對方做這兩件事

      心理觀察局
      2026-05-11 09:07:16
      2026-05-11 14:27:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12968文章數 142648關注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機會

      頭條要聞

      媒體:特朗普確定本周訪華 中美在東亞有個共同的敵人

      頭條要聞

      媒體:特朗普確定本周訪華 中美在東亞有個共同的敵人

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      謝霆鋒沒想到,王菲靠張藝謀重返巔峰

      財經要聞

      "手搓汽車"曝光:偽造證件、電池以舊代新

      汽車要聞

      全球化成國內車企未來勝負手,誰是出海最強"水手"?

      態度原創

      家居
      房產
      健康
      游戲
      教育

      家居要聞

      多元生活 此處無聲

      房產要聞

      低價甩賣!海口這個地標商業,無人接盤!

      干細胞能讓人“返老還童”嗎

      71元買下上千元的手柄!日本玩家血賺操作實在太羨慕

      教育要聞

      高中持續擴招,錄取位次面臨“大洗牌”,家長不用慌了?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日本亚洲a| 久久丫精品国产亚洲AV| 超级碰碰碰| YW尤物AV无码国产在线观看| 一本无码字幕在线少妇| 最新中文字幕在线| 亚洲中文字幕精品久久久久久动漫 | 国产午夜片无码区在线观看爱情网 | 亚洲日本va一区二区sa| 石原莉奈日韩一区二区三区| 欧美老妇熟妇???亚洲日韩| 欧美综合中文字幕久久| 国产+成+人+亚洲欧洲自线| 久久午夜神器| 亚洲一区国色天香| 日本中文有码视频在线| 国偷自产AV一区二区三区| av自拍一区| 香蕉免费一区二区三区| 开心久久婷婷综合中文字幕| 久久久久亚洲精品无码蜜桃| 大帝av| 99re一区二区三区| 久久久久欧美精品观看| 国产中文字幕日韩精品| 国产?AVHD| 国产精品久久久久久熟妇吹潮软件| 欧美色a电影精品aaaa| 国产成人户外露出视频在线| 色一情一交一乱一区二区| 亚洲AV无码乱码精品国产草莓| 在线A级毛片无码免费真人| 亚洲国产精品500在线观看| 中文字幕亚洲在线| 人妻少妇看A偷人无码电影| 国产真实乱对白精彩| 无码国模国产在线观看免费| 自拍偷拍日韩精品| 99精品国产99久久久久久97| 国产亚欧女人天堂AV在线| 亚洲色大成网站WWW永久网站|