<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      通過視覺安全提示與深度對齊實現大型視覺語言模型的安全對齊

      0
      分享至



      隨著大型視覺語言模型在多個下游任務的廣泛應用,其潛在的安全風險也開始快速顯露。研究表明,即便是最先進的大型視覺語言模型,也可能在面對帶有隱蔽的惡意意圖的圖像 — 文本輸入時給出違規甚至有害的響應,而現有的輕量級的安全對齊方案都具有一定的局限性。

      在這一背景下,清華大學人工智能學院團隊提出了DAVSP(Deep Aligned Visual Safety Prompt)。該工作以Oral 形式被 AAAI 2026 錄用。

      DAVSP 通過引入全新的視覺安全提示與深度對齊策略,在幾乎不破壞模型正常能力的前提下,顯著提升了大型視覺語言模型對惡意輸入的抵御效果,為大型視覺語言模型的安全對齊提供了新的方法。



      • 論文鏈接:https://arxiv.org/pdf/2506.09353
      • Github 鏈接:https://github.com/zhangyitonggg/DAVSP

      研究背景與問題

      大型視覺語言模型(LVLMs)雖在多模態任務中表現亮眼,但其安全隱患正迅速顯現。攻擊者可以將惡意意圖隱蔽地嵌入圖像中,使模型在未察覺風險的情況下輸出有害內容。因此,如何增強 LVLMs 對多模態惡意輸入的安全對齊能力,成為當前亟需解決的問題。

      如何提升 LVLMs 的安全性?一條常見并且輕量級的思路是對用戶請求添加安全提示(safety prompt)以引導模型遵循安全準則。文本領域已有通過在用戶文本前加入提示語來提高模型安全性的方法。但在多模態場景下,僅保護文本遠遠不夠,攻擊者完全可以繞過文本提示,將威脅藏在圖像中。

      近期工作如 ESIII、UniGuard 嘗試在圖像上添加可訓練的視覺安全擾動,以提升模型拒絕惡意請求的能力,并與文本安全提示結合取得一定成效。然而,這類視覺安全擾動在真實應用中仍存在兩大問題:

      • 安全性不足:例如在 FigStep 基準上,即便加入視覺安全擾動,模型仍有約 30% 的惡意輸入沒有被成功拒絕。
      • 性能損害明顯:在 MME 基準上,某模型的得分從 1818 直接跌至 1403,意味著模型「更安全」的同時也顯著「變弱」。

      上述缺陷背后的原因在該研究中被進一步剖析:

      • 首先,直接在圖像像素上疊加噪聲會不可避免地擾亂圖像的關鍵視覺特征(如邊緣、紋理、色彩分布),削弱模型對圖像的感知,從而影響模型的性能。為減輕這一問題,擾動幅度不得不被嚴格限制,但這又極大壓縮了可用的優化空間,限制了視覺安全擾動發揮作用的能力。
      • 其次,僅依據模型最終輸出是否安全來訓練擾動(比如讓模型盡量輸出預設的拒絕語)屬于淺層的對齊,模型可能學到的是表面模式而非真正的安全準則。因此經常出現模型回復以「抱歉」開頭,看似拒絕,但緊接著還是給出了有害內容的情況。圖 1 的案例直觀展示了這一「表面拒絕」現象:左側施加傳統安全擾動的模型先說「抱歉不能幫助」,卻隨后繼續提供了實行非法黑客行為的具體步驟。



      針對以上挑戰,清華大學人工智能學院團隊在 AAAI 2026 上提出了全新的安全對齊方法DAVSP(Deep Aligned Visual Safety Prompt)。

      該方法的核心思想是從視覺提示范式和訓練對齊機制兩方面同時創新,以克服以往方法的局限性。在保證模型對正常輸入性能幾乎不受影響的前提下,大幅提升模型對惡意多模態攻擊的抵御能力。下面我們詳細介紹 DAVSP 的方法原理和其兩項關鍵創新:視覺安全提示(Visual Safety Prompt)和深度對齊(Deep Alignment)。

      方法與創新:深度對齊的視覺安全提示(DAVSP)

      DAVSP 整體思路:作者重新審視了將安全提示引入視覺模態的范式,提出視覺安全提示(VSP)來取代傳統的圖像全局擾動,并設計了深度對齊(DA)的訓練策略讓模型從內部真正理解何為「不安全」輸入。下圖概覽了 DAVSP 的工作原理。



      視覺安全提示

      視覺安全提示(Visual Safety Prompt,VSP)是 DAVSP 提出的新型視覺提示范式。不同于以往直接在整幅圖像像素上加擾動的方法,VSP 選擇在輸入圖像周圍添加一圈額外的可訓練邊框,作為安全提示區域。這樣做有兩大好處:

      • 保護原始視覺特征:由于提示信息只存在于圖像邊緣的新擴展區域,而不直接修改原圖的像素,視覺安全提示不會破壞原有圖像的關鍵細節。模型在處理時能夠較好地接收到原圖信息,從而保證對良性輸入的正常感知與理解不會因提示的加入而下降。實驗中也驗證了這一點:使用 DAVSP 后模型在多個基準上的各項性能幾乎與僅施加文本安全提示時相當,顯著少于于以往視覺安全擾動方法的性能損失。
      • 擴大優化空間:相較于傳統像素級的視覺安全擾動(其擾動幅度常被嚴格限制在如 32/255 的極小范圍內),視覺安全提示通過引入額外的圖像邊界區域,可以被優化為任意像素值,大大拓寬了可學習參數的空間。實驗表明,在消除了這一擾動幅度限制后,在測試時能夠表現出更強有力的安全對齊能力。

      此外,視覺安全提示作為一種「即插即用」的模塊具有實用優勢:只需在推理時將圖像加上優化得到的視覺安全提示,不需要改動模型結構,也不會帶來額外的計算開銷或顯著延遲。

      深度對齊

      有了合適的提示范式,還需要有效的訓練策略使視覺安全提示發揮作用。DAVSP 的第二項創新深度對齊(Deep Alignment)旨在深入模型內部,對其內部激活空間進行監督,挖掘并增強模型自身對「有害 / 無害」信息的區分能力。

      研究人員注意到,大型視覺語言模型內部往往已經蘊含了一定的對有害意圖的「潛在辨別能力」—— 即惡意查詢和正常查詢在模型中的激活向量存在系統性差異。與其僅看最終輸出是否拒絕,不如利用模型內部表征來指導訓練,促使模型從內部真正認知到哪些輸入是不安全的。具體來說,作者提出了以下步驟:

      1. 構建有害向量:首先在模型內部選取一層(如解碼器的中間層),比較模型處理一組容易拒絕的惡意樣本與一組正常良性樣本時該層激活向量的差異。通過計算兩組樣本在該層最終一個輸入 token 的平均激活差,得到一個向量方向,稱為「有害向量」。直觀理解,這個向量代表了將模型內部表示從「良性」方向推向「惡意」方向的變化方向。
      2. 深度對齊訓練:有了有害向量,就可以在訓練視覺安全提示時引入一種基于內部表示的目標。具體做法是:讓帶有惡意意圖的輸入在該向量方向上的投影盡可能增加,而良性輸入的投影盡可能減少。也就是說,訓練過程中視覺提示會被不斷優化,促使模型對惡意查詢在激活向量上更偏向「有害」方向,從而模型更容易意識到「這是不好的請求」,進而在輸出層拒絕回答;相反,對正常輸入則壓低這種有害方向的激活,避免模型誤判正常請求為有害請求。

      實驗結果

      作者在多個基準上對 DAVSP 進行了全面評估,結果顯示該方法在抵御惡意攻擊和保持模型實用性兩方面均顯著優于現有方案。

      • 惡意輸入抵御能力:在兩個具有代表性的惡意多模態數據集上,DAVSP 取得了遠高于現有同類方法的拒絕率(RSR,Resist Success Rate)。



      • 良性任務性能:與提升安全性相對應,DAVSP 對模型正常能力的影響卻很微小。DAVSP 在多個基準上的實用性評分與僅施加文本安全提示時持平,且優于其他視覺安全擾動的方法。



      • 跨模型泛化:令人驚喜的是,DAVSP 訓練得到的視覺安全提示具有一定的泛化能力,可以在不同模型之間遷移使用。



      • 關鍵組件作用:通過消融實驗,作者驗證了 DAVSP 的兩大創新 —— 視覺安全提示和深度對齊 —— 缺一不可。移除深度對齊、僅對輸出進行監督時,模型對惡意攻擊的抵抗成功率大幅下降。同樣地,將視覺安全提示替換回原始的像素級的視覺安全擾動后,會造成安全性和實用性同時退化。



      團隊介紹

      本研究由清華大學人工智能學院團隊完成。通訊作者為清華大學人工智能學院李佳助理教授,主要研究方向包括人工智能和軟件工程的交叉賦能、AI for SE、SE for AI 等。第一作者張奕彤將于明年正式入學清華大學人工智能學院攻讀博士學位。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      劉雨鑫打卡潮汕海鮮!780每斤瀨尿蝦刷屏,高端消費不該被污名化

      劉雨鑫打卡潮汕海鮮!780每斤瀨尿蝦刷屏,高端消費不該被污名化

      逍遙浪騰云
      2026-05-12 13:41:51
      東契奇:常規賽末我們狀態火熱 當時感覺可以爭冠

      東契奇:常規賽末我們狀態火熱 當時感覺可以爭冠

      北青網-北京青年報
      2026-05-12 20:18:18
      蠶豆被點名!醫生發現:吃得越多,高血壓患者壽命或越短?真的嗎

      蠶豆被點名!醫生發現:吃得越多,高血壓患者壽命或越短?真的嗎

      路醫生健康科普
      2026-05-12 17:38:25
      河北27歲張霞離世,長得漂亮,剛結婚一年,生前遺愿曝光看哭眾人

      河北27歲張霞離世,長得漂亮,剛結婚一年,生前遺愿曝光看哭眾人

      攬星河的筆記
      2026-05-11 23:15:42
      氣象站——便攜式氣象站的優勢

      氣象站——便攜式氣象站的優勢

      測控技術有限公司
      2025-08-26 16:51:10
      沖上熱榜第一!世乒賽結束數小時,外媒提到樊振東,現場一片沉默

      沖上熱榜第一!世乒賽結束數小時,外媒提到樊振東,現場一片沉默

      大秦壁虎白話體育
      2026-05-11 20:29:50
      村民被眼鏡王蛇咬傷打13支血清 專家:我國尚無專門血清,可用抗銀環蛇毒血清加抗眼鏡蛇毒血清

      村民被眼鏡王蛇咬傷打13支血清 專家:我國尚無專門血清,可用抗銀環蛇毒血清加抗眼鏡蛇毒血清

      封面新聞
      2026-05-11 19:00:03
      “漢坦病毒”來襲,醫生提醒:寧可每天看電視,也不要出門做6事

      “漢坦病毒”來襲,醫生提醒:寧可每天看電視,也不要出門做6事

      路醫生健康科普
      2026-05-11 17:39:53
      章子怡“潑墨門”主謀,葉劍英兒媳,離婚后轉戰商圈竟成資本大鱷

      章子怡“潑墨門”主謀,葉劍英兒媳,離婚后轉戰商圈竟成資本大鱷

      財叔
      2026-05-11 08:40:12
      果不其然,特朗普訪華再生變故?中國提的要求,美國竟然拒絕了

      果不其然,特朗普訪華再生變故?中國提的要求,美國竟然拒絕了

      男人吻女人是一種口福
      2026-05-12 12:25:38
      王上源半場喊話:去年是擺著踢贏的嗎?誰不踢現在趕緊下去

      王上源半場喊話:去年是擺著踢贏的嗎?誰不踢現在趕緊下去

      懂球帝
      2026-05-12 18:00:11
      時隔13年回歸!曝63歲穆帥執教皇馬已達協議,下周官宣+本月亮相

      時隔13年回歸!曝63歲穆帥執教皇馬已達協議,下周官宣+本月亮相

      我愛英超
      2026-05-12 19:25:44
      里夫斯:還沒想過自由球員市場 很感激能為湖人效力

      里夫斯:還沒想過自由球員市場 很感激能為湖人效力

      北青網-北京青年報
      2026-05-12 20:18:15
      張雪宣布無條件資助國內兩輪車手:期待奪冠!

      張雪宣布無條件資助國內兩輪車手:期待奪冠!

      看看新聞Knews
      2026-05-12 18:44:03
      外交部談黎智英案:中央政府堅定支持香港司法機關依法履職盡責

      外交部談黎智英案:中央政府堅定支持香港司法機關依法履職盡責

      澎湃新聞
      2026-05-12 16:10:26
      胸涌而來的超級嫩模!

      胸涌而來的超級嫩模!

      文刀萬
      2026-05-12 16:13:28
      追至2-2!哈登成NBA歷史第四人,今天,我不得不承認4個現實

      追至2-2!哈登成NBA歷史第四人,今天,我不得不承認4個現實

      林子說事
      2026-05-12 12:26:34
      48歲歐陽夏丹現狀:離開央視,被教授邀請現身挪威,至今未婚未育

      48歲歐陽夏丹現狀:離開央視,被教授邀請現身挪威,至今未婚未育

      白面書誏
      2026-05-07 17:50:08
      庫克、馬斯克、奧特伯格等美企高管將隨特朗普訪華,曾表示“榮幸”的黃仁勛疑缺席

      庫克、馬斯克、奧特伯格等美企高管將隨特朗普訪華,曾表示“榮幸”的黃仁勛疑缺席

      界面新聞
      2026-05-12 12:39:04
      每體:巴薩投入不到3000萬歐便衛冕西甲,德科的引援堪稱教科書

      每體:巴薩投入不到3000萬歐便衛冕西甲,德科的引援堪稱教科書

      懂球帝
      2026-05-12 09:50:23
      2026-05-12 21:23:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12979文章數 142648關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      男子自帶挖掘機為社區修路墜崖身亡 社區不認可系工亡

      頭條要聞

      男子自帶挖掘機為社區修路墜崖身亡 社區不認可系工亡

      體育要聞

      總是掉鏈子的“倒霉蛋”,闖進了歐戰決賽

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      黃仁勛真是被白宮徹底封殺了

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      房產
      時尚
      家居
      健康
      軍事航空

      房產要聞

      穗八條引爆樓市!萬博寶藏紅盤,五一勁銷出圈

      穿極簡風的夏天,是真高級!

      家居要聞

      極簡主義下的居住場域與空間

      干細胞能讓人“返老還童”嗎

      軍事要聞

      知情人士披露:美國或考慮恢復對伊朗軍事行動

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 99久热在线精品视频| 国产一区二区三区黄色片| 99久久精品美女高潮喷水 | 亚洲男人在线| 午夜免费福利视频| 免费精品国产人妻国语色戒| 国产99在线 | 欧美| 亚洲国产精品日本无码网站| 国产精品va免费视频| 成人无码特黄特黄av片在线| 日本无码人妻精品一区二区蜜桃| 精品视频国产香蕉尹人视频| 国产精品林美惠子在线观看| 无码午夜成人1000部免费视频| 女人喷液抽搐高潮视频| 免费a级毛片18以上观看精品| 成熟妇人a片免费看网站| 亚洲综合久久成人av| 午夜不卡av免费| 欧美久久久久中文字幕| 午夜亚洲国产理论秋霞| 久久国产乱子伦视频无卡顿| 日本顶级少妇极度色诱视频| 男人扒女人添高潮视频| 岛国av在线播放观看| 97人妻人人揉人人躁人人| 女人被做到高潮免费视频| 自拍性旺盛老熟女| 亚洲天堂视频在线观看| 人妻中出受孕 中文字幕在线| 日日橹狠狠爱欧美视频| 精品人妻潮喷久久久又裸又黄| 一区二区三区五区亚洲无色| 敦煌市| 亚洲一二三区精品美妇| xxxx国产| 国内精品伊人久久久久网站| 亚洲免费成人免费视频| 狠狠噜天天噜日日噜视频麻豆| 国产丝袜在线视频| 99热线精品大全在线观看|