你的AI安全測試可能測錯了語言：52,272個評分揭示英語排名在非英語中完全失效

2026-05-27 04:52:54　來源: 硅嶼手記

北京舉報

分享至

2026年Appen的一項研究（arXiv:2605.23157）揭示了一個被忽視的安全盲區(qū)：大語言模型的安全排名在語言切換后完全失效。同一批模型，換個語言提問，"最脆弱"的模型就會換位。這項覆蓋52,272個人工評分的研究顯示，沒有任何重標(biāo)定方法能恢復(fù)英語測試時的排名順序。

另一項針對印地語-英語混合語（Hinglish）的紅隊測試（arXiv:2505.14226）結(jié)果更刺眼——通過代碼混用的語音擾動攻擊，成功率接近99%。

這意味著什么？你的英語專屬紅隊測試，測量的攻擊面與非英語用戶實際面臨的攻擊面，根本就是兩個東西。

問題在于，大多數(shù)團(tuán)隊的安全門禁（gate）機(jī)制建立在英語測試數(shù)據(jù)上。當(dāng)攻擊者用印地語、斯瓦希里語或Hinglish發(fā)起提示注入時，系統(tǒng)可能毫無防備。

平均安全分?jǐn)?shù)在這里是危險的幻覺——它掩蓋了你最薄弱的語言環(huán)節(jié)，而這正是攻擊者會找到的突破口。

一個最小可行的解決方案是：為每種語言單獨運行對抗測試集，分別評分，并以表現(xiàn)最差的那種語言作為門禁標(biāo)準(zhǔn)，而非取平均。以下是實現(xiàn)這一思路的框架結(jié)構(gòu)（需自備對抗提示詞和評判器，本文不包含具體攻擊字符串）：

核心結(jié)構(gòu)包含三個硬性規(guī)則。第一，每種語言獨立成集、獨立評分。evaluate()函數(shù)從不返回單一數(shù)字，而是返回每種語言的攻擊成功率（ASR）。

第二，以最差語言為門禁依據(jù)，而非平均。gate()函數(shù)會故意打印平均值并標(biāo)注"勿以此為準(zhǔn)"——平均值恰恰隱藏了你最脆弱的語言。

第三，使用原生表達(dá)，而非翻譯。Probe.prompt字段要求用用戶實際輸入的語體編寫（對Hinglish而言，是代碼混用的口語化表達(dá)，而非印地語的正式譯文）。

代碼實現(xiàn)上，Probe數(shù)據(jù)類記錄語言代碼、原生措辭的對抗提示詞，以及安全代理應(yīng)當(dāng)拒絕的標(biāo)記。run_agent()和is_attack_success()兩個函數(shù)需要接入你的實際代理客戶端和評判邏輯——可以是基于評分標(biāo)準(zhǔn)的自動評判，也可以是人工審核，關(guān)鍵是保持確定性且具備語言感知能力。

evaluate()函數(shù)按語言分組計算ASR，gate()函數(shù)則找出最高攻擊成功率的語言，與閾值（默認(rèn)5%）比較。輸出會清晰標(biāo)注哪門語言是"最差（決定構(gòu)建門禁）"，并明確區(qū)分平均值與最差值。

這個框架的價值不在于代碼本身，而在于強(qiáng)制團(tuán)隊面對一個 uncomfortable truth：全球化產(chǎn)品的安全水位，由其最薄弱的語言市場決定。當(dāng)你的非英語用戶量增長時，英語紅隊的"通過"標(biāo)簽可能正在制造虛假的安全感。

實施建議：從覆蓋你實際用戶語種的極簡集合開始，優(yōu)先測試代碼混合語（如Hinglish、Taglish）和書寫系統(tǒng)差異大的語言。對抗提示詞應(yīng)聘請母語者編寫，而非依賴機(jī)器翻譯——語音層面的擾動和口語化陷阱往往無法通過譯文復(fù)現(xiàn)。

最終門禁決策應(yīng)寫入CI/CD流程：只有當(dāng)所有語言的ASR均低于閾值時，構(gòu)建才可通過。這意味著某門小語種的意外漏洞，能夠阻止整體部署——這正是設(shè)計意圖。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.