2026年Appen的一項研究(arXiv:2605.23157)揭示了一個被忽視的安全盲區(qū):大語言模型的安全排名在語言切換后完全失效。同一批模型,換個語言提問,"最脆弱"的模型就會換位。這項覆蓋52,272個人工評分的研究顯示,沒有任何重標(biāo)定方法能恢復(fù)英語測試時的排名順序。
另一項針對印地語-英語混合語(Hinglish)的紅隊測試(arXiv:2505.14226)結(jié)果更刺眼——通過代碼混用的語音擾動攻擊,成功率接近99%。
![]()
這意味著什么?你的英語專屬紅隊測試,測量的攻擊面與非英語用戶實際面臨的攻擊面,根本就是兩個東西。
問題在于,大多數(shù)團(tuán)隊的安全門禁(gate)機(jī)制建立在英語測試數(shù)據(jù)上。當(dāng)攻擊者用印地語、斯瓦希里語或Hinglish發(fā)起提示注入時,系統(tǒng)可能毫無防備。
平均安全分?jǐn)?shù)在這里是危險的幻覺——它掩蓋了你最薄弱的語言環(huán)節(jié),而這正是攻擊者會找到的突破口。
一個最小可行的解決方案是:為每種語言單獨運行對抗測試集,分別評分,并以表現(xiàn)最差的那種語言作為門禁標(biāo)準(zhǔn),而非取平均。以下是實現(xiàn)這一思路的框架結(jié)構(gòu)(需自備對抗提示詞和評判器,本文不包含具體攻擊字符串):
核心結(jié)構(gòu)包含三個硬性規(guī)則。第一,每種語言獨立成集、獨立評分。evaluate()函數(shù)從不返回單一數(shù)字,而是返回每種語言的攻擊成功率(ASR)。
第二,以最差語言為門禁依據(jù),而非平均。gate()函數(shù)會故意打印平均值并標(biāo)注"勿以此為準(zhǔn)"——平均值恰恰隱藏了你最脆弱的語言。
第三,使用原生表達(dá),而非翻譯。Probe.prompt字段要求用用戶實際輸入的語體編寫(對Hinglish而言,是代碼混用的口語化表達(dá),而非印地語的正式譯文)。
代碼實現(xiàn)上,Probe數(shù)據(jù)類記錄語言代碼、原生措辭的對抗提示詞,以及安全代理應(yīng)當(dāng)拒絕的標(biāo)記。run_agent()和is_attack_success()兩個函數(shù)需要接入你的實際代理客戶端和評判邏輯——可以是基于評分標(biāo)準(zhǔn)的自動評判,也可以是人工審核,關(guān)鍵是保持確定性且具備語言感知能力。
evaluate()函數(shù)按語言分組計算ASR,gate()函數(shù)則找出最高攻擊成功率的語言,與閾值(默認(rèn)5%)比較。輸出會清晰標(biāo)注哪門語言是"最差(決定構(gòu)建門禁)",并明確區(qū)分平均值與最差值。
這個框架的價值不在于代碼本身,而在于強(qiáng)制團(tuán)隊面對一個 uncomfortable truth:全球化產(chǎn)品的安全水位,由其最薄弱的語言市場決定。當(dāng)你的非英語用戶量增長時,英語紅隊的"通過"標(biāo)簽可能正在制造虛假的安全感。
實施建議:從覆蓋你實際用戶語種的極簡集合開始,優(yōu)先測試代碼混合語(如Hinglish、Taglish)和書寫系統(tǒng)差異大的語言。對抗提示詞應(yīng)聘請母語者編寫,而非依賴機(jī)器翻譯——語音層面的擾動和口語化陷阱往往無法通過譯文復(fù)現(xiàn)。
最終門禁決策應(yīng)寫入CI/CD流程:只有當(dāng)所有語言的ASR均低于閾值時,構(gòu)建才可通過。這意味著某門小語種的意外漏洞,能夠阻止整體部署——這正是設(shè)計意圖。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.