網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

深度偽造新變種：唇形同步詐騙正繞過(guò)傳統(tǒng)檢測(cè)

2026-05-18 02:00:06　來(lái)源: 全棧遛狗員

北京舉報(bào)

分享至

上個(gè)月，一位金融風(fēng)控工程師向我展示了一段視頻。畫(huà)面里是他的客戶，正對(duì)著鏡頭完成身份核驗(yàn)——語(yǔ)速正常、表情自然，連左眉那道小疤痕都清晰可見(jiàn)。但音頻要求轉(zhuǎn)賬的指令，客戶本人從未說(shuō)過(guò)。這不是換臉，而是更隱蔽的"唇形同步"偽造：真臉配假嘴型，傳統(tǒng)檢測(cè)工具幾乎全部失效。

這種技術(shù)正在快速滲透高價(jià)值詐騙場(chǎng)景。與早期"整張臉替換"的粗糙方案不同，新一代攻擊保留了目標(biāo)人物100%真實(shí)的面部幾何結(jié)構(gòu)、皮膚紋理甚至微表情習(xí)慣。攻擊者只需替換嘴部區(qū)域，讓畫(huà)面中的人"說(shuō)出"任意音頻內(nèi)容。對(duì)于依賴邊界偽影檢測(cè)的算法而言，這相當(dāng)于在真臉上做局部手術(shù)——面部核心特征庫(kù)完全匹配，系統(tǒng)自然放行。

CVPR等頂會(huì)發(fā)表的研究揭示了關(guān)鍵突破口：音視頻距離指標(biāo)。真實(shí)視頻中，口型與聲波的同步誤差中位數(shù)約為0.16；而唇形偽造內(nèi)容即便質(zhì)量較高，這一數(shù)值通常落在0.63至0.66區(qū)間。0.5左右的量化差距，成為算法可捕獲的數(shù)學(xué)痕跡。更深層的漏洞在于雙唇音的物理約束——發(fā)"p""b""m"等音時(shí)，上下唇必須閉合接觸。生成模型為追求實(shí)時(shí)渲染速度，常在復(fù)雜口腔區(qū)域偷工減料，導(dǎo)致幀間牙齒位置漂移或齒列模糊。

CaraComp采用的歐幾里得距離分析法，將檢測(cè)策略從"人群掃描"轉(zhuǎn)向"側(cè)向比對(duì)"。通過(guò)將可疑視頻幀與經(jīng)核實(shí)的基準(zhǔn)圖像進(jìn)行面部幾何比對(duì)，系統(tǒng)能識(shí)別出哪些點(diǎn)位被數(shù)學(xué)拉伸以適配合成模型。這種方案對(duì)實(shí)時(shí)視頻API場(chǎng)景尤為關(guān)鍵：100毫秒渲染壓力迫使模型犧牲空間精度換取時(shí)間連貫性，而牙齒區(qū)域的幀間不一致性正是可量化的取證錨點(diǎn)。

調(diào)查技術(shù)的演進(jìn)方向正在從"識(shí)別偽造"轉(zhuǎn)向"量化偏差"。無(wú)論是開(kāi)源情報(bào)研究員還是開(kāi)發(fā)者，核心目標(biāo)都是彌合身份鴻溝——為獨(dú)立調(diào)查者提供與大型機(jī)構(gòu)同等精度的歐幾里得分析能力，讓法庭認(rèn)可的差異報(bào)告成為標(biāo)配工具。當(dāng)詐騙者開(kāi)始用真臉說(shuō)話時(shí)，檢測(cè)方必須學(xué)會(huì)測(cè)量嘴型與聲音的數(shù)學(xué)距離。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.