網易首頁 > 網易號 > 正文申請入駐

土耳其頂尖高校最新研究：讓手機AI訓練既保護隱私又少傳數據

2026-05-07 21:03:45　來源: 科技行者

北京舉報

分享至

這項由土耳其蓋布澤理工大學計算機工程系主導的研究，發表于2025年3月的IEEE Access期刊第13卷，論文編號為DOI: 10.1109/ACCESS.2025.3554138，有興趣深入了解的讀者可通過該編號查詢完整原文。

當你在手機上使用輸入法、人臉解鎖或醫療健康應用時，手機背后的AI其實一直在悄悄學習。但這里有個棘手的問題：AI要變聰明，就需要大量數據；可數據里偏偏藏著你的隱私。為了解決這個矛盾，科學家發明了一種叫做"聯邦學習"的訓練方式。用一句話概括，這套方法的核心思路是：數據不出門，但經驗可以共享。每部手機只把自己學到的"經驗總結"上傳給中央服務器，而不是把原始數據交出去，服務器把所有人的經驗匯總后，再把升級后的AI模型發回給每部手機。

然而，這套看似完美的方案在實際落地時面臨兩道難關。第一道難關是通信堵塞：每次手機把經驗總結上傳、再把新模型下載回來，傳輸的數據量巨大，對于網速慢、流量有限的手機用戶來說，這簡直是一場噩夢。第二道難關是隱私泄露：即便沒有上傳原始數據，研究人員發現，光是分析那些"經驗總結"（也就是模型更新的參數），有時也能反推出你的原始數據，比如你輸入過哪些敏感詞匯，甚至是銀行卡號。

為了同時攻克這兩道難關，蓋布澤理工大學的研究團隊提出了一套"雙保險"組合方案：一邊給數據"加密"（通過差分隱私技術注入噪音），一邊給數據"壓縮"（通過自適應量化技術降低精度），讓傳輸的數據既更小，又更難被破解。這項研究最引人關注的地方，在于它是目前已知首批在"數據分布極度不均勻"的真實環境下、并且在多達1000個客戶端的大規模場景里，同時測試這兩種技術組合效果的研究。實驗結果相當亮眼：與不壓縮的標準傳輸方式相比，在手寫數字識別任務上通信數據量最高可削減52.64%，在圖像分類任務上可削減45.06%，而模型的識別準確率幾乎沒有明顯下降。

一、聯邦學習到底是怎么工作的，為什么單靠它還不夠安全？

把聯邦學習的工作流程理解成一場跨城市的烹飪大賽，也許是最直觀的方式。假設全國有1000位廚師，每人手里都有一份私家食譜（這就是他們的本地數據）。賽事主辦方（也就是中央服務器）想培養出一位集眾家之長的"超級廚師AI"，但每位廚師都不愿意把食譜的原稿寄出去。于是，規則改成這樣：每位廚師按照主辦方發來的"參考菜譜"在家練習，然后只把自己練習后總結出的"改進心得"郵寄回主辦方；主辦方把所有人的心得匯總，生成一份更好的參考菜譜，再寄給所有人。這個過程反復進行1000輪，最終大家共同煉就了一份頂級菜譜。

這套流程里有一個關鍵操作，叫做FedAvg（聯邦平均）：每一輪結束時，服務器按照每位廚師練習食材的多少（也就是數據量的大小），給他們的"心得"賦予不同的權重，然后加權平均，生成新的全局模型。數據多的廚師，他的心得在匯總時占的份量更重一些，因為他積累了更多的實戰經驗。

然而，這套方案有一個隱患被后來的研究者揭穿了。通過精密的數學分析，有人發現，只要仔細觀察那些"改進心得"的細節，就能大致猜出某位廚師原本在練習什么菜。比如，美國卡內基梅隆大學的研究人員就證明過，僅僅通過分析一個用于預測文字的神經網絡所上傳的模型更新，就能把用戶打過的信用卡號等極度敏感的信息還原出來。換句話說，聯邦學習只保護了數據的"肉身"，但數據留下的"影子"依然可能泄露。

除了隱私問題，還有另一個讓工程師頭疼的現實困境——數據分布不均勻，學術界稱之為"非獨立同分布"（Non-IID）。繼續用烹飪比賽的比喻：如果1000位廚師里，有800位專門做川菜，有100位專門做粵菜，只有100位什么都做，那么匯總出來的"超級菜譜"就會嚴重偏向川菜，對粵菜一竅不通。在真實的手機用戶場景中，這種不均勻性極為普遍——每個用戶的習慣、所在地區、使用場景都天差地別，他們手機里積累的數據當然也大不相同。這種不均勻性會讓AI訓練變得極不穩定，收斂變慢，甚至根本學不好。

二、"加密"這步怎么做——拉普拉斯噪音的隱私防護邏輯

為了給那些"改進心得"蓋上一層面紗，研究團隊引入了一種叫做"差分隱私"的技術。這個概念初聽起來有些玄乎，但核心思路其實非常樸素：在你上傳"心得"之前，故意往里面混入一些隨機的雜音，讓別人就算截獲了心得，也很難從中精確還原出你的原始數據。

衡量隱私保護強度的指標叫做隱私預算（用希臘字母ε表示）。ε越小，加入的雜音越多，隱私保護越強，但AI學到的東西也越失真；ε越大，加入的雜音越少，AI學得更準，但隱私防護也更薄弱。這就像給一張照片打馬賽克：馬賽克越粗，臉越認不出來（隱私越安全），但圖片也越模糊（準確率越低）。

這套框架有一個關鍵的設計參數叫做δ，代表"隱私意外泄露的概率"。該研究選擇將δ設置為0，意味著隱私保護是絕對的、沒有任何意外泄露的概率存在，這是最嚴格的隱私保證級別。

在具體選擇噪音類型時，研究團隊選擇了"拉普拉斯分布"噪音，而不是目前業界更常用的"高斯分布"噪音。兩者的區別可以這樣理解：在數軸上，高斯噪音像一座寬而矮的小山，中間最厚、兩邊慢慢變薄；拉普拉斯噪音則像一座尖而陡的山峰，中間極厚、兩邊急劇變薄。這種形狀差異讓拉普拉斯噪音在保護同等強度隱私的前提下，對數據造成的失真更小。更重要的是，拉普拉斯噪音對應的"敏感度"度量方式是L1范數（可以粗略理解為絕對值之和），而高斯噪音對應L2范數（可以粗略理解為平方和的平方根）。對于聯邦學習里上傳的模型參數這類有明確邊界的數值，L1范數往往能給出更緊湊、更精確的隱私界，加入的噪音也就可以更少。

在實際操作中，每次客戶端在本地訓練完模型后，首先要對梯度（可以理解為"改進方向"）做一步"裁剪"——把每個方向上的變化幅度限制在一個閾值ξ以內，防止任何一個樣本對整體更新產生過大影響。實驗中，研究團隊測試了ξ=10、20、50、100以及無上限這幾個檔位。結果發現，ξ=100時，在MNIST手寫數字數據集上準確率為93.71%，在CIFAR10圖像分類數據集上為75.30%，與沒有裁剪時（分別為98.93%和81.97%）相比，差距可以接受，而且這個值能保持訓練穩定性，因此被選為后續實驗的默認設置。

裁剪完成后，系統會根據每個客戶端的數據量大小、訓練輪數等參數，自動計算出該加入多少拉普拉斯噪音。數據量越少的客戶端，噪音越大（因為單個樣本的影響力越強，越需要掩蓋）；數據量越多的客戶端，噪音可以相對少一些。這一設計使得整個系統能根據每個客戶端的具體情況動態調整保護強度。

實驗結果揭示了一個有趣的規律：客戶端數量越多，每個客戶端分到的數據就越少，系統就需要加入更多噪音，模型準確率也就越低。在50個客戶端的情況下，ε=10000時MNIST準確率可達93.22%，CIFAR10可達75.46%；但當客戶端數量增加到1000個時，同樣的ε=10000在CIFAR10上只能達到31.19%，甚至無法正常收斂，必須把ε提高到500000以上才能讓模型正常運轉。

三、"壓縮"這步怎么做——自適應量化如何給數據瘦身

解決了隱私問題，下一步是解決通信效率問題。在AI訓練中，模型的參數通常用32位浮點數來表示，就像一把有32個刻度的尺子，精度極高。但如果把這把尺子換成8個刻度（8位整數），精度下降了，但存儲和傳輸所需的空間也只有原來的四分之一。這個過程就叫做"量化"。

量化最直接的方式是固定用某個位數，比如全程用8位或16位。但研究團隊認為，固定位數太死板：訓練剛開始時，模型還在快速調整，需要高精度來準確傳達"改進方向"；等訓練到后期，模型已經趨于穩定，每次更新的幅度很小，用低精度就夠了。因此，他們提出了一種"隨訓練進程動態降低精度"的方案，并用"余弦退火"曲線來控制這個降低過程。

余弦退火這個名字聽起來很物理，但實際上只是一條特定形狀的曲線：開始時下降緩慢，中間加速，快到終點時再次減緩。這條曲線描述的是量化精度隨訓練輪次的變化方式——從最初的32位出發，沿著這條平滑的曲線一路降至最低設定值（在MNIST和CIFAR10實驗中設為8位，在醫學圖像實驗中設為12位）。平滑降低的好處是，模型有充裕的時間適應精度變化，不會因為某一輪突然從32位跌到8位而產生劇烈震蕩。

這是第一種方案，研究中稱為"Cosine"方案，服務器下發模型給客戶端時，以及客戶端上傳更新給服務器時，都遵循同一條余弦退火曲線，所有客戶端的壓縮力度完全相同。

第二種方案更加精細，稱為"Dynamic"方案，核心思想是：不同客戶端對模型訓練的貢獻不同，貢獻大的客戶端應該用更高精度傳輸，讓其更新充分體現在全局模型中；貢獻小的客戶端可以用更低精度，省下通信資源。

衡量每個客戶端"貢獻度"的方法叫做"香農熵"，這是信息論里的一個經典指標，可以理解為數據內容的豐富程度。如果一個客戶端的數據里每種類別都有，分布很均勻，就像一個什么菜都做的全能廚師，熵值高，說明這個客戶端掌握的信息多樣、全面，對訓練整體模型非常有價值。反之，如果客戶端的數據里99%都是同一類，就像一個只會做一道菜的偏科廚師，熵值低，對全局模型的幫助相對有限。

除了數據多樣性，客戶端的數據量也很重要——數據越多，統計上越可靠，更新的質量也更高。于是，研究團隊把這兩個因素合并成一個綜合"重要性評分"（用νi表示），通過一個可調節的權重參數λh（范圍在0到1之間）來平衡兩者的影響。νi最終映射到量化精度上：重要性越高，分配到的量化位數越多；重要性越低，分配到的位數越少。

在具體量化實現上，研究團隊采用的是"隨機均勻量化"配合"對稱量化"。前者的特點是，在把一個小數轉換為整數時，不是簡單地四舍五入，而是按照距離遠近以概率決定取哪個整數——比如3.7，有70%的概率取4，30%的概率取3。這種概率化的取整方式從統計上保證了量化的無偏性，即大量數據平均下來，量化后的值等于量化前的真實值，不會系統性地偏高或偏低。

四、實驗怎么設計的，結果又說明了什么？

為了讓結論有足夠的說服力，研究團隊設計了一套涵蓋多個數據集、多種客戶端規模、多種隱私預算的大規模實驗體系，全部運行在一臺配備NVIDIA RTX 3090顯卡的單機上，使用FedML這一聯邦學習框架完成。

在標準數據集部分，他們使用了MNIST（手寫數字，10個類別，約6.2萬訓練樣本）和CIFAR10（彩色圖像，10個類別，5萬訓練樣本）兩個經典數據集，分別對應一個簡單的兩層卷積神經網絡（約160萬參數）和一個被稱為VGG7的更復雜網絡（約30萬參數）。客戶端數量分別設為50、100、200和1000，并保持"每輪參與訓練的客戶端數量 = 總客戶端數量 × 10%"的比例，比如1000個客戶端時每輪抽取100個參與。總訓練輪數為1000輪，每個客戶端本地訓練5個epoch，批次大小為64，使用SGD優化器，學習率0.1。

為了模擬現實中的數據不均勻性，CIFAR10數據集用Dirichlet分布（參數α=0.5）打散分配給各個客戶端，讓某些客戶端的數據嚴重偏向某幾個類別；MNIST數據集則直接按原始來源（來自1000名不同書寫者）自然分配，每個客戶端只有兩種數字的樣本，天然構成了不均勻分布。

對比實驗中，團隊測試了固定4位、固定8位、固定16位、固定32位（浮點數）這四種靜態量化方案，以及Cosine和Dynamic兩種自適應量化方案。結果非常清晰地呈現了一個規律：4位量化雖然數據量最小，但嚴重破壞了模型更新的信息，尤其在非均勻數據分布下會導致訓練過程劇烈震蕩甚至崩潰，根本無法使用。8位量化在大多數情況下表現出色，準確率接近32位，通信量只有32位的四分之一，是靜態量化里性價比最高的選擇。

自適應方案中，Cosine方法相比32位訓練平均減少了約37.46%的通信量，而Dynamic方法更進一步，在MNIST上減少了49.54%到52.64%，在CIFAR10上減少了43.45%到45.06%，且準確率與32位訓練相當甚至略有超出。以1000個客戶端為例，Dynamic方案在MNIST上達到65.55%的準確率（32位為66.50%，差距極小），但通信量從1239.31GB壓縮到586.92GB，節省了超過一半。同樣情形下，CIFAR10的Dynamic方案準確率為59.51%（32位為59.35%，基本持平），通信量從242.67GB壓縮到133.32GB。

在λh參數（平衡數據多樣性與數據量兩個因素的權重）的調優實驗中，研究發現，當客戶端數量較少時，數據多樣性（熵）對準確率的影響更顯著，λh取0.5到0.75之間效果最好；當客戶端數量增多（如1000個），每個客戶端的數據量急劇減少，這時數據量本身變得更關鍵，λh偏小（如0.25）在通信效率上更占優勢。綜合考量后，團隊在后續所有實驗中統一采用λh=0.75作為默認值。

五、醫學圖像上的表現如何——更接近真實世界的測試

為了讓研究結論更具現實說服力，團隊還在三個醫學圖像數據集上進行了進一步驗證，因為醫療場景對隱私保護的要求極高，同時數據量通常有限、分布極不均勻。

三個數據集分別是PAP-Smear（宮頸細胞圖像，5個類別，共4049張）、Pneumonia（胸部X光肺炎診斷，2個類別，共5856張）和BreakHisV1（乳腺癌組織病理圖像，2個類別，共7909張）。這次實驗使用的是在ImageNet上預訓練過的EfficientNet-B0模型，這是一種參數效率極高的輕量級網絡，廣泛用于醫學圖像分析。實驗規模設為10個客戶端，訓練100輪，評估指標除準確率外還包括精確率、召回率、F1分數以及平衡準確率（BACC）。量化的最低位數設為12位（而不是之前的8位），因為在這些復雜醫學圖像上，更低精度會導致模型完全崩潰。

結果顯示，在PAP-Smear數據集上，Dynamic方案將通信量從30.22GB壓縮到19.00GB，降幅約37%，BACC從91.03%小幅下降至89.59%，F1分數從89.96%降至89.41%，代價相當小。在Pneumonia數據集上，Cosine方案將通信量壓縮至20.85GB（降幅31%），F1分數從93.99%微降至93.79%，幾乎沒有損失。在BreakHisV1數據集上，Dynamic方案通信量從30.22GB壓縮至18.43GB（降幅約39%），F1分數從91.44%降至87.03%，降幅稍大，但仍處于可接受范圍。

這組實驗還揭示了一個值得關注的現象：在醫學圖像場景下，有時固定16位量化的表現反而優于Cosine和Dynamic方案，不僅準確率更高，通信量有時也更少。原因在于，自適應方案在訓練初期會短暫使用較高位數，這在某些特定訓練階段反而形成了額外的通信開銷。此外，拉普拉斯噪音與量化誤差的疊加效應，在復雜模型上會產生比較大的方差，導致BACC曲線比32位訓練更加抖動、不穩定，這是目前方案的一個明顯局限。

六、這項研究有什么做得到位的地方，又有什么潛在局限？

這套方案有幾處設計值得一提。首先，兩步噪音——先加拉普拉斯噪音、再量化——的組合在理論上是無偏的：拉普拉斯噪音的均值為零，不會系統性地拉偏參數；隨機均勻量化的期望值也等于原始值。因此，雖然兩步操作都增加了方差（讓結果更不穩定），但不會讓模型系統性地偏向錯誤方向，這是這套方案能在大規模實驗中保持競爭力的重要原因。

其次，香農熵的計算復雜度是線性的——處理多少個樣本就花多少時間，不會隨著數據量增大而急劇膨脹，在實際工程中完全可行。

然而，方案也有幾處明顯的局限。Dynamic方案中的λh參數需要針對具體應用場景進行調優，沒有放之四海而皆準的最優值，這在真實部署中增加了工程復雜度。更深層的問題在于，現有的客戶端重要性評估只考慮了數據的數量和分布均勻性，并沒有考慮數據的質量——一個數據量大、分布均勻但標注錯誤率很高的客戶端，在當前方案下會被賦予很高的重要性，反而可能拉低全局模型的質量。研究團隊在論文中也承認了這一點，并指出未來可以引入數據價值估計等更精細的機制來彌補這一不足。

此外，當前實驗全部在單機模擬環境下完成，雖然測試了多達1000個客戶端，但畢竟不是真實的分布式網絡環境。在真實網絡中，延遲、丟包、客戶端隨機掉線等因素都會對方案的實際表現產生影響，這是從實驗室走向真實產品部署時必須面對的工程挑戰。

說到底，這項研究做的事情可以用一句話概括：在保護你隱私的同時，還幫你省流量。兩件事放在一起做，原本各自都不容易，放在一起更難，尤其是在數據極度不均勻、設備數量龐大的真實場景下。這個研究給出了一套經過大量實驗驗證的可行方案，證明這兩件事可以同時做，而且代價（準確率損失）比人們預想的要小得多。

對于普通人來說，這意味著什么？可以這樣理解：如果未來你的手機醫療APP、輸入法或者語音助手背后用了這套技術，你的隱私數據不僅不會離開你的手機，就連那些"學習心得"也被加了保險，同時每次訓練消耗的流量還能減少將近一半。對于網速慢、流量貴的用戶來說，這是實實在在的改善。

當然，這套方案目前仍處于研究階段，從論文到產品落地還有很長的路要走。研究團隊表示，下一步他們希望探索更先進的客戶端重要性評估方法，并考慮引入安全多方計算等更強的隱私保護機制，進一步強化系統的整體安全性。對這一話題感興趣的讀者，可以通過DOI: 10.1109/ACCESS.2025.3554138查找原論文，或在IEEE Xplore數據庫中搜索Access期刊2025年第13卷的相關內容。

Q&A

Q1：聯邦學習為什么還需要差分隱私，本來不是已經不上傳原始數據了嗎？

A：聯邦學習確實不傳原始數據，但研究發現，僅僅通過分析上傳的模型參數更新，攻擊者有時可以反推出原始數據的敏感內容，比如用戶輸入過的信用卡號等。差分隱私通過在上傳前往參數里加入隨機噪音，讓這種反推變得極為困難，從而形成雙重保護。

Q2：自適應量化里的"香農熵"具體是怎么衡量客戶端數據質量的？

A：香農熵衡量的是數據中各類別分布的均勻程度。如果一個客戶端的數據涵蓋了很多類別且每類數量差不多，熵值就高，說明數據信息豐富；如果數據幾乎全是同一類，熵值就低。研究中把熵值高（數據多樣）和數據量大的客戶端判定為"貢獻度高"，在傳輸時分配更高的量化精度，讓其更新信息更完整地體現在全局模型中。

Q3：為什么醫學圖像實驗中最低量化位數要設12位，而不是像普通數據集那樣用8位？

A：醫學圖像分類任務使用的EfficientNet-B0是一個更復雜的預訓練模型，其參數對精度損失更敏感。實驗中發現，將量化精度降到8位以下時，模型完全無法正常收斂訓練，識別能力崩潰。因此12位被選為該場景下的最低可用精度，在通信效率和模型穩定性之間取得平衡。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.