網易首頁 > 網易號 > 正文申請入駐

Science advance | 跨靈長類預測框架，用人的數據訓練模型預測猴？

2026-04-21 12:09:57　來源: PsyBrain腦心前沿

北京舉報

分享至

認知神經科學前沿文獻分享

基本信息

Title:Cross-species prediction reveals chromatin regions with increased accessibility in humans

發表時間:2026-04-15

發表期刊:Science Advances

獲取原文:

1. 添加小助手:PSY-Brain-Frontier即可獲取PDF版本

引言

人與黑猩猩等近緣靈長類在基因組上高度相似，卻在腦體積、骨骼形態、體脂分布以及部分疾病易感性上表現出清晰差異。正因為蛋白編碼區差異并不大，越來越多研究把目光轉向非編碼調控區域：真正推動人類特異性狀出現的關鍵變化，可能并不主要來自“基因寫了什么”，而是來自“基因何時、何地、以多大強度被打開”。開放染色質區域（open chromatin regions, OCRs）正是這類調控活動的重要入口，因為它們往往對應啟動子、增強子等活躍調控元件。

不過，這個問題長期受制于一個現實瓶頸。傳統比較基因組學擅長利用保守性和進化速率尋找候選區域，例如人類加速區域，但它難以直接說明這些序列究竟在哪些細胞類型中發揮作用，也無法直接判斷它們是否真的改變了染色質可及性。另一條更直接的路，是跨物種比較 ATAC-seq 等功能組學數據，但非人靈長類樣本本就稀缺，組織與細胞類型覆蓋也有限，已有工作往往集中在少數腦組織，難以擴展到更廣泛的人體細胞圖譜。

實驗設計與方法邏輯

作者的設計分成遞進的三步。前一層是驗證跨物種預測是否成立：利用人、黑猩猩、獼猴的 bulk ATAC-seq 數據，以及腦 Brodmann 區 6 類細胞的 single-cell ATAC-seq 聚合數據，比較“各物種獨立訓練模型”和“僅用人類訓練后跨物種預測”的表現，并結合 integrated gradients 分析模型學到的轉錄因子基序是否跨物種一致。中間一層是把模型分數與真實差異對接：在人類 OCR 的同源序列上計算人類與猿類之間的預測差值 ΔPr，并檢驗其對實驗定義的人類可及性升高區域的富集。

核心發現

發現一：僅用人類數據訓練的 CNN，在近緣靈長類中仍能穩定預測染色質可及性

全文最關鍵的前提，是跨物種預測本身足夠可靠。Figure 1A-B 顯示，在淋巴母細胞系和前額葉膠質細胞等 bulk ATAC-seq 數據中，各物種獨立訓練模型在整條測試染色體上的 AUROC 多數高于 0.9，而僅用人類訓練的模型拿去預測黑猩猩和獼猴時，AUROC 與 AUPRC 幾乎沒有明顯下降；在單細胞聚合數據上，Figure 3A 也呈現出相近結論。這說明模型捕捉到的并不只是人類樣本的局部特征，而是近緣靈長類共享的調控序列規律。

Figure 1. Cross--species prediction of chromatin accessibility by CNNs

Figure 3. Cross--species predictive performance of the CNN on single--cell ATAC--seq

發現二：跨物種預測差值 ΔPr，與實驗測得的人類可及性升高存在穩定統計關聯

模型能跨物種預測，并不自動意味著它能反映物種間真正的調控差異。Figure 2A 的價值就在于把“預測分數”與“實驗差異”接了起來：在人類 OCR 的同源序列比較中，人類特異 peak 的 ΔPr 明顯高于共同 peak。以淋巴母細胞系為例，人-黑比較中人類特異 peak 的平均 ΔPr 為 0.03，而共同 peak 為 0.004；人-獼猴比較分別為 0.11 與 0.01。

Figure 2. Prediction performance of the CNNs on orthologous sequences

發現三：作者在 111 種細胞類型中系統識別出 hPICAs，這些區域更偏向核心調控元件并呈現選擇信號

在前兩步基礎上，論文真正的核心產出體現在 Figure 4。作者基于 111 種成人人類細胞類型分別訓練模型，并將人類序列與推斷的人類-黑猩猩祖先序列比較，結合 1000 次中性模擬評估顯著性，最終以 ΔPr > 0.3 且 adjusted P < 0.05 定義 hPICA。Figure 4B-C 說明各細胞類型模型整體表現穩定，也給出了 ΔPr 的總體分布背景；Figure 4D-F 則展示了這些區域的生物學性質。

Figure 4. Identification and characteristics of hPICAs

發現四：hPICAs 中的人類特異變異更可能通過改變潛在轉錄因子結合位點影響可及性，并與部分人類性狀相關

論文最后把分析從“區域層面”推進到“變異層面”和“表型線索層面”。Figure 5A 顯示，與 non-hPICAs 相比，hPICAs 中的人類特異單核苷酸變異和插入更常落在潛在細胞類型特異轉錄因子結合位點上，而刪除不顯著；Figure 5B 進一步表明，這種位點重疊在 hPICAs 中甚至高于傳統由保守性定義的人類加速區域（HARs），提示 hPICAs 更偏向捕捉可能真正改寫調控輸出的變異。

Figure 5. Features of genetic variants from ancestors to humans within hPICAs

歸納總結和點評

這項研究最突出的貢獻，不只是證明“人類數據訓練的模型可以跨靈長類預測染色質可及性”，而是把這種可遷移性真正轉化為一套可用于人類演化研究的發現框架：作者在 111 種細胞類型中系統識別出 23,414 個 hPICAs，顯示這些區域更具細胞類型特異性，更偏向啟動子和增強子，并帶有統計上的選擇信號；同時，區域內的人類特異變異更可能落在潛在轉錄因子結合位點上，并與骨量、體脂等性狀相關區域相連。它的意義在于，為非人靈長類表觀組數據稀缺這一長期難題提供了一條現實可行的替代路徑，把深度學習、祖先序列推斷和功能注釋整合起來，用于定位可能參與人類特異性狀形成的非編碼調控變化。但邊界也同樣清楚：hPICAs、本體變異效應以及與具體表型的聯系，目前仍主要建立在計算預測和統計關聯之上，距離“已被證明的功能機制”還有一步，后續仍需要報告基因、CRISPR 擾動和等位基因比較等實驗進一步驗證。

請打分

這篇剛剛登上 Science Advances 的研究，是否實至名歸？我們邀請您作為“云審稿人”，一同品鑒。精讀全文后，歡迎在匿名投票中打分，并在評論區分享您的深度見解。

分享人：BQ

審核：PsyBrain 腦心前沿編輯部

你好，這里是「PsyBrain 腦心前沿」

專注追蹤全球認知神經科學的最尖端突破

視野直擊 Nature, Science, Cell 正刊及核心子刊與頂級大刊

每日速遞「深度解讀」與「前沿快訊」

科研是一場探索未知的長跑，但你無需獨行。歡迎加入PsyBrain 學術社群，和一群懂你的同行，共同丈量腦與心智的無垠前沿。

點擊卡片進群，歡迎你的到來

一鍵關注，點亮星標 ? 前沿不走丟！

一鍵分享，讓更多人了解前沿

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.