網易首頁 > 網易號 > 正文申請入駐

從預測結構到找到藥物，科學家們，正被數據短缺深深困擾！

2026-05-10 18:00:20　來源: 春風笑語

四川舉報

分享至

藥物研發領域長期存在一個隱秘的瓶頸，不是缺少算法，而是缺少數據。2026年5月，由英國Diamond光源主導的OpenBind聯盟正式發布首個公開數據集和人工智能預測模型，標志著這場"數據荒"迎來了真正意義上的破局時刻。

過去幾年，AI在蛋白質結構預測領域的成就令人矚目。AlphaFold2的橫空出世幾乎在一夜之間改變了結構生物學的面貌，讓科學家能夠以前所未有的精度預測蛋白質的三維結構。

但從"預測蛋白質結構"到"找到有效藥物"，中間還隔著一道幾乎同樣寬闊的鴻溝。藥物研發的核心問題，是弄清楚一個藥物分子如何與疾病相關蛋白結合，結合有多緊密，以原子級的精度。

這類數據在全球范圍內極為稀缺，現有的公開蛋白質數據庫（PDB）雖然積累了海量蛋白質結構，但配套的結合親和力測量數據極少，而且往往質量參差不齊。哥倫比亞大學的穆罕默德·阿爾庫拉伊希教授曾直言，AlphaFold2之所以能夠成功，恰恰是因為它站在了幾十年蛋白質結構實驗數據的肩膀上。但類似的蛋白質與藥物分子結合的數據集，目前根本不存在。

OpenBind的目標，正是填補這個空白。

這次首批發布的數據集，針對的靶點是腸道病毒A71（EV-A71）的2A蛋白酶。這一病毒是手足口病的重要病原體，在全球兒童中引發大規模流行，目前仍缺乏有效的抗病毒藥物。

數據集包含來自699個化合物的925個晶體學結合事件，以及601個化合物的結合親和力（KD值）測量數據。換句話說，研究人員不僅看到了藥物分子如何與蛋白質"握手"，還量化了這次握手有多用力。

這批數據已通過Zenodo平臺以CC0協議完全開放，這意味著全球任何研究人員都可以免費下載、使用，無須任何授權限制。

更重要的是，OpenBind同步發布了基準測試結果，系統評估了當前主流AI方法在這批新數據上的表現，涵蓋傳統對接工具如AutoDock Vina、基于機器學習的對接方法如GNINA和DiffDock，以及協同折疊模型如AlphaFold3、Boltz和OpenFold3。

結果既令人振奮，也讓人清醒。在"重對接"任務中，也就是提供正確的蛋白質結構直接預測配體位姿，GNINA的成功率高達85%，表現強勁。但一旦切換到"交叉對接"場景，也就是使用未結合配體的蛋白質apo結構，所有方法的成功率都驟降至5%以下。這個失敗幾乎完全源于蛋白質結合位點的構象變化，一個活性位點的微小環形結構在沒有配體時會發生偏移，擋住了結合口袋，讓所有方法束手無策。

協同折疊方法在一定程度上繞過了這個問題，但成功率仍低于重對接。值得注意的是，一個令人意外的發現來自片段篩選數據的應用：當研究人員用片段篩選得到的結合結構對OpenFold3-p2進行微調之后，其成功率從36%躍升至76%，接近擁有"作弊優勢"的重對接水平。

這說明片段篩選數據不只是藥物化學的起點，它還可以是AI模型學習蛋白質結合偏好的寶貴訓練材料，這恰好是OpenBind整個數據生成邏輯的核心所在。

在親和力預測方面，結果則讓人更加警醒。大多數結構化AI模型的預測表現僅比最簡單的基線（分子量）強一點點，部分方法甚至還不如分子量這個樸素指標。

牛津大學的弗格斯·伊姆里博士對此直言："高質量實驗數據對于開發新型和改進型AI模型至關重要，而當前親和力預測的困難恰恰說明，我們還需要更多、更好的數據來驅動這一領域的真正進步。"

OpenBind的計劃是持續推進。未來的數據集將覆蓋更多疾病靶點，包括瘧疾、登革熱、寨卡病毒和癌癥，并將舉辦社區盲測挑戰賽，讓全球研究團隊在不知道答案的情況下競爭預測新數據。

從AlphaFold2的成功可以看出，當數據積累到足夠的規模和質量時，AI的突破往往只是時間問題。OpenBind這臺"數據引擎"剛剛啟動，但它所指向的方向，很可能是AI藥物研發下一次真正飛躍的起點。

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.