藥物研發領域長期存在一個隱秘的瓶頸,不是缺少算法,而是缺少數據。2026年5月,由英國Diamond光源主導的OpenBind聯盟正式發布首個公開數據集和人工智能預測模型,標志著這場"數據荒"迎來了真正意義上的破局時刻。
過去幾年,AI在蛋白質結構預測領域的成就令人矚目。AlphaFold2的橫空出世幾乎在一夜之間改變了結構生物學的面貌,讓科學家能夠以前所未有的精度預測蛋白質的三維結構。
但從"預測蛋白質結構"到"找到有效藥物",中間還隔著一道幾乎同樣寬闊的鴻溝。藥物研發的核心問題,是弄清楚一個藥物分子如何與疾病相關蛋白結合,結合有多緊密,以原子級的精度。
這類數據在全球范圍內極為稀缺,現有的公開蛋白質數據庫(PDB)雖然積累了海量蛋白質結構,但配套的結合親和力測量數據極少,而且往往質量參差不齊。哥倫比亞大學的穆罕默德·阿爾庫拉伊希教授曾直言,AlphaFold2之所以能夠成功,恰恰是因為它站在了幾十年蛋白質結構實驗數據的肩膀上。但類似的蛋白質與藥物分子結合的數據集,目前根本不存在。
OpenBind的目標,正是填補這個空白。
![]()
這次首批發布的數據集,針對的靶點是腸道病毒A71(EV-A71)的2A蛋白酶。這一病毒是手足口病的重要病原體,在全球兒童中引發大規模流行,目前仍缺乏有效的抗病毒藥物。
數據集包含來自699個化合物的925個晶體學結合事件,以及601個化合物的結合親和力(KD值)測量數據。換句話說,研究人員不僅看到了藥物分子如何與蛋白質"握手",還量化了這次握手有多用力。
這批數據已通過Zenodo平臺以CC0協議完全開放,這意味著全球任何研究人員都可以免費下載、使用,無須任何授權限制。
更重要的是,OpenBind同步發布了基準測試結果,系統評估了當前主流AI方法在這批新數據上的表現,涵蓋傳統對接工具如AutoDock Vina、基于機器學習的對接方法如GNINA和DiffDock,以及協同折疊模型如AlphaFold3、Boltz和OpenFold3。
結果既令人振奮,也讓人清醒。在"重對接"任務中,也就是提供正確的蛋白質結構直接預測配體位姿,GNINA的成功率高達85%,表現強勁。但一旦切換到"交叉對接"場景,也就是使用未結合配體的蛋白質apo結構,所有方法的成功率都驟降至5%以下。這個失敗幾乎完全源于蛋白質結合位點的構象變化,一個活性位點的微小環形結構在沒有配體時會發生偏移,擋住了結合口袋,讓所有方法束手無策。
協同折疊方法在一定程度上繞過了這個問題,但成功率仍低于重對接。值得注意的是,一個令人意外的發現來自片段篩選數據的應用:當研究人員用片段篩選得到的結合結構對OpenFold3-p2進行微調之后,其成功率從36%躍升至76%,接近擁有"作弊優勢"的重對接水平。
這說明片段篩選數據不只是藥物化學的起點,它還可以是AI模型學習蛋白質結合偏好的寶貴訓練材料,這恰好是OpenBind整個數據生成邏輯的核心所在。
在親和力預測方面,結果則讓人更加警醒。大多數結構化AI模型的預測表現僅比最簡單的基線(分子量)強一點點,部分方法甚至還不如分子量這個樸素指標。
牛津大學的弗格斯·伊姆里博士對此直言:"高質量實驗數據對于開發新型和改進型AI模型至關重要,而當前親和力預測的困難恰恰說明,我們還需要更多、更好的數據來驅動這一領域的真正進步。"
OpenBind的計劃是持續推進。未來的數據集將覆蓋更多疾病靶點,包括瘧疾、登革熱、寨卡病毒和癌癥,并將舉辦社區盲測挑戰賽,讓全球研究團隊在不知道答案的情況下競爭預測新數據。
從AlphaFold2的成功可以看出,當數據積累到足夠的規模和質量時,AI的突破往往只是時間問題。OpenBind這臺"數據引擎"剛剛啟動,但它所指向的方向,很可能是AI藥物研發下一次真正飛躍的起點。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.