![]()
撰文丨王聰
編輯丨王多魚
排版丨水成文
微生物為了生存競爭,進化出了合成各種復雜的次級代謝產(chǎn)物(Secondary Metabolite)的能力,例如青霉菌產(chǎn)生的青霉素,這些次級代謝產(chǎn)物是天然的藥物寶庫。這些次級代謝產(chǎn)物主要從培養(yǎng)的微生物物種中發(fā)現(xiàn),然而,自然界中 99% 的微生物根本無法在實驗室中人工培養(yǎng)。
隨著測序技術(shù)發(fā)展,我們可以輕易讀取環(huán)境中微生物的 DNA,并從中發(fā)現(xiàn)那些負責生產(chǎn)小分子的“生物合成基因簇”(biosynthetic gene cluster,BGC),相當于找到了微生物體內(nèi)的“化工廠圖紙”。但尷尬的局面出現(xiàn)了——傳統(tǒng)的預測工具(例如 antiSMASH、PRISM)主要依賴“死記硬背”的預設(shè)化學反應規(guī)則庫。面對海洋等極端環(huán)境中那些前所未見的“隱秘 BGC”,由于酶的非典型排列組合和極高的底物容錯性,傳統(tǒng)工具直接罷工,難以將基因組序列轉(zhuǎn)化為精確的化學結(jié)構(gòu)。
2026 年 4 月 30 日,復旦大學微生物組中心趙國屏/焦娜團隊聯(lián)合同濟大學朱瑞新團隊和中國科學院上海營養(yǎng)與健康研究所張國慶團隊(徐挺軍、楊雨薇為論文共同第一作者),在Nature Computational Science期刊發(fā)表了題為:DeepSeMS: revealing the hidden biosynthetic potential of the global ocean microbiome with a large language model 的研究論文。
該研究提出了一個基于 Transformer 架構(gòu)的生成式人工智能模型——DeepSeMS,可從微生物生物合成基因簇(biosynthetic gene cluster,BGC)直接預測次級代謝產(chǎn)物結(jié)構(gòu),實現(xiàn)從微生物生物合成編碼到候選分子空間的系統(tǒng)轉(zhuǎn)譯。
將 DeepSeMS 應用于全球海洋宏基因組,一次性預測了超過 60000 種次級代謝產(chǎn)物,并揭示了其化學多樣性、生態(tài)特異性和巨大的生物醫(yī)學潛力,尤其是作為新型抗生素的潛力。這項研究突顯了深度學習驅(qū)動方法在揭示地球上最大但尚未充分探索的微生物生態(tài)系統(tǒng)中隱藏的生物合成潛力的強大能力。
![]()
DeepSeMS:當微生物基因遇上大語言模型
為了攻克這個難題,研究團隊決定引入大語言模型(LLM),從而把“結(jié)構(gòu)預測”變成了一個“語言翻譯”問題。
這是一個基于 Transformer 架構(gòu)的大語言模型——DeepSeMS,能夠從生物合成基因簇(BGC)序列中準確預測次級代謝產(chǎn)物化學結(jié)構(gòu)(Secondary Metabolite Chemical Structure),其工作原理極其精妙:
1、創(chuàng)造一套跨界的“雙語詞典”,輸入端(生物語言)沒有使用冗長復雜的原始基因堿基序列,而是將其濃縮為具有生化功能的“蛋白質(zhì)結(jié)構(gòu)域”(Pfam 標識符)。這種表示法既保留了關(guān)鍵的催化信息,又極大提升了計算效率。輸出端(化學語言):采用 SMILES 字符串(一種用 ASCII 字符表示化學分子結(jié)構(gòu)的國際通用標準)作為輸出格式。
2、特征對齊的數(shù)據(jù)增強,AI 大模型的訓練需要海量數(shù)據(jù),但目前人類實驗驗證過的 BGC-代謝產(chǎn)物配對數(shù)據(jù)非常有限(僅幾千條)。為此,研究團隊首創(chuàng)了“特征對齊的 SMILES 枚舉法”。相比于隨機打亂分子式,這種方法在保留核心化學骨架不變的前提下,變換外圍基團的表達形式。這不僅讓模型學會了化學語法,還牢牢記住了生物合成的底層邏輯。
3、十倍交叉驗證集成,在自然界,同一個基因簇往往能通過不同的代謝路徑,生產(chǎn)出多種結(jié)構(gòu)迥異的分子。DeepSeMS 采用了集成學習框架,每次預測都會給出多個候選結(jié)構(gòu),完美契合了生物系統(tǒng)的真實復雜性。
![]()
從 BGC 序列預測次級代謝產(chǎn)物化學結(jié)構(gòu)的 DeepSeMS 框架概述
降維打擊:“破譯”96.38% 的未知基因簇
為了檢驗這位“跨界翻譯官”的真實水平,研究團隊拿它和領(lǐng)域內(nèi)的標桿工具(antiSMASH7 和 PRISM4)進行了一場正面 PK。
第一輪測試:已知結(jié)構(gòu)的 BGC,DeepSeMS 以絕對優(yōu)勢碾壓對手:
預測成功率(算出有效化學結(jié)構(gòu)):高達 97.55%(PRISM4為 88.96%,antiSMASH7 僅為 63.50%)。
結(jié)構(gòu)恢復率(算出的結(jié)構(gòu)與真實自然產(chǎn)物完全一致):達到了驚人的 41.10%(PRISM4為 8.90%,antiSMASH7 為 0%)。
即使在極度嚴苛的條件下(測試數(shù)據(jù)與訓練數(shù)據(jù)相似度極低),DeepSeMS 依然保持了相當高的準確率,證明了它不是靠“死記硬背”拿高分,而是真正理解了生物合成的規(guī)律。
第二輪測試:來自深海的“隱秘 BGC”,面對 940 個完全未知的神秘基因簇,DeepSeMS 大放異彩,成功為其中 906個(96.38%)生成了合理的化學結(jié)構(gòu)。相比之下,antiSMASH7 和 PRISM4 的成功率只有 16.91% 和 46.45%。
更令人驚喜的是,DeepSeMS 甚至能根據(jù)基因編碼的酶類功能,準確推斷出產(chǎn)物的碳骨架和糖基化修飾等微觀特征,做到了真正的“懂它所做的,而不僅僅是猜它像誰”。
從海水中打撈出 6 萬種潛在新藥
海洋覆蓋了地球 71% 的面積,是我們這顆星球上最大、也最未被開發(fā)的微生物生態(tài)系統(tǒng)。擁有了 DeepSeMS 這把“金剛鉆”,研究團隊立刻將目光投向了全球海洋微生物組數(shù)據(jù)庫。
結(jié)果堪稱史詩級大豐收:通過一次性分析近 2.7 萬個宏基因組組裝基因組中的 4.5 萬多個 BGC,DeepSeMS 預測出了60327種獨特的次級代謝產(chǎn)物。
對這些次級代謝產(chǎn)物的深度分析顯示:
極高的新穎性:97% 的預測分子與目前已知的天然產(chǎn)物庫完全不同;69% 預測分子的核心化學骨架是全新的。
明顯的地理分布特征:北冰洋擁有的獨特分子最多,而南大洋的分子多樣性最高。深海、低氧和特定溫度環(huán)境孕育了結(jié)構(gòu)更為奇特的分子。
巨大的醫(yī)藥潛力:通過虛擬篩選,研究團隊從中鎖定了 7554 種含有已知抗生素核心特征(例如 β-內(nèi)酰胺類、四環(huán)素類等結(jié)構(gòu)基序)的候選分子!這些分子擁有不同于現(xiàn)有藥物的側(cè)鏈修飾,極有可能成為對抗多重耐藥菌的新型武器。此外,還發(fā)現(xiàn)了大量與抗壓保護物質(zhì)(例如 ectoine)相關(guān)的全新分子。
從只能依靠運氣在培養(yǎng)皿里“碰運氣”,到在電腦前用大模型“算答案”,DeepSeMS 的誕生標志著我們在探索天然產(chǎn)物未知領(lǐng)域的道路上邁出了一大步。
![]()
將生物多樣性轉(zhuǎn)化為化學多樣性
此外,研究團隊還構(gòu)建了 DeepSeMS 在線平臺,用戶可提交 antiSMASH、DeepBGC 等工具生成的 BGC 注釋文件,或輸入 antiSMASH job ID,獲得候選分子結(jié)構(gòu)、預測分數(shù)、分子性質(zhì)、新穎性評估及潛在抗生素相關(guān)信息。該平臺還整合了全球海洋微生物次級代謝物資源,支持按海域、生態(tài)環(huán)境和 BGC 類型進行瀏覽、檢索和下載,為后續(xù)實驗驗證和天然產(chǎn)物發(fā)現(xiàn)提供資源基礎(chǔ)。
總的來說,該研究突顯了深度學習驅(qū)動方法在揭示地球上最大但尚未充分探索的微生物生態(tài)系統(tǒng)中隱藏的生物合成潛力的強大能力,為從生物多樣性(Biodiversity)到化學多樣性(Chemical diversity)的系統(tǒng)轉(zhuǎn)譯提供了一種可執(zhí)行的新范式。
論文鏈接:
https://www.nature.com/articles/s43588-026-00983-1
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.