![]()
撰文丨王聰
編輯丨王多魚
排版丨水成文
微生物為了生存競爭,進化出了合成各種復雜的次級代謝產物(Secondary Metabolite)的能力,例如青霉菌產生的青霉素,這些次級代謝產物是天然的藥物寶庫。這些次級代謝產物主要從培養的微生物物種中發現,然而,自然界中 99% 的微生物根本無法在實驗室中人工培養。
隨著測序技術發展,我們可以輕易讀取環境中微生物的 DNA,并從中發現那些負責生產小分子的“生物合成基因簇”(biosynthetic gene cluster,BGC),相當于找到了微生物體內的“化工廠圖紙”。但尷尬的局面出現了——傳統的預測工具(例如 antiSMASH、PRISM)主要依賴“死記硬背”的預設化學反應規則庫。面對海洋等極端環境中那些前所未見的“隱秘 BGC”,由于酶的非典型排列組合和極高的底物容錯性,傳統工具直接罷工,難以將基因組序列轉化為精確的化學結構。
2026 年 4 月 30 日,復旦大學微生物組中心趙國屏/焦娜團隊聯合同濟大學朱瑞新團隊和中國科學院上海營養與健康研究所張國慶團隊(徐挺軍、楊雨薇為論文共同第一作者),在Nature Computational Science期刊發表了題為:DeepSeMS: revealing the hidden biosynthetic potential of the global ocean microbiome with a large language model 的研究論文。
該研究提出了一個基于 Transformer 架構的生成式人工智能模型——DeepSeMS,可從微生物生物合成基因簇(biosynthetic gene cluster,BGC)直接預測次級代謝產物結構,實現從微生物生物合成編碼到候選分子空間的系統轉譯。
將 DeepSeMS 應用于全球海洋宏基因組,一次性預測了超過 60000 種次級代謝產物,并揭示了其化學多樣性、生態特異性和巨大的生物醫學潛力,尤其是作為新型抗生素的潛力。這項研究突顯了深度學習驅動方法在揭示地球上最大但尚未充分探索的微生物生態系統中隱藏的生物合成潛力的強大能力。
![]()
DeepSeMS:當微生物基因遇上大語言模型
為了攻克這個難題,研究團隊決定引入大語言模型(LLM),從而把“結構預測”變成了一個“語言翻譯”問題。
這是一個基于 Transformer 架構的大語言模型——DeepSeMS,能夠從生物合成基因簇(BGC)序列中準確預測次級代謝產物化學結構(Secondary Metabolite Chemical Structure),其工作原理極其精妙:
1、創造一套跨界的“雙語詞典”,輸入端(生物語言)沒有使用冗長復雜的原始基因堿基序列,而是將其濃縮為具有生化功能的“蛋白質結構域”(Pfam 標識符)。這種表示法既保留了關鍵的催化信息,又極大提升了計算效率。輸出端(化學語言):采用 SMILES 字符串(一種用 ASCII 字符表示化學分子結構的國際通用標準)作為輸出格式。
2、特征對齊的數據增強,AI 大模型的訓練需要海量數據,但目前人類實驗驗證過的 BGC-代謝產物配對數據非常有限(僅幾千條)。為此,研究團隊首創了“特征對齊的 SMILES 枚舉法”。相比于隨機打亂分子式,這種方法在保留核心化學骨架不變的前提下,變換外圍基團的表達形式。這不僅讓模型學會了化學語法,還牢牢記住了生物合成的底層邏輯。
3、十倍交叉驗證集成,在自然界,同一個基因簇往往能通過不同的代謝路徑,生產出多種結構迥異的分子。DeepSeMS 采用了集成學習框架,每次預測都會給出多個候選結構,完美契合了生物系統的真實復雜性。
![]()
從 BGC 序列預測次級代謝產物化學結構的 DeepSeMS 框架概述
降維打擊:“破譯”96.38% 的未知基因簇
為了檢驗這位“跨界翻譯官”的真實水平,研究團隊拿它和領域內的標桿工具(antiSMASH7 和 PRISM4)進行了一場正面 PK。
第一輪測試:已知結構的 BGC,DeepSeMS 以絕對優勢碾壓對手:
預測成功率(算出有效化學結構):高達 97.55%(PRISM4為 88.96%,antiSMASH7 僅為 63.50%)。
結構恢復率(算出的結構與真實自然產物完全一致):達到了驚人的 41.10%(PRISM4為 8.90%,antiSMASH7 為 0%)。
即使在極度嚴苛的條件下(測試數據與訓練數據相似度極低),DeepSeMS 依然保持了相當高的準確率,證明了它不是靠“死記硬背”拿高分,而是真正理解了生物合成的規律。
第二輪測試:來自深海的“隱秘 BGC”,面對 940 個完全未知的神秘基因簇,DeepSeMS 大放異彩,成功為其中 906個(96.38%)生成了合理的化學結構。相比之下,antiSMASH7 和 PRISM4 的成功率只有 16.91% 和 46.45%。
更令人驚喜的是,DeepSeMS 甚至能根據基因編碼的酶類功能,準確推斷出產物的碳骨架和糖基化修飾等微觀特征,做到了真正的“懂它所做的,而不僅僅是猜它像誰”。
從海水中打撈出 6 萬種潛在新藥
海洋覆蓋了地球 71% 的面積,是我們這顆星球上最大、也最未被開發的微生物生態系統。擁有了 DeepSeMS 這把“金剛鉆”,研究團隊立刻將目光投向了全球海洋微生物組數據庫。
結果堪稱史詩級大豐收:通過一次性分析近 2.7 萬個宏基因組組裝基因組中的 4.5 萬多個 BGC,DeepSeMS 預測出了60327種獨特的次級代謝產物。
對這些次級代謝產物的深度分析顯示:
極高的新穎性:97% 的預測分子與目前已知的天然產物庫完全不同;69% 預測分子的核心化學骨架是全新的。
明顯的地理分布特征:北冰洋擁有的獨特分子最多,而南大洋的分子多樣性最高。深海、低氧和特定溫度環境孕育了結構更為奇特的分子。
巨大的醫藥潛力:通過虛擬篩選,研究團隊從中鎖定了 7554 種含有已知抗生素核心特征(例如 β-內酰胺類、四環素類等結構基序)的候選分子!這些分子擁有不同于現有藥物的側鏈修飾,極有可能成為對抗多重耐藥菌的新型武器。此外,還發現了大量與抗壓保護物質(例如 ectoine)相關的全新分子。
從只能依靠運氣在培養皿里“碰運氣”,到在電腦前用大模型“算答案”,DeepSeMS 的誕生標志著我們在探索天然產物未知領域的道路上邁出了一大步。
![]()
將生物多樣性轉化為化學多樣性
此外,研究團隊還構建了 DeepSeMS 在線平臺,用戶可提交 antiSMASH、DeepBGC 等工具生成的 BGC 注釋文件,或輸入 antiSMASH job ID,獲得候選分子結構、預測分數、分子性質、新穎性評估及潛在抗生素相關信息。該平臺還整合了全球海洋微生物次級代謝物資源,支持按海域、生態環境和 BGC 類型進行瀏覽、檢索和下載,為后續實驗驗證和天然產物發現提供資源基礎。
總的來說,該研究突顯了深度學習驅動方法在揭示地球上最大但尚未充分探索的微生物生態系統中隱藏的生物合成潛力的強大能力,為從生物多樣性(Biodiversity)到化學多樣性(Chemical diversity)的系統轉譯提供了一種可執行的新范式。
論文鏈接:
https://www.nature.com/articles/s43588-026-00983-1
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.