Nature子刊：趙國屏/焦娜/朱瑞新/張國慶合作開發(fā)AI模型DeepSeMS，揭示全球海洋微生物組中隱藏的生物合成潛力

2026-05-06 16:36:45　來源: 生物世界

上海舉報

分享至

撰文丨王聰

編輯丨王多魚

排版丨水成文

微生物為了生存競爭，進化出了合成各種復雜的次級代謝產(chǎn)物（Secondary Metabolite）的能力，例如青霉菌產(chǎn)生的青霉素，這些次級代謝產(chǎn)物是天然的藥物寶庫。這些次級代謝產(chǎn)物主要從培養(yǎng)的微生物物種中發(fā)現(xiàn)，然而，自然界中 99% 的微生物根本無法在實驗室中人工培養(yǎng)。

隨著測序技術(shù)發(fā)展，我們可以輕易讀取環(huán)境中微生物的 DNA，并從中發(fā)現(xiàn)那些負責生產(chǎn)小分子的“生物合成基因簇”（biosynthetic gene cluster，BGC），相當于找到了微生物體內(nèi)的“化工廠圖紙”。但尷尬的局面出現(xiàn)了——傳統(tǒng)的預測工具（例如 antiSMASH、PRISM）主要依賴“死記硬背”的預設(shè)化學反應規(guī)則庫。面對海洋等極端環(huán)境中那些前所未見的“隱秘 BGC”，由于酶的非典型排列組合和極高的底物容錯性，傳統(tǒng)工具直接罷工，難以將基因組序列轉(zhuǎn)化為精確的化學結(jié)構(gòu)。

2026 年 4 月 30 日，復旦大學微生物組中心趙國屏/焦娜團隊聯(lián)合同濟大學朱瑞新團隊和中國科學院上海營養(yǎng)與健康研究所張國慶團隊（徐挺軍、楊雨薇為論文共同第一作者），在Nature Computational Science期刊發(fā)表了題為：DeepSeMS: revealing the hidden biosynthetic potential of the global ocean microbiome with a large language model 的研究論文。

該研究提出了一個基于 Transformer 架構(gòu)的生成式人工智能模型——DeepSeMS，可從微生物生物合成基因簇（biosynthetic gene cluster，BGC）直接預測次級代謝產(chǎn)物結(jié)構(gòu)，實現(xiàn)從微生物生物合成編碼到候選分子空間的系統(tǒng)轉(zhuǎn)譯。

將 DeepSeMS 應用于全球海洋宏基因組，一次性預測了超過 60000 種次級代謝產(chǎn)物，并揭示了其化學多樣性、生態(tài)特異性和巨大的生物醫(yī)學潛力，尤其是作為新型抗生素的潛力。這項研究突顯了深度學習驅(qū)動方法在揭示地球上最大但尚未充分探索的微生物生態(tài)系統(tǒng)中隱藏的生物合成潛力的強大能力。

DeepSeMS：當微生物基因遇上大語言模型

為了攻克這個難題，研究團隊決定引入大語言模型（LLM），從而把“結(jié)構(gòu)預測”變成了一個“語言翻譯”問題。

這是一個基于 Transformer 架構(gòu)的大語言模型——DeepSeMS，能夠從生物合成基因簇（BGC）序列中準確預測次級代謝產(chǎn)物化學結(jié)構(gòu)（Secondary Metabolite Chemical Structure），其工作原理極其精妙：

1、創(chuàng)造一套跨界的“雙語詞典”，輸入端（生物語言）沒有使用冗長復雜的原始基因堿基序列，而是將其濃縮為具有生化功能的“蛋白質(zhì)結(jié)構(gòu)域”（Pfam 標識符）。這種表示法既保留了關(guān)鍵的催化信息，又極大提升了計算效率。輸出端（化學語言）：采用 SMILES 字符串（一種用 ASCII 字符表示化學分子結(jié)構(gòu)的國際通用標準）作為輸出格式。

2、特征對齊的數(shù)據(jù)增強，AI 大模型的訓練需要海量數(shù)據(jù)，但目前人類實驗驗證過的 BGC-代謝產(chǎn)物配對數(shù)據(jù)非常有限（僅幾千條）。為此，研究團隊首創(chuàng)了“特征對齊的 SMILES 枚舉法”。相比于隨機打亂分子式，這種方法在保留核心化學骨架不變的前提下，變換外圍基團的表達形式。這不僅讓模型學會了化學語法，還牢牢記住了生物合成的底層邏輯。

3、十倍交叉驗證集成，在自然界，同一個基因簇往往能通過不同的代謝路徑，生產(chǎn)出多種結(jié)構(gòu)迥異的分子。DeepSeMS 采用了集成學習框架，每次預測都會給出多個候選結(jié)構(gòu)，完美契合了生物系統(tǒng)的真實復雜性。

從 BGC 序列預測次級代謝產(chǎn)物化學結(jié)構(gòu)的 DeepSeMS 框架概述

降維打擊：“破譯”96.38% 的未知基因簇

為了檢驗這位“跨界翻譯官”的真實水平，研究團隊拿它和領(lǐng)域內(nèi)的標桿工具（antiSMASH7 和 PRISM4）進行了一場正面 PK。

第一輪測試：已知結(jié)構(gòu)的 BGC，DeepSeMS 以絕對優(yōu)勢碾壓對手：

預測成功率（算出有效化學結(jié)構(gòu)）：高達 97.55%（PRISM4為 88.96%，antiSMASH7 僅為 63.50%）。

結(jié)構(gòu)恢復率（算出的結(jié)構(gòu)與真實自然產(chǎn)物完全一致）：達到了驚人的 41.10%（PRISM4為 8.90%，antiSMASH7 為 0%）。

即使在極度嚴苛的條件下（測試數(shù)據(jù)與訓練數(shù)據(jù)相似度極低），DeepSeMS 依然保持了相當高的準確率，證明了它不是靠“死記硬背”拿高分，而是真正理解了生物合成的規(guī)律。

第二輪測試：來自深海的“隱秘 BGC”，面對 940 個完全未知的神秘基因簇，DeepSeMS 大放異彩，成功為其中 906個（96.38%）生成了合理的化學結(jié)構(gòu)。相比之下，antiSMASH7 和 PRISM4 的成功率只有 16.91% 和 46.45%。

更令人驚喜的是，DeepSeMS 甚至能根據(jù)基因編碼的酶類功能，準確推斷出產(chǎn)物的碳骨架和糖基化修飾等微觀特征，做到了真正的“懂它所做的，而不僅僅是猜它像誰”。

從海水中打撈出 6 萬種潛在新藥

海洋覆蓋了地球 71% 的面積，是我們這顆星球上最大、也最未被開發(fā)的微生物生態(tài)系統(tǒng)。擁有了 DeepSeMS 這把“金剛鉆”，研究團隊立刻將目光投向了全球海洋微生物組數(shù)據(jù)庫。

結(jié)果堪稱史詩級大豐收：通過一次性分析近 2.7 萬個宏基因組組裝基因組中的 4.5 萬多個 BGC，DeepSeMS 預測出了60327種獨特的次級代謝產(chǎn)物。

對這些次級代謝產(chǎn)物的深度分析顯示：

極高的新穎性：97% 的預測分子與目前已知的天然產(chǎn)物庫完全不同；69% 預測分子的核心化學骨架是全新的。
明顯的地理分布特征：北冰洋擁有的獨特分子最多，而南大洋的分子多樣性最高。深海、低氧和特定溫度環(huán)境孕育了結(jié)構(gòu)更為奇特的分子。
巨大的醫(yī)藥潛力：通過虛擬篩選，研究團隊從中鎖定了 7554 種含有已知抗生素核心特征（例如 β-內(nèi)酰胺類、四環(huán)素類等結(jié)構(gòu)基序）的候選分子！這些分子擁有不同于現(xiàn)有藥物的側(cè)鏈修飾，極有可能成為對抗多重耐藥菌的新型武器。此外，還發(fā)現(xiàn)了大量與抗壓保護物質(zhì)（例如 ectoine）相關(guān)的全新分子。

從只能依靠運氣在培養(yǎng)皿里“碰運氣”，到在電腦前用大模型“算答案”，DeepSeMS 的誕生標志著我們在探索天然產(chǎn)物未知領(lǐng)域的道路上邁出了一大步。

將生物多樣性轉(zhuǎn)化為化學多樣性

此外，研究團隊還構(gòu)建了 DeepSeMS 在線平臺，用戶可提交 antiSMASH、DeepBGC 等工具生成的 BGC 注釋文件，或輸入 antiSMASH job ID，獲得候選分子結(jié)構(gòu)、預測分數(shù)、分子性質(zhì)、新穎性評估及潛在抗生素相關(guān)信息。該平臺還整合了全球海洋微生物次級代謝物資源，支持按海域、生態(tài)環(huán)境和 BGC 類型進行瀏覽、檢索和下載，為后續(xù)實驗驗證和天然產(chǎn)物發(fā)現(xiàn)提供資源基礎(chǔ)。

總的來說，該研究突顯了深度學習驅(qū)動方法在揭示地球上最大但尚未充分探索的微生物生態(tài)系統(tǒng)中隱藏的生物合成潛力的強大能力，為從生物多樣性（Biodiversity）到化學多樣性（Chemical diversity）的系統(tǒng)轉(zhuǎn)譯提供了一種可執(zhí)行的新范式。

論文鏈接：

https://www.nature.com/articles/s43588-026-00983-1

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.