撰文丨王聰
編輯丨王多魚
排版丨水成文
在基因療法和 mRNA 疫苗研發(fā)中,精準(zhǔn)控制蛋白質(zhì)表達(dá)一直是個關(guān)鍵難題。傳統(tǒng)的 mRNA 翻譯機制依賴其“帽子結(jié)構(gòu)”,但在細(xì)胞應(yīng)激或病毒感染時,這種機制常常失效。這時,一種名為IRES(內(nèi)部核糖體進(jìn)入位點)的 RNA 元件就成為了救命稻草,這是一段位于 mRNA 5' 端非翻譯區(qū)的特殊序列,它能繞過帽子結(jié)構(gòu)直接啟動翻譯,因此成為合成生物學(xué)和治療性有效載荷表達(dá)中極具吸引力的工具。
然而,IRES 的研究和應(yīng)用長期受限于兩個瓶頸:一是識別困難,傳統(tǒng)方法耗時費力;二是設(shè)計更難,其復(fù)雜的結(jié)構(gòu)-功能關(guān)系讓理性設(shè)計難以實現(xiàn)。
2026 年 4 月 24 日,斯坦福大學(xué)叢樂教授、普林斯頓大學(xué)王夢迪教授作為共同通訊作者(褚晏伊、尹笛、于丹、徐廣雪為共同第一作者),在 Nature 子刊Nature Machine Intelligence上發(fā)表了題為:Programmable RNA translation through deep learning-driven IRES discovery and de novo generation 的研究論文。論文第一作者褚晏伊博士已加入中國科學(xué)院分子細(xì)胞科學(xué)卓越創(chuàng)新中心(生化細(xì)胞所),任獨立研究員。
該研究構(gòu)建了一個全面的端到端 AI 框架,將 IRES 的精準(zhǔn)識別(IRES-LM)、進(jìn)化優(yōu)化(IRES-EA)和從頭生成(IRES-DM)統(tǒng)一起來。這一框架為可編程 RNA 翻譯建立了一種穩(wěn)健方法,擴(kuò)大了用于推進(jìn)下一代生物醫(yī)學(xué)發(fā)現(xiàn)和 RNA 療法的分子工具包。
![]()
三駕馬車:攻克 IRES 難題
在這項最新研究中,研究團(tuán)隊構(gòu)建了一個端到端的 AI 框架,包含三個核心組件——IRES-LM、IRES-EA和IRES-DM,就像三位各司其職的專家,共同解決了 IRES 研究中的三大難題。
IRES-LM:火眼金睛的識別專家
首先需要準(zhǔn)確識別IRES。傳統(tǒng)方法依賴手工特征,效果有限。研究團(tuán)隊訓(xùn)練了兩個語言模型——專門研究 5'UTR 的 UTR-LM 和擅長非編碼 RNA 分析的 RNA-FM,讓它們學(xué)習(xí) 46774 個標(biāo)記序列。
這個名為 IRES-LM 的模型組合表現(xiàn)驚人:在線性 mRNA IRES 識別上,曲線下面積(AUC)和 F1 分?jǐn)?shù)比現(xiàn)有最佳方法提高了15%。更厲害的是,它雖然只訓(xùn)練了線性 RNA 數(shù)據(jù),卻能準(zhǔn)確識別出所有21個經(jīng)過實驗驗證的環(huán)狀 RNA 的 IRES,而其他方法最多只能識別出 15 個。
IRES-EA:精準(zhǔn)改造的進(jìn)化大師
識別之后是改造IRES。研究團(tuán)隊開發(fā)了 IRES-EA 進(jìn)化算法,能夠通過定向突變誘導(dǎo) IRES 功能。算法會"掩蔽"序列中的某些位置,然后根據(jù) IRES-LM 的預(yù)測,選擇最可能增強功能的突變。
在 37293 個非 IRES 序列的計算評估中,60% 被成功轉(zhuǎn)化為預(yù)測的 IRES 序列,其中 5% 達(dá)到了 90% 以上的高 IRES 概率。大規(guī)模并行報告實驗驗證了 12000 個突變序列,98.4% 都獲得了可檢測的IRES功能。
IRES-DM:創(chuàng)意無限的設(shè)計師
最后是從頭生成IRES。IRES-DM 這個基于擴(kuò)散模型(diffusion model )的系統(tǒng)能夠從隨機噪聲中生成全新的 IRES 序列,它不需要任何模板,完全憑“想象力”從頭設(shè)計。
驗證結(jié)果顯示,IRES-DM 生成的序列中,99.3% 都具有功能 IRES 活性。更神奇的是,它能設(shè)計出與天然 IRES 序列相似度僅 27.6%、但二級結(jié)構(gòu)高度相似的變體,揭示了實現(xiàn) IRES 功能的多條進(jìn)化路徑。
![]()
實驗驗證:從計算預(yù)測到真實功能
AI 設(shè)計得再好,最終還是要看實際效果。研究團(tuán)隊通過雙熒光雙順反子報告系統(tǒng)進(jìn)行了大規(guī)模驗證。
他們將細(xì)胞根據(jù) GFP/mCherry 比例分成四個區(qū)間,然后通過下一代測序量化各區(qū)間中的序列豐度。對 IRES-EA 改造的 12000 個突變序列的測試顯示,98.4% 的序列都表現(xiàn)出功能活性。對 IRES-DM 從頭生成的另一組 12000 個序列的測試更是表現(xiàn)出 99.3% 的功能活性。
特別值得注意的是,AI 不僅復(fù)制了自然界中常見的高活性基序,還發(fā)現(xiàn)了自然進(jìn)化中很少使用但活性很高的新模式,這意味著 AI 正在探索自然進(jìn)化未曾涉足的序列空間。
意義與前景:打開 RNA 療法新天地
這項研究的價值不僅在于技術(shù)突破,更在于它為整個 RNA 療法領(lǐng)域打開了新的可能性。
首先,實現(xiàn)精準(zhǔn)控制,通過 AI 設(shè)計和生成的 IRES,研究人員可以更精確地調(diào)控治療性蛋白質(zhì)的表達(dá)水平,這對于癌癥治療、遺傳病治療等都至關(guān)重要。
其次,提升 RNA 疫苗效果,工程化的 IRES 可以增強 mRNA 和環(huán)狀 RNA 疫苗的翻譯效率,提高疫苗的保護(hù)效果。
第三,允許多基因協(xié)同表達(dá),IRES 允許在同一個 mRNA 上表達(dá)多個蛋白質(zhì),這對于需要多種蛋白質(zhì)協(xié)同作用的復(fù)雜療法特別有價值。
最后,提供基礎(chǔ)研究新工具,可用于系統(tǒng)性研究 IRES 的工作機制,探索翻譯調(diào)控的深層規(guī)律。
從精準(zhǔn)識別到定向改造,再到從頭生成,這套 AI 框架展現(xiàn)了深度學(xué)習(xí)在生命科學(xué)中的巨大潛力。它不僅是技術(shù)上的突破,更代表了一種研究范式的轉(zhuǎn)變——從依賴自然進(jìn)化的偶然發(fā)現(xiàn),轉(zhuǎn)向基于深度理解的理性設(shè)計。
2024 年 4 月 5 日,普林斯頓大學(xué)王夢迪團(tuán)隊(褚晏伊、于丹為共同第一作者)在Nature Machine Intelligence上發(fā)表了題為:A 5′ UTR language model for decoding untranslated regions of mRNA and function predictions 的研究論文。
該研究開發(fā)了一種語言模型(language model)——UTR-LM,該模型利用其語義表征能力解碼 mRNA 的 5'UTR 區(qū)并預(yù)測其功能,并在此基礎(chǔ)上生成 mRNA 的 5'UTR 序列,其中,生成的新冠病毒 S 蛋白的 mRNA 的 5'UTR區(qū),相比現(xiàn)有的優(yōu)化的 5'UTR 區(qū),能夠?qū)?S 蛋白生成水平大幅提高 32.5%,從而幫助開發(fā)更有效的 mRNA 疫苗。
![]()
![]()
5′UTR 功能預(yù)測與設(shè)計的 UTR-LM 模型
褚晏伊實驗室正在招聘 AI 背景的研究生、研究助理、博士后、副研究員,歡迎聯(lián)系:yanyi.chu@sibcb.ac.cn。
![]()
論文鏈接:
1. https://www.nature.com/articles/s42256-026-01213-z
2. https://www.nature.com/articles/s42256-024-00823-9
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.