持續學習是人類認知系統的核心能力,它使個體能夠在整個生命周期中不斷獲取、優化和轉移知識。這一復雜過程由生物體內精密的電生理機制支撐,通過跨細胞膜的內源性離子梯度實現信息的鞏固與提取。在人工智能領域,強化學習被視為實現持續學習最有潛力的算法框架,而固態離子型憶阻器因其模擬生物離子信號處理的能力而備受關注。然而,現有憶阻器缺乏穩定的本征梯度構建,導致離子重分布過程隨機且狀態變化劇烈,無法生成持續強化學習所需的時間相關內部狀態。尤其是一階憶阻器難以保留長時程的導電相關性,而二階憶阻器雖具備類生物的可塑性,但其狀態變量衰減過快,限制了在長時間尺度上的信息處理能力。因此,如何通過材料設計構建穩定的本征氧梯度,以延展二階憶阻器的時間動力學窗口,成為實現高效持續強化學習的關鍵科學問題。
![]()
針對以上難題,南京郵電大學黃維院士(西北工業大學)、凌海峰教授、解令海教授團隊等人報道了一種基于本征氧梯度的二階憶阻器,通過引入分子配位層(鋅卟啉,ZnTPP)實現了穩定的界面勢壘演化(>102秒),從而在單極脈沖刺激下平衡氧離子的遷移與擴散,獲得顯著的導電調制(ΔG = -98.1%)。該器件表現出40個可區分的偽非易失性電導狀態,并將其映射為強化學習算法中的動態學習率,使學習任務的時間尺度與器件動力學協同演化。與常規策略相比,本征梯度驅動的調制在靜態和動態環境中分別減少了68.75%和35.65%的訓練迭代次數。該研究揭示了慢動態二階憶阻器作為物理嵌入的時間自適應單元,在神經形態系統中橋接器件動力學與算法學習的潛力。
相關論文以“Intrinsic gradient oxygen-driven second-order memristors for continual reinforcement learning”為題,發表Nature Communications上。
值得注意的是,這已經是黃維院士團隊2026年發表的第6篇Nature子刊!
圖文導讀
![]()
圖1 ITO/ZnTPP/ALD-AlOx/Al器件的憶阻特性及二階突觸特性
圖1展示了本征梯度驅動型二階憶阻器的設計理念及其在持續強化學習中的應用框架。作者從生物系統中的跨膜離子梯度獲得啟發(圖1a),將其抽象為一種時間自適應學習率調制機制(圖1b)。器件結構為ITO/ZnTPP/ALD-AlOx/Al(圖1c),其中ZnTPP分子層通過配位效應誘導本征氧梯度的形成(圖1d),并通過原子層沉積工藝將其空間固定(圖1e)。該本征梯度顯著延長了界面勢壘的恢復過程(圖1f),使器件表現出超過102秒的慢速二階導電衰減行為(圖1g)。進一步地,這種慢動力學可通過單極脈沖幅值進行調制,生成多個偽非易失性電導狀態(圖1h),為強化學習代理提供時間結構化、非平穩的輸入信號。該圖系統性地將材料設計、器件物理與算法需求相連接,奠定了全文的研究基礎。
![]()
圖2 ITO/ZnTPP/ALD-AlOx/Al器件的電學特性及其二階突觸可塑性
圖2系統表征了ITO/ZnTPP/ALD-AlOx/Al器件的電學特性及其二階突觸可塑性。圖2a展示了器件在連續掃描下的I-V曲線,表現出電壓幅值依賴的抑制與激發行為,7V為轉折點(圖2b)。通過I-V曲線擬合,作者揭示了低電壓區(0–3V)由肖特基發射主導(圖2c),而高電壓區(3–6V)則表現為隧穿機制轉變(圖2d)。圖2e展示了9V脈沖后的導電衰減過程,擬合得到τ?=3.93 s和τ?=53.60 s的雙指數衰減,證實了二階動力學特性。圖2f顯示了頻率依賴的氧離子遷移-擴散行為,圖2g則實現了反赫布學習規則的STDP曲線。圖2h–j展示了單極脈沖電壓依賴可塑性的脈沖方案及其導電響應,圖2k進一步量化了不同脈沖組合下的電導變化率。該圖全面揭示了器件在電壓幅值、脈沖頻率和時序依賴下的突觸可塑性機制。
![]()
圖3 氧離子在ZnTPP/ALD-AlOx界面處的動態行為
圖3通過機理示意圖和原位導電原子力顯微鏡揭示了氧離子在ZnTPP/ALD-AlOx界面處的動態行為。圖3a展示了新鮮器件中氧濃度從ZnTPP界面到AlOx層逐漸降低的分布特征。在施加9V高壓(VHigh)后,氧離子克服Al–O庫侖力,通過ZnTPP網絡遷移,形成界面內建電場(圖3b–c)。撤去電壓后,部分氧離子沿本征梯度擴散回AlOx層(圖3d–e)。有限元模擬結果(圖3f–i)進一步驗證了氧離子在電場驅動下的非對稱分布及其在撤壓后的緩慢弛豫過程。圖3j–m展示了原位c-AFM測量的電流分布圖,6V偏壓誘導均勻隧穿電流,而9V偏壓則生成多個氧空位細絲,其位置與ZnTPP/AlOx界面的反應位點相關。6V再次施加后可部分溶解細絲,證實了U-SVDP功能。該圖從實驗和模擬雙重視角闡明了本征梯度調控氧離子動力學的物理機制。
![]()
圖4 受非電壓門控通道單極性調制過程啟發的傳導調節作用
圖4借鑒生物非電壓門控離子通道的工作原理,展示了基于U-SVDP的偽非易失性電導調制過程。圖4a–c類比了NVGCs在膜電位變化下的離子輸運行為,強調其幅值依賴、梯度導向的離子調控特性。圖4d示意了VHigh誘導的多細絲系統。圖4e–h系統研究了不同脈沖時長組合對電導調制的影響,發現100 ms的VHigh與100 ms的VLow組合可實現最佳的慢梯度恢復和PNV狀態穩定性。圖4i示意了連續VLow脈沖逐步溶解多細絲的過程,圖4j顯示16次U-SVDP調制后電導變化率達-72.4%,顯著高于自發衰減的-51.7%。圖4k進一步驗證了不同VLow序列下的PNV狀態穩定性。該圖通過精細的脈沖工程,實現了對氧離子動力學的時間尺度調控,為后續強化學習中的動態學習率映射提供了物理基礎。
![]()
圖5 在靜態環境中持續強化學習(RL)中基于內在梯度驅動的學習率更新方法
圖5將本征梯度驅動的U-SVDP電導狀態映射為強化學習中的動態學習率,并在靜態環境中驗證其有效性。圖5a–b展示了自主車輛在信號覆蓋下的最優路徑選擇任務,圖5c為基于Q學習的持續強化學習框架。圖5d–e顯示40個PNV電導狀態的調制范圍達-98.1%,且波動極小,證明多細絲系統的穩定性。圖5f–g將電導隨時間的變化定義為學習率α(t),對比了U-SVDP調制與自發衰減的α演化趨勢。圖5h為最優路徑示意圖。圖5i–j展示了不同α下的收斂過程,α從0.142增至0.773時,收斂迭代次數從3927降至1227,減少68.75%。圖5k–m對比顯示U-SVDP驅動的α具有更快的收斂速度和更低的波動性。該圖首次將器件級慢動力學與算法級學習率更新直接耦合,展示了物理驅動學習調制的優越性。
![]()
圖6 在動態環境中進行持續強化學習時基于內在梯度驅動的學習率調節
圖6將本征梯度驅動的動態學習率策略拓展至多階段動態環境中,驗證其在持續強化學習中的泛化能力。圖6a展示了U-SVDP衍生的非線性學習率曲線與線性和固定學習率策略的對比。圖6b為四階段地圖尺寸遞增的任務設置(50×50 → 200×200)。圖6c顯示U-SVDP策略在各階段均能生成更靈活的最優路徑。圖6d的收斂曲線表明U-SVDP策略在各階段均加速收斂,總訓練次數較線性調制減少35.65%。圖6e–h詳細對比了各階段的最優路徑長度。此外,作者還在附錄中驗證了該方法在障礙密度變化、多獎勵結構和動態目標環境中的魯棒性。該圖充分證明,基于本征梯度慢動力學的學習率調制策略能夠有效支持智能體在復雜動態環境中的持續適應能力。
結論展望
該項研究成功展示了基于本征氧梯度的二階憶阻器,其通過ZnTPP分子配位效應促進了增強型氧化物生長并誘導了空間氧濃度梯度,從而實現了延長的界面勢壘演化。利用單極脈沖電壓依賴可塑性,氧離子的漂移與擴散得以平衡,將寬范圍衰減過程(ΔG = -98.1%)重構為超過40個偽非易失性電導狀態。這些狀態使二階憶阻器能夠保留持續學習所需的時間相關內部狀態。將其映射為動態學習率后,強化學習任務的訓練迭代次數減少了68.75%,并顯著緩解了收斂振蕩和局部最優問題。即使在動態環境中,本征梯度驅動的學習率仍比傳統方法減少了35.65%的訓練次數。該工作為設計具有慢動態特性的二階憶阻器提供了生物啟發的框架,為神經形態計算中的持續學習鋪平了道路。
文獻信息
Ming, J., Wang, R., Fu, J. et al. Intrinsic gradient oxygen-driven second-order memristors for continual reinforcement learning. Nat Commun (2026). https://doi.org/10.1038/s41467-026-70014-0
(來源:網絡版權屬原作者 謹致謝意)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.