![]()
2026年,“自進(jìn)化”這個(gè)詞被AI行業(yè)大拿高頻提及。
小米MiMo大模型負(fù)責(zé)人羅福莉在3月的中關(guān)村論壇上直言:“如果要用一個(gè)詞來(lái)概括接下來(lái)一年里AGI進(jìn)程中最關(guān)鍵的一件事,我會(huì)選‘自進(jìn)化’。”
羅福莉說(shuō),她一年前覺(jué)得大模型實(shí)現(xiàn)自進(jìn)化需要3到5年,現(xiàn)在認(rèn)為1到2年就能完成。
Anthropic的CEO阿莫迪比羅福莉還激進(jìn),他曾在達(dá)沃斯論壇上預(yù)測(cè),AI的遞歸自我改進(jìn)可能在6到12個(gè)月內(nèi)實(shí)現(xiàn),“我們可能距離AI自主構(gòu)建下一代AI只有1到2年時(shí)間”。
這種自我改進(jìn)一旦形成閉環(huán),進(jìn)步速度將呈指數(shù)級(jí)增長(zhǎng)。
4月初就有這么一篇論文,剛好講的就是如何讓AI形成這么一個(gè)閉環(huán),出自上海交大劉鵬飛教授團(tuán)隊(duì),論文的標(biāo)題是《ASI-Evolve: AI Accelerates AI》。
研究團(tuán)隊(duì)搭了一個(gè)閉環(huán)研究框架,讓agent在“學(xué)習(xí)已有經(jīng)驗(yàn)-提出新設(shè)計(jì)-做實(shí)驗(yàn)-分析結(jié)果”之間反復(fù)迭代,去自動(dòng)改進(jìn)模型架構(gòu)、訓(xùn)練數(shù)據(jù)篩選、強(qiáng)化學(xué)習(xí)算法這三個(gè)AI核心部件。
AI會(huì)先學(xué)習(xí)過(guò)去的研究經(jīng)驗(yàn),再提出新方案,然后自己去做實(shí)驗(yàn)、分析結(jié)果,最后繼續(xù)迭代,以此形成了閉環(huán)。
最終得出結(jié)果,AI真的能研究如何改進(jìn)自己了。
誠(chéng)然,這不是一篇足夠改寫(xiě)整個(gè)AI產(chǎn)業(yè)的論文,它只是提出了一種方法。
不過(guò)真正讓人震驚的是,這篇論文的第一作者徐為先,竟然還在上大三。
一個(gè)還未畢業(yè)的本科生,主導(dǎo)了如此一項(xiàng)完整且具有實(shí)際意義的研究……我了個(gè)豆!我的大學(xué)真是白念了!
于是字母AI還真就聯(lián)系到了徐為先,通過(guò)郵件,我和這位陽(yáng)光帥氣的天才少年聊了聊。
01
天才少年徐為先
徐為先的技術(shù)背景覆蓋面較廣。
他不僅在AI研究領(lǐng)域關(guān)注神經(jīng)架構(gòu)搜索和持續(xù)學(xué)習(xí),也做過(guò)一些系統(tǒng)編程的項(xiàng)目。
他能用Rust獨(dú)立開(kāi)發(fā)完整的操作系統(tǒng)內(nèi)核ACore,用C++實(shí)現(xiàn)了性能媲美Clang的編譯器Imxc,甚至用Verilog設(shè)計(jì)了基于Tomasulo架構(gòu)的RISC-V處理器。
這種從底層硬件到高層AI算法的貫通能力,你別說(shuō)放在本科生里了,哪怕是全棧工程師來(lái)了也夠嗆。
他的GitHub項(xiàng)目ASI-Arch已經(jīng)獲得1100多個(gè)星標(biāo),對(duì)一位大三學(xué)生來(lái)說(shuō),這個(gè)成績(jī)是相當(dāng)出眾的。
拋開(kāi)這些技術(shù),徐為先對(duì)AI研究也有自己的思考。他認(rèn)為要實(shí)現(xiàn)“能夠自我進(jìn)化的AI”(Self-Evolving AI),當(dāng)前的AI還缺乏兩個(gè)能力,分別是“持續(xù)自我改進(jìn)”和“長(zhǎng)期可靠性”。
因此他的研究分為兩條戰(zhàn)線(xiàn):改進(jìn)單個(gè)模型的學(xué)習(xí)目標(biāo)和記憶機(jī)制,使其能夠持續(xù)成長(zhǎng);構(gòu)建多智能體生態(tài)系統(tǒng),讓模型通過(guò)復(fù)雜的交互協(xié)議協(xié)作優(yōu)化。
談到ASI-Evolve的研究起點(diǎn),徐為先說(shuō)那是2025年4、5月份關(guān)注到Google的AlphaEvolve時(shí)產(chǎn)生的一個(gè)直覺(jué)。當(dāng)時(shí)那項(xiàng)工作讓人們看到AI不再僅僅是幫人類(lèi)做簡(jiǎn)單的檢索,而是具備了推動(dòng)科學(xué)發(fā)現(xiàn)的潛力。
“我們當(dāng)時(shí)便希望能將這種范式應(yīng)用于AI研究本身。”徐為先說(shuō),“這個(gè)想法的關(guān)鍵在于:既然AI技術(shù)在飛速發(fā)展,如果能將其成果反哺到自身的科研進(jìn)程中,就能讓整個(gè)領(lǐng)域進(jìn)入一個(gè)規(guī)模宏大的自我加速循環(huán)。這種迭代式的進(jìn)步,是我認(rèn)為這個(gè)方向最迷人的地方。”
徐為先也承認(rèn),這個(gè)想法的實(shí)現(xiàn)離不開(kāi)上海交大GAIR實(shí)驗(yàn)室的支持。
他很感謝劉鵬飛老師,稱(chēng)他非常鼓勵(lì)本科生探索和研究,提供了大量指導(dǎo),實(shí)驗(yàn)室豐富的資源讓他們得以完成如此龐大的探索。
其實(shí)像普通大眾對(duì)這類(lèi)論文最容易產(chǎn)生誤解,他們會(huì)認(rèn)為研究者正在試圖用AI徹底替代人類(lèi)科學(xué)家,但這是完全不對(duì)的。
徐為先說(shuō):“在ASI-Evolve中,我們引入了大量的人類(lèi)先驗(yàn)經(jīng)驗(yàn)。我們并不追求脫離人類(lèi)指引的‘盲目進(jìn)化’,因?yàn)樽畛醯膶?shí)驗(yàn)?zāi)康暮秃诵脑O(shè)想始終是由人類(lèi)提出的。系統(tǒng)的真正價(jià)值在于利用AI極強(qiáng)的探索能力,在人類(lèi)指引的方向上進(jìn)行極速迭代。它更像是一個(gè)極其高效的協(xié)作系統(tǒng),而非某種冷冰冰的替代品。ASI-Evolve推動(dòng)著人們從問(wèn)題解決、修復(fù)向問(wèn)題定義轉(zhuǎn)變。”
關(guān)于“天才”這個(gè)詞,徐為先的理解相當(dāng)平實(shí)。他認(rèn)為天才是熱愛(ài)、天賦與努力的結(jié)合。
“每個(gè)人都有自己潛在熱愛(ài)和擅長(zhǎng)的事情。我們需要做的是找到熱愛(ài)與擅長(zhǎng)的交集,從而在綜合而言更好的方向上,通過(guò)持續(xù)的努力取得成功。”
他說(shuō),“我們看到很多公認(rèn)的天才,不僅是他們成就過(guò)人,也因?yàn)樗麄兯诘念I(lǐng)域更被大眾熟知,但‘三百六十行,行行出狀元’,只要一個(gè)人能找到感興趣的東西并為之付出,他也會(huì)成為自己熱愛(ài)領(lǐng)域里的天才。”
徐為先謙虛地認(rèn)為自己是相對(duì)平凡的。
他對(duì)科研充滿(mǎn)興趣,希望在自己喜歡的領(lǐng)域有所成就,但也希望能夠享受生活,希望能夠感受到身邊的美好。“盡管研究的過(guò)程中挫折占了大多,但還是期待著Happy Research。” 徐為先說(shuō)道。
徐為先最讓我感到詫異的,是作為一個(gè)研究者,他在面對(duì)學(xué)術(shù)的同時(shí),依然保持著年輕人獨(dú)有的那份對(duì)生活的熱忱。
他是吉他手,同時(shí)玩古典和電吉他,擁有單簧管九級(jí)證書(shū),喜歡打羽毛球和電子游戲。
不僅如此,他在個(gè)人主頁(yè)上坦誠(chéng)地提到自己正在戀愛(ài)中,珍惜與伴侶共同探索人生旅程的時(shí)光。這種技術(shù)天才與生活的平衡,讓人看到一個(gè)立體而真實(shí)的年輕研究者形象。
我相信你跟我一樣,也會(huì)對(duì)這位陽(yáng)光小青年感到羨慕。
對(duì)于未來(lái)的研究方向,徐為先更期待看到AI在反思和持續(xù)學(xué)習(xí)方面取得突破。“我并不特別關(guān)注現(xiàn)在訓(xùn)練出的每一代模型能力的提升幅度,因?yàn)楝F(xiàn)有的很多模型已經(jīng)能滿(mǎn)足大部分的日常需求了。”
他說(shuō)“我更加關(guān)心的是一個(gè)模型在整個(gè)生命周期中的表現(xiàn),無(wú)論是在訓(xùn)練中還是在部署使用的過(guò)程中——或者說(shuō)未來(lái)可能根本就不再區(qū)分訓(xùn)練和部署階段。AI到底能不能持續(xù)地提升自己,這不僅關(guān)乎到一個(gè)模型能力的上限,也是真正提升個(gè)性化能力、讓模型進(jìn)一步適合每個(gè)用戶(hù)的關(guān)鍵。”
每個(gè)人有自己的表達(dá)風(fēng)格和獨(dú)特需求,模型只有在真實(shí)的使用場(chǎng)景中持續(xù)動(dòng)態(tài)進(jìn)化,才能更好地適配用戶(hù),這一點(diǎn)或許是純靠靜態(tài)數(shù)據(jù)集訓(xùn)練難以實(shí)現(xiàn)的。除此之外,如何實(shí)現(xiàn)模型更強(qiáng)大的智能體能力也令人興奮。如果說(shuō)持續(xù)進(jìn)化是在探索智能的潛力,這個(gè)就是讓現(xiàn)有的模型更全面地與世界交互。
這也是徐為先本科畢業(yè)后打算繼續(xù)讀博的原因。他希望在讀博期間能做那些自己感興趣,又能真正回歸社會(huì)、讓所有人都能實(shí)際使用的技術(shù)。
02
ASI-Evolve
徐為先認(rèn)為,將研究進(jìn)步從“人類(lèi)受限”轉(zhuǎn)變?yōu)椤坝?jì)算可擴(kuò)展”的過(guò)程就是ASI-Evolve框架的哲學(xué)基礎(chǔ)。
什么叫人類(lèi)受限?開(kāi)發(fā)一個(gè)新的神經(jīng)網(wǎng)絡(luò)架構(gòu),需要博士生花3個(gè)月嘗試100種設(shè)計(jì)。
什么叫計(jì)算可擴(kuò)展?ASI-Arch項(xiàng)目進(jìn)行了1773次自主實(shí)驗(yàn),消耗超過(guò)20000 GPU小時(shí),最終發(fā)現(xiàn)了106個(gè)創(chuàng)新的SOTA線(xiàn)性注意力架構(gòu)。只要提供算力,AI就會(huì)不斷地研究。
ASI-Evolve論文的核心貢獻(xiàn),在于首次在統(tǒng)一框架下系統(tǒng)性地證明了“AI加速AI”的可行性。這是在神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)、預(yù)訓(xùn)練數(shù)據(jù)篩選、強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)三大領(lǐng)域同時(shí)取得的突破。
在神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)方面,表現(xiàn)最好的模型實(shí)現(xiàn)了0.97%的提升,這個(gè)數(shù)字接近當(dāng)前人類(lèi)設(shè)計(jì)SOTA增益的3倍。
更重要的是,這些架構(gòu)不是通過(guò)暴力搜索得到的,而是通過(guò)系統(tǒng)的“學(xué)習(xí)-設(shè)計(jì)-實(shí)驗(yàn)-分析”循環(huán)自主演化而來(lái)。
系統(tǒng)會(huì)先學(xué)習(xí)過(guò)去的研究經(jīng)驗(yàn),理解哪些設(shè)計(jì)原則是有效的,然后在此基礎(chǔ)上提出新的架構(gòu)方案。每一輪實(shí)驗(yàn)的結(jié)果都會(huì)被分析提煉,寫(xiě)入經(jīng)驗(yàn)數(shù)據(jù)庫(kù),為下一輪探索提供指導(dǎo)。
這種方式讓AI能夠像人類(lèi)研究員一樣積累知識(shí),而不是每次都從零開(kāi)始。
實(shí)際上用AI研究AI,用AI改進(jìn)AI,是現(xiàn)在非常火的一個(gè)賽道,上到Anthropic、OpenAI這樣的頭部公司,下到小團(tuán)隊(duì)、實(shí)驗(yàn)室,都瞄準(zhǔn)了這個(gè)領(lǐng)域。
除了前面徐為先提到的AlphaEvolve,最近很火的Sakana AI實(shí)驗(yàn)室也提出過(guò)一個(gè)類(lèi)似的構(gòu)想,叫做The AI Scientist。
它的邏輯也是讓AI自己想題目、寫(xiě)代碼、跑實(shí)驗(yàn)、分析、寫(xiě)論文。
咱們回到徐為先的ASI-Evolve上來(lái)。
在預(yù)訓(xùn)練數(shù)據(jù)篩選領(lǐng)域,AI自主優(yōu)化的數(shù)據(jù)策略在平均基準(zhǔn)測(cè)試中提升了3.96%,而在知識(shí)密集型的MMLU評(píng)測(cè)中,提升幅度超過(guò)了18%。
這意味著AI已經(jīng)能夠理解什么樣的數(shù)據(jù)對(duì)訓(xùn)練更有價(jià)值,并自主完成數(shù)據(jù)清洗和篩選的全流程。傳統(tǒng)的數(shù)據(jù)篩選依賴(lài)人類(lèi)專(zhuān)家的經(jīng)驗(yàn)判斷,需要大量人工標(biāo)注和質(zhì)量評(píng)估。ASI-Evolve則能夠通過(guò)實(shí)驗(yàn)反饋?zhàn)詣?dòng)學(xué)習(xí)數(shù)據(jù)質(zhì)量的判斷標(biāo)準(zhǔn),在海量數(shù)據(jù)中找出真正有價(jià)值的訓(xùn)練樣本。
在強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)方面,ASI-Evolve設(shè)計(jì)出的全新訓(xùn)練算法在數(shù)學(xué)競(jìng)賽題上的表現(xiàn)亮眼。在AMC32上超越GRPO基線(xiàn)12.5分,在AIME24上超越11.67分,在OlympiadBench上超越5.04分。
這些不是簡(jiǎn)單的參數(shù)調(diào)優(yōu),而是具有原創(chuàng)性數(shù)學(xué)創(chuàng)新的全新算法機(jī)制。系統(tǒng)能夠理解現(xiàn)有算法的局限性,提出新的優(yōu)化目標(biāo)函數(shù),設(shè)計(jì)新的梯度更新策略。
![]()
ASI-Evolve的意義在于,它展示了AI自己研發(fā)AI的可能性。
過(guò)去,AI的每一次進(jìn)步都依賴(lài)人類(lèi)研究員在架構(gòu)設(shè)計(jì)、數(shù)據(jù)清洗、算法調(diào)優(yōu)上投入的海量人力。
我們都在說(shuō)AI替代人,但這條賽道非常特殊,你如果想要AI進(jìn)步更快,就只能招更多研究員。
現(xiàn)在,AI開(kāi)始在這些核心環(huán)節(jié)中形成閉環(huán),直接參與自身的進(jìn)化。
傳統(tǒng)模式下,研究產(chǎn)出受限于人類(lèi)研究員的數(shù)量和工作時(shí)間。即使是最優(yōu)秀的研究團(tuán)隊(duì),一年能?chē)L試的數(shù)量也是有限的。
ASI-Evolve則將這個(gè)約束從人力轉(zhuǎn)移到了算力。只要有足夠的GPU資源,系統(tǒng)可以7×24小時(shí)不停地探索,嘗試的方案數(shù)量可以是人類(lèi)團(tuán)隊(duì)的數(shù)十倍甚至上百倍。
但這并不意味著人類(lèi)研究員變得不重要。
徐為先強(qiáng)調(diào),ASI-Evolve中引入了大量的人類(lèi)先驗(yàn)經(jīng)驗(yàn)。系統(tǒng)的認(rèn)知庫(kù)中存儲(chǔ)了人類(lèi)研究文獻(xiàn)中的設(shè)計(jì)原則和經(jīng)驗(yàn)教訓(xùn),這些知識(shí)為AI的探索提供了方向。
最初的研究目標(biāo)和評(píng)估標(biāo)準(zhǔn)也是由人類(lèi)設(shè)定的。AI的作用是在人類(lèi)指引的方向上進(jìn)行高效探索,而不是盲目地搜索整個(gè)可能空間。
這樣一來(lái)你就不再需要花大量時(shí)間在具體的實(shí)驗(yàn)和調(diào)參上,而是可以專(zhuān)注于思考什么樣的問(wèn)題值得研究,什么樣的方向更有前景。
AI則負(fù)責(zé)將這些高層次的想法轉(zhuǎn)化為具體的技術(shù)方案,通過(guò)大規(guī)模實(shí)驗(yàn)找到最優(yōu)解。
ASI-Evolve的另一個(gè)重要特點(diǎn)是它的分析器模塊。
這個(gè)模塊能夠?qū)?fù)雜的實(shí)驗(yàn)結(jié)果提煉成可復(fù)用的洞察。
傳統(tǒng)的自動(dòng)化實(shí)驗(yàn)系統(tǒng)往往只能輸出原始數(shù)據(jù),需要人類(lèi)研究員花大量時(shí)間分析。ASI-Evolve的分析器則能夠自動(dòng)識(shí)別實(shí)驗(yàn)中的關(guān)鍵模式,總結(jié)哪些設(shè)計(jì)選擇是有效的,哪些是無(wú)效的,并將這些洞察寫(xiě)入經(jīng)驗(yàn)數(shù)據(jù)庫(kù)。
這讓系統(tǒng)能夠真正地“學(xué)習(xí)”,而不只是“搜索”。
就像刷題一樣,普通人刷題,最后就會(huì)記錄一個(gè)數(shù)據(jù),這1000道題里我對(duì)了多少道題,錯(cuò)了多少道題。但是ASI-Evolve,它不僅會(huì)記錄錯(cuò)題數(shù)量,還會(huì)記得為什么錯(cuò),下次遇到類(lèi)似的題目應(yīng)該怎么才能選對(duì)。
如果我們往大了去說(shuō),過(guò)去一百年,科學(xué)研究的模式基本沒(méi)有改變。
人類(lèi)提出假設(shè),設(shè)計(jì)實(shí)驗(yàn),分析結(jié)果,發(fā)表論文。
這個(gè)循環(huán)的速度受限于人類(lèi)的認(rèn)知能力和工作時(shí)間。
如果ASI-Evolve的這種模式能夠推廣到更多領(lǐng)域,可能會(huì)從根本上改變科學(xué)研究的速度和規(guī)模。
03
天才少年?duì)帄Z戰(zhàn)
AI時(shí)代像徐為先這樣的天才少年越來(lái)越多,
隨之而來(lái)的,是各大廠(chǎng)商的招募策略正在發(fā)生根本性變化。那些頂級(jí)廠(chǎng)商開(kāi)始提前鎖定、深度培養(yǎng)還在讀書(shū)的天才少年。
比如月之暗面的“穿越計(jì)劃”。
實(shí)習(xí)生在通過(guò)3到6個(gè)月的考察后,即使尚未正式畢業(yè),也可獲得該計(jì)劃的正式offer與對(duì)應(yīng)激勵(lì)。關(guān)鍵是它這個(gè)除了給獎(jiǎng)金以外,還會(huì)給公司期權(quán)。
月之暗面去年12月的時(shí)候,估值是43億美元。到了今年3月,它的估值就來(lái)到180億美元了。這樣的成長(zhǎng)速度下,它的期權(quán)還是相當(dāng)誘人的。
該計(jì)劃幾乎沒(méi)有任何硬性條件限制,不限專(zhuān)業(yè)、不限學(xué)歷、不限經(jīng)驗(yàn),只看你是否是“任何領(lǐng)域最TOP的人才”。
從公司角度看,提前一年鎖定人才,意味著在競(jìng)爭(zhēng)對(duì)手還在觀(guān)望時(shí)就已經(jīng)完成了布局。
OpenAI的Safety Fellowship則代表了另一種模式。這個(gè)從2026年9月14日到2027年2月5日運(yùn)行的項(xiàng)目,邀請(qǐng)外部研究者、工程師和實(shí)踐者專(zhuān)注于AI安全與對(duì)齊研究。
入選者將獲得月度津貼、計(jì)算資源支持,以及來(lái)自O(shè)penAI導(dǎo)師的深度指導(dǎo)。項(xiàng)目期望參與者在結(jié)束時(shí)產(chǎn)出實(shí)質(zhì)性的研究成果,比如論文、基準(zhǔn)測(cè)試或數(shù)據(jù)集。
![]()
這兩種模式看似不同,實(shí)則有著共同的邏輯:給你導(dǎo)師、給你資源、給你算力,最后還給你錢(qián)。
一方面,它們給了年輕人一個(gè)機(jī)會(huì)。
這不是傳統(tǒng)意義上的“培養(yǎng)”,而是把最優(yōu)秀的年輕人直接投入到最前沿的戰(zhàn)場(chǎng),讓他們?cè)谡鎸?shí)的挑戰(zhàn)中快速成長(zhǎng)。
另一方面,它也是大公司廣撒網(wǎng)尋找人才的新方式。
AI是一個(gè)比較新的產(chǎn)業(yè),過(guò)去的量化標(biāo)準(zhǔn)對(duì)它不起效果,所以這些大公司必須地用這種新鮮手段來(lái)尋找奇才良將。
這種招聘策略的轉(zhuǎn)變,反映了AI行業(yè)發(fā)展的一個(gè)深層次變化。
隨著工具和框架的成熟,真正稀缺的不再是技術(shù)積累,而是創(chuàng)新思維和執(zhí)行能力。一個(gè)有想法、能動(dòng)手的新人,可能比一個(gè)循規(guī)蹈矩的博士更有價(jià)值。
這些品質(zhì)在傳統(tǒng)的學(xué)術(shù)訓(xùn)練中很難培養(yǎng),卻是AI時(shí)代最需要的素質(zhì)。
還有一點(diǎn)咱們也得承認(rèn),那就是這場(chǎng)天才少年?duì)帄Z戰(zhàn)背后是AI行業(yè)對(duì)未來(lái)的焦慮。
當(dāng)前的AI發(fā)展速度已經(jīng)超出了大多數(shù)人的預(yù)期。這才導(dǎo)致了培養(yǎng)人才的速度,跟不上推動(dòng)技術(shù)的速度。
各大公司都在賭未來(lái),人才是這場(chǎng)賭局中最重要的籌碼。誰(shuí)能提前鎖定最優(yōu)秀的年輕人,誰(shuí)就能在未來(lái)的競(jìng)爭(zhēng)中占據(jù)優(yōu)勢(shì)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.