全球AI發(fā)展最新評估——斯坦福2026年AI指數(shù)報告解讀

2026-04-16 17:39:48　來源: 科學的歷程

湖北舉報

分享至

2026年4月13日，斯坦福大學以人為本人工智能研究所（HAI）發(fā)布了第九版《AI指數(shù)年度報告》（《AI Index Report 2026》）。這份報告已成為全球追蹤AI發(fā)展態(tài)勢的標桿性文獻，被各國政府、研究機構(gòu)和媒體廣泛引用。今年的核心發(fā)現(xiàn)可以用一句話概括：AI擴張的速度，已超過了圍繞它建立的所有系統(tǒng)（治理框架、評估方法、教育體系和數(shù)據(jù)基礎(chǔ)設(shè)施）的適應(yīng)能力，無一跟上了技術(shù)本身的步伐。

報告共設(shè)九章，研發(fā)格局（Research and Development）、技術(shù)性能（Technical Performance）、負責任AI（Responsible AI）、經(jīng)濟（Economy）、科學（Science）、醫(yī)學（Medicine）、教育（Education）、政策與治理（Policy and Governance）以及公眾輿論（Public Opinion）。其中，科學和醫(yī)學首次作為獨立章節(jié)出現(xiàn)，反映出AI正從計算機科學的“自留地”向更廣泛的知識生產(chǎn)領(lǐng)域深度滲透。

一、研發(fā)格局：產(chǎn)業(yè)主導、透明度下降與地緣版圖重構(gòu)

報告顯示，2025年超過90%的重要AI模型由產(chǎn)業(yè)界生產(chǎn)，但最具能力的模型恰恰也是最不透明的——OpenAI、Anthropic和Google等頭部實驗室已不再公開訓練代碼、參數(shù)規(guī)模和數(shù)據(jù)集大小。這是一個值得警惕的趨勢，當前沿模型的能力評估越來越依賴開發(fā)者自我報告，而獨立驗證的空間卻在縮小。

在地緣分布上，中國在論文數(shù)量、引用份額和專利授權(quán)數(shù)量上均居全球首位，而美國在高影響力專利和重要模型產(chǎn)出上仍保持優(yōu)勢（2025年美國產(chǎn)出50個重要模型，中國30個）。韓國以人均AI專利數(shù)領(lǐng)先全球。全球AI算力以每年3.3倍的速度增長，但幾乎所有前沿AI芯片都由臺灣一家代工廠（臺積電）制造，供應(yīng)鏈的脆弱性不言自明。

另一個引人注目的數(shù)據(jù)是，AI領(lǐng)域的男女比例自2010年以來在任何國家都沒有出現(xiàn)實質(zhì)性改善。技術(shù)在狂飆突進，但人才結(jié)構(gòu)中的深層問題紋絲不動。

二、技術(shù)性能：能力趨同、基準飽和與“參差不齊的前沿”

報告用“參差不齊的前沿”（jagged frontier）這一概念刻畫了當前AI能力的矛盾狀態(tài)：Gemini Deep Think在國際數(shù)學奧林匹克競賽中斬獲金牌，但頂級模型讀模擬時鐘的準確率僅為50.1%。AI智能體在OSWorld測試中從12%躍升至約66%的任務(wù)成功率，但在結(jié)構(gòu)化基準測試中仍有約三分之一的失敗率。

中美模型性能差距已實質(zhì)性縮小。2025年2月，DeepSeek-R1一度與美國頂級模型持平；截至2026年3月，美國頂級模型僅領(lǐng)先2.7%。頂部模型之間的Elo評分差距壓縮至25分以內(nèi)，競爭重心正從“誰更強”轉(zhuǎn)向成本、可靠性和特定領(lǐng)域表現(xiàn)。

更令人不安的是基準測試本身正在失效。原本設(shè)計為“持續(xù)數(shù)年”的高難度評估在幾個月內(nèi)即被飽和，廣泛使用的評估集錯誤率高達42%，排行榜排名可能部分反映的是對平臺的適應(yīng)而非真實能力。用什么尺子來量AI的進步，本身成了一個亟待回答的問題。

三、負責任AI：形式化進展與實質(zhì)性困境并存

2025年AI事件數(shù)據(jù)庫記錄了362起事件，較上年的233起大幅增長。26個主流模型的幻覺率從22%到94%不等。在一項新的準確性基準測試中，當虛假陳述被包裝為“用戶的信念”而非“他人的信念”時，模型表現(xiàn)急劇崩塌——AI尚不能區(qū)分知識與信念。

企業(yè)層面，負責任AI的制度化建設(shè)在推進。AI專項治理崗位增長17%，沒有任何負責任AI政策的企業(yè)從24%降至11%。但知識缺口（59%）、預算約束（48%）和監(jiān)管不確定性（41%）仍是主要障礙。一個更深層的發(fā)現(xiàn)是，安全、公平與隱私等負責任AI的不同維度之間存在內(nèi)在張力，提升一個維度的訓練技術(shù)往往會惡化其他維度，而這些權(quán)衡取舍尚未被充分理解。

報告還指出，AI在英語環(huán)境下表現(xiàn)最佳，這一差距比全球基準所顯示的更大。在方言層面，差距進一步拉大。這意味著AI的能力紅利在語言和文化維度上是不均勻分布的。

四、經(jīng)濟：史無前例的擴張速度與分配隱憂

生成式AI在三年內(nèi)達到53%的人口級采用率，比個人電腦和互聯(lián)網(wǎng)都快。組織采用率升至88%。全球企業(yè)AI投資在2025年翻倍，美國私人AI投資達2859億美元，是中國的23倍。但報告同時提醒，僅看私人投資數(shù)據(jù)會低估中國的AI總支出，因為中國政府引導基金在2000至2023年間已向AI企業(yè)投入約1840億美元。

生產(chǎn)率提升集中在結(jié)構(gòu)化、可量化的工作中。客服14%—15%，軟件開發(fā)26%，營銷產(chǎn)出50%。但需要深層推理的任務(wù)收益較小，且新近證據(jù)顯示，過度依賴AI可能帶來長期的“學習懲罰”，減緩技能發(fā)展。

最令人關(guān)注的是勞動力市場信號。在AI生產(chǎn)率增益最明顯的軟件開發(fā)領(lǐng)域，22至25歲的美國開發(fā)者就業(yè)人數(shù)較2024年下降了近20%，而年長開發(fā)者的數(shù)量仍在增長。報告將此稱為“煤礦中的金絲雀”。AI對初級崗位的替代效應(yīng)可能已經(jīng)開始顯現(xiàn)，盡管整體就業(yè)數(shù)據(jù)尚未出現(xiàn)大規(guī)模裁員的證據(jù)。

五、科學與醫(yī)學：從輔助工具到全流程替代

科學和醫(yī)學首次獨立成章，標志著AI在這兩個領(lǐng)域的角色發(fā)生了質(zhì)變。在科學研究中，AI已從加速單個研究步驟轉(zhuǎn)向嘗試替代整個工作流程。在醫(yī)學領(lǐng)域，臨床AI工具從試點項目轉(zhuǎn)向更廣泛的部署，環(huán)境AI醫(yī)療記錄系統(tǒng)（ambient AI scribes）正在多個醫(yī)療系統(tǒng)中規(guī)模化應(yīng)用。這一轉(zhuǎn)變的意義在于，AI不再僅僅是科學家和醫(yī)生手中的“好用工具”，而開始重塑知識生產(chǎn)和臨床決策的基本組織方式。這既是機遇，也對現(xiàn)有的同行評議、臨床驗證和倫理審查體系提出了根本性挑戰(zhàn)。

六、教育：需求爆發(fā)與制度滯后

超過80%的美國高中生和大學生已在學業(yè)中使用AI，但僅有一半的中學制定了AI使用政策，僅6%的教師認為這些政策是清晰的。大學計算機科學入學人數(shù)在2024至2025年間下降了11%，但AI相關(guān)研究生項目仍在增長。中國和阿聯(lián)酋已從2025—26學年起強制推行AI教育。

值得注意的是，人們正在正規(guī)教育體系之外大規(guī)模習得AI技能。AI素養(yǎng)技能的增長速度在多數(shù)國家超過了工程類AI技能，阿聯(lián)酋、智利和南非則是例外。這提示我們，AI教育的供給與需求之間存在系統(tǒng)性錯位。

七、政策治理：分化的全球圖景與“AI主權(quán)”的崛起

各國在2025年對AI采取了行動，但方向截然不同。歐盟AI法案首批禁令生效，美國則轉(zhuǎn)向去監(jiān)管，日本、韓國和意大利各自通過了國家AI立法。超過半數(shù)新采納的國家AI戰(zhàn)略來自發(fā)展中國家。

“AI主權(quán)”成為國家AI政策的核心組織原則。報告從基礎(chǔ)設(shè)施、數(shù)據(jù)、模型、應(yīng)用和人才五個維度構(gòu)建了AI主權(quán)分析框架。2018至2025年間，歐洲和中亞的國家級AI超算集群從3個增至44個，而南亞、拉美和中東北非分別僅達到2、3和8個。數(shù)據(jù)本地化措施方面，東亞太平洋地區(qū)采納了77項，北美僅3項。AI主權(quán)的愿望是普遍的，但實現(xiàn)它的能力是高度不均衡的。

八、公眾輿論：樂觀與焦慮的共生

全球范圍內(nèi)，認為AI產(chǎn)品利大于弊的受訪者比例從2024年的55%上升至2025年的59%，但表示AI令其緊張的比例同步升至52%。東南亞國家最為樂觀，印度的AI焦慮增幅最大。

專家與公眾之間的認知鴻溝尤為突出：73%的AI專家認為AI將對工作產(chǎn)生積極影響，公眾中這一比例僅23%，差距達50個百分點。在經(jīng)濟、教育和醫(yī)療領(lǐng)域均出現(xiàn)類似分歧。但在選舉和人際關(guān)系方面，專家與公眾罕見地達成了共識，AI會帶來負面影響。在全球?qū)φO(jiān)管AI的信任度調(diào)查中，美國在受調(diào)查國家中排名最末，僅31%。

結(jié) 語

中國在AI研究的量化指標上已居全球前列。論文數(shù)量、引用份額、專利授權(quán)、工業(yè)機器人安裝量均領(lǐng)先，在高被引論文中的份額從2021年的33篇增至2024年的41篇，DeepSeek-R1等模型在技術(shù)性能上已與美國頂級模型交替領(lǐng)先。但報告同時揭示了一個更復雜的圖景，中國的私人AI投資僅為美國的二十三分之一，前沿模型的生產(chǎn)仍高度集中于中美兩國，全球AI芯片制造依賴臺灣單一代工廠，而AI人才流向美國的趨勢雖在急劇下降（自2017年降幅達89%），人才的全球競爭格局仍遠未塵埃落定。

報告中幾個細節(jié)格外值得回味。1.AI在非英語環(huán)境中的性能衰減顯著，方言層面尤甚。這對中文及其方言多樣性意味著什么，需要認真對待。2.生產(chǎn)率提升集中于結(jié)構(gòu)化任務(wù)、年輕初級崗位首當其沖的就業(yè)替代效應(yīng)，以及過度依賴AI可能導致的“技能退化”風險，這些發(fā)現(xiàn)對中國龐大的年輕勞動力群體和快速推進的AI應(yīng)用浪潮具有直接的參照意義。3.AI主權(quán)正在成為全球政策的核心敘事，而主權(quán)的實現(xiàn)不僅取決于算力和模型，還取決于數(shù)據(jù)治理、人才儲備和應(yīng)用生態(tài)的綜合配置。報告中那張關(guān)于各國AI超算集群數(shù)量的不均衡分布圖，實際上畫出了未來全球AI權(quán)力版圖的底色。

或許最值得深思的是報告貫穿始終的那個判斷：技術(shù)能力的增長速度已經(jīng)超過了人類度量它、理解它、治理它的能力。這不僅是一個技術(shù)問題，更是一個文明性的挑戰(zhàn)。對于正在全力推進AI發(fā)展的中國而言，這份來自斯坦福的年度“體檢報告”提醒我們，跑得快固然重要，但知道自己跑在哪里、跑向何方，同樣不可或缺。

馮巖，上海市研發(fā)公共服務(wù)平臺管理中心（上海市科技人才發(fā)展中心) 人才事業(yè)部。文章觀點不代表主辦機構(gòu)立場。

◆ ◆ ◆

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.