網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

完整解讀：斯坦福 AI 年度報告｜2026版發(fā)布，423頁

2026-04-14 14:47:30　來源: 賽博禪心

北京舉報

分享至

REPORT

斯坦福 AI 指數(shù)報告（AI Index Report） 由斯坦福「以人為本人工智能研究院」（HAI）每年發(fā)布，追蹤、整合并可視化 AI 領(lǐng)域的各類數(shù)據(jù)

剛剛，「斯坦福 AI 指數(shù)報告 2026」發(fā)布，423 頁，9 個章節(jié)

與相比，今年新增了兩個獨(dú)立章節(jié)：AI 與科學(xué)、AI 與醫(yī)療，同時新增了 AI 主權(quán)分析框架和生成式 AI 的消費(fèi)者價值估算

過去兩年，我每年都會進(jìn)行完整解讀，今年自然也不例外，先說 15 條核心要點(diǎn)，然后逐章展開

https://hai.stanford.edu/ai-index/2026-ai-index-report

15 條核心要點(diǎn)

1. AI 能力沒有停滯，還在加速。 行業(yè)貢獻(xiàn)了超過 90% 的前沿模型，多個模型在博士級科學(xué)問題、多模態(tài)推理和競賽數(shù)學(xué)上達(dá)到或超過人類基準(zhǔn)。SWE-bench Verified 上一年內(nèi)從 60% 漲到接近 100%。組織采用率達(dá) 88%，五分之四的大學(xué)生在用生成式 AI

AI 各項(xiàng)能力 Benchmark 達(dá)到人類水平的時間線，來自斯坦福 HAI

2. 中美模型性能差距基本消失。 2025 年 2 月 DeepSeek-R1 一度追平美國最強(qiáng)模型，截至 2026 年 3 月 Anthropic 最強(qiáng)模型僅領(lǐng)先 2.7%。美國在前沿模型數(shù)量和高影響力專利上領(lǐng)先，中國在論文數(shù)量、引用、專利總量和工業(yè)機(jī)器人安裝量上領(lǐng)先。韓國在人均 AI 專利數(shù)上全球領(lǐng)先

中美模型 Arena Elo 評分對比，差距從 2023 年的顯著領(lǐng)先收窄到 2.7%

3. 美國擁有最多 AI 數(shù)據(jù)中心，大部分芯片由一家臺灣代工廠制造。 美國有 5427 個數(shù)據(jù)中心，是第二名的 10 倍以上。TSMC 一家公司制造了幾乎所有領(lǐng)先 AI 芯片，全球 AI 硬件供應(yīng)鏈依賴臺灣一座代工廠。TSMC 美國擴(kuò)產(chǎn)計(jì)劃在 2025 年開始運(yùn)營

4. AI 能拿 IMO 金牌但看不準(zhǔn)時鐘，研究者稱之為「鋸齒邊界」。 Gemini Deep Think 在國際數(shù)學(xué)奧賽拿了金牌（35 分），但最強(qiáng)模型看模擬時鐘的準(zhǔn)確率只有 50.1%。AI Agent 在 OSWorld 上從 12% 跳到約 66%，但每 3 次結(jié)構(gòu)化測試還是會失敗 1 次

5. 機(jī)器人在家庭任務(wù)中依然失敗率極高，盡管在受控環(huán)境中表現(xiàn)出色。 機(jī)器人在真實(shí)家庭任務(wù)中成功率只有 12%。RLBench 模擬環(huán)境中達(dá)到了 89.4%，但可控實(shí)驗(yàn)室和不可預(yù)測家庭環(huán)境之間的差距依然巨大

6. 負(fù)責(zé)任 AI 跟不上能力進(jìn)步，安全基準(zhǔn)滯后，事件急劇增加。 幾乎所有前沿模型開發(fā)商都報告能力 Benchmark 成績，但在負(fù)責(zé)任 AI Benchmark 上的報告依然稀疏。AI 事件數(shù)據(jù)庫記錄的事件從 2024 年的 233 起上升到 2025 年的 362 起。改善一個負(fù)責(zé)任 AI 維度（比如安全）可能會惡化另一個（比如準(zhǔn)確性）

AI 事件數(shù)量 2013-2025，2025 年達(dá)到 362 起

7. 美國在 AI 投資上領(lǐng)先，但吸引全球人才的能力在下降。 美國私人 AI 投資達(dá)到 2859 億美元，是中國 124 億的 23 倍。但純看私人投資低估了中國的實(shí)際投入，政府引導(dǎo)基金在 2000-2023 年間向 AI 企業(yè)注入了約 1840 億美元。2025 年美國新獲資 AI 公司 1953 家，是第二名的 10 倍以上。但流向美國的 AI 研究者和開發(fā)者人數(shù)自 2017 年下降了 89%，僅最近一年就下降了 80%

生成式 AI 三年達(dá)到 53% 的人口滲透率，比 PC 和互聯(lián)網(wǎng)都快

8. AI 采用以歷史性速度擴(kuò)散，消費(fèi)者從免費(fèi)工具中獲得大量價值。 滲透率與人均 GDP 強(qiáng)相關(guān)，但也有例外：新加坡 61%，阿聯(lián)酋 54%。美國排第 24 位，28.3%。美國消費(fèi)者從生成式 AI 獲得的估算年化價值到 2026 年初達(dá)到 1720 億美元，每用戶中位價值一年內(nèi)翻了三倍。大多數(shù)工具是免費(fèi)或接近免費(fèi)的

9. AI 帶來的生產(chǎn)率提升，恰好出現(xiàn)在入門級就業(yè)開始下降的領(lǐng)域。 客戶支持和軟件開發(fā)中生產(chǎn)率提升 14%-26%，需要更多判斷力的任務(wù)中效果更弱甚至為負(fù)。AI Agent 部署在幾乎所有業(yè)務(wù)功能中都處于個位數(shù)。22-25 歲軟件開發(fā)者就業(yè)人數(shù)較 2024 年下降近 20%，同時年長開發(fā)者的人數(shù)仍在增長。

10. AI 的環(huán)境足跡隨能力一起擴(kuò)大。 Grok 4 的訓(xùn)練碳排放達(dá)到 72,816 噸 CO2 當(dāng)量。AI 數(shù)據(jù)中心功率容量達(dá) 29.6 GW，相當(dāng)于紐約州峰值用電量。GPT-4o 單年推理用水量可能超過 1200 萬人的飲用水需求

11. 科學(xué) AI 模型可以超越人類科學(xué)家，但更大的模型并不總是更好。 前沿模型在 ChemBench 上平均超過人類化學(xué)家，但在天體物理學(xué)論文復(fù)現(xiàn)上低于 20%，地球觀測問題上只有 33%。1.11 億參數(shù)的 MSAPairformer 在 ProteinGym 上打敗了之前的領(lǐng)先方法，2 億參數(shù)的 GPN-Star 打敗了近 200 倍大的模型。大多數(shù)科學(xué) AI 基礎(chǔ)模型來自跨部門合作，與通用 AI 的工業(yè)主導(dǎo)格局形成對比

12. AI 正在改變臨床醫(yī)療，但嚴(yán)謹(jǐn)證據(jù)仍然有限。 自動生成臨床筆記的 AI 工具在 2025 年被大規(guī)模采用，醫(yī)生寫筆記時間減少 83%，職業(yè)倦怠顯著下降。但證據(jù)基礎(chǔ)依然薄弱：超過 500 項(xiàng)臨床 AI 研究中近半使用考試題而非真實(shí)患者數(shù)據(jù)，只有 5% 使用了真實(shí)臨床數(shù)據(jù)

13. 正規(guī)教育落后于 AI，但人們在人生每個階段都在學(xué)習(xí) AI 技能。 超過 80% 的美國高中生和大學(xué)生在用 AI 做作業(yè)，但只有一半的中學(xué)有 AI 政策，只有 6% 的教師認(rèn)為這些政策是清晰的。課堂之外，AI 工程技能增長最快的國家是阿聯(lián)酋、智利和南非。美國和加拿大新增 AI 博士數(shù)量從 2022 到 2024 年增長 22%，增量全部流向了學(xué)術(shù)界

14. AI 主權(quán)正在成為國家政策的核心特征，但能力分布仍然不均。 國家 AI 戰(zhàn)略正在擴(kuò)展，特別是在發(fā)展中經(jīng)濟(jì)體中。國家級 AI 超算投資也在同步增長。但模型生產(chǎn)仍集中在美中兩國。開源開發(fā)正在重新分配參與權(quán)，來自「世界其他地區(qū)」的 GitHub 貢獻(xiàn)已超過歐洲，正在接近美國

15. AI 專家和公眾對技術(shù)未來的看法截然不同，全球?qū)C(jī)構(gòu)管理 AI 的信任是碎片化的。 在就業(yè)影響上，73% 的專家持積極態(tài)度，公眾只有 23%，差距 50 個百分點(diǎn)。經(jīng)濟(jì)影響差距 48 個百分點(diǎn)，醫(yī)療差距 40 個百分點(diǎn)。美國對自己政府監(jiān)管 AI 的信任度全球最低，31%。全球范圍內(nèi)，歐盟被認(rèn)為比美國或中國更可信地監(jiān)管 AI

AI 專家 vs 公眾對 AI 影響各維度的看法差異

第一章：研發(fā)

2025 年全球共發(fā)布 95 個 notable models，同比有所下降。美國 50 個，中國 30 個，韓國 5 個。按機(jī)構(gòu)：OpenAI 19 個，Google 12 個，阿里巴巴 11 個，Anthropic 7 個，xAI 5 個。91.6% 來自產(chǎn)業(yè)界。 純學(xué)術(shù)界只產(chǎn)出了 1 個

透明度崩塌是今年報告最值得注意的趨勢之一。 95 個 notable models 中有 80 個沒有公開訓(xùn)練代碼，只有 4 個開源了訓(xùn)練代碼。2020 年開源和未公開大致對半，到 2025 年前沿模型變成了能力最強(qiáng)、透明度最低的存在

全球數(shù)據(jù)中心分布，美國 5427 個，超過第二名德國（529 個）10 倍以上

全球 AI 算力容量以每年約 3.3 倍增長，達(dá)到 1710 萬 H100 等效算力。 Nvidia 占 60% 以上，Google 和 Amazon 提供大部分剩余，華為持有小但增長中的份額。整個全球 AI 硬件供應(yīng)鏈依賴一個點(diǎn)：臺積電。包括 Nvidia 的 Blackwell GPU 和 AMD 的 MI300X 都由臺積電代工

環(huán)境代價在快速增長。訓(xùn)練 Grok 4 碳排放 72,816 噸 CO2 當(dāng)量，超過一輛普通汽車全生命周期（約 63 噸）。DeepSeek v3 只產(chǎn)生了約 597 噸，遠(yuǎn)低于同等規(guī)模的模型。AI 數(shù)據(jù)中心總功率達(dá) 29.6 GW，和紐約州峰值用電量（31 GW）差不多。GPT-4o 單年推理用水量可能超過 1200 萬人的飲用水需求

Epoch AI 預(yù)測高質(zhì)量文本數(shù)據(jù)將在 2026-2032 年之間耗盡。 截至 2025 年 1 月，超過 50% 的新發(fā)布網(wǎng)絡(luò)內(nèi)容是 AI 生成的。各大公司開始轉(zhuǎn)向授權(quán)數(shù)據(jù)（紐約時報和亞馬遜簽了協(xié)議，Meta 也在和新聞機(jī)構(gòu)談）。但數(shù)據(jù)質(zhì)量可能比數(shù)量更重要：OLMo 3.1 Think 32B 只有 320 億參數(shù)（Grok 4 的約 1/90），通過數(shù)據(jù)清洗和去重，在 AIME 2025 上達(dá)到了 78.1%

開源方面，GitHub 上 AI 項(xiàng)目達(dá) 560 萬個，Hugging Face 上傳量三年翻了三倍。地理分布在變化：美國占 31.7%（2011 年是 80%），「其他國家」27.6%，歐洲 24.5%，中國 11%。Hugging Face 上文本生成模型從 2022 年占 10.63% 上升到 2025 年的 42.46%

人才數(shù)據(jù)是這一章里最值得注意的部分

美國仍然是全球 AI 人才最多的國家（220,520 人），但凈流入在急劇下降：從 2022 年的峰值 324.6 降到 2025 年的 26.0，接近歸零。遷入美國的 AI 研究者數(shù)量自 2017 年以來下降了 89%。瑞士和新加坡在人均 AI 研究者和開發(fā)者數(shù)量上全球領(lǐng)先。性別差距 15 年來沒有變化，各國女性比例在 18%-32% 之間

流向美國的 AI 人才數(shù)量 2012-2025，凈流入接近歸零

第二章：技術(shù)性能

前沿模型正在趨同。 Arena 排行榜上，Anthropic（1503）、xAI（1495）、Google（1494）、OpenAI（1481）、阿里巴巴（1449）和 DeepSeek（1424）全部擠在 Elo 評分的頂部區(qū)間。2023 年初 OpenAI 領(lǐng)先 Google 205 分，現(xiàn)在這個差距沒了。能力不再是明確的差異化因素，競爭正在轉(zhuǎn)向成本、延遲、可靠性和垂直性能

開放權(quán)重模型的差距在 2025 年重新拉大了。2024 年 8 月差距一度縮到 0.5%，2026 年 3 月回到了 3.3%。Arena 排行榜前 10 中有 6 個是閉源模型

中美差距：2025 年 2 月 DeepSeek-R1 和美國頂級模型只差 5 個 Elo 分（0.4%），2026 年 3 月差距是 39 分（2.7%）。DeepSeek-R1 用 GRPO 做強(qiáng)化學(xué)習(xí)，不需要標(biāo)注數(shù)據(jù)也不需要 critic model，一度導(dǎo)致美國科技股蒸發(fā)超過 1 萬億美元市值

Benchmark 飽和的問題越來越嚴(yán)重。 設(shè)計(jì)出來要用好幾年的 Benchmark 幾個月就飽和了。HLE（Humanity's Last Exam）一年內(nèi)從不到 10% 漲到 38.3%。GPQA Diamond（博士級科學(xué)）模型 93%，人類專家 81.2%。但 Benchmark 本身的質(zhì)量也在下降：9 個常用 Benchmark 的無效題目比例從 2%（MMLU 數(shù)學(xué)）到 42%（GSM8K）不等

能拿 IMO 金牌，但讀模擬時鐘準(zhǔn)確率只有 50.1%。人類 90.1%

當(dāng)模型讀錯時鐘時，誤差中位數(shù)是 1-3 小時，人類是 3 分鐘。MMLU-Pro 上前 15 名模型全部在 87% 以上，整個前沿的差距只有 4 個百分點(diǎn)。SWE-bench Verified 上從約 60% 逼近 100%。Terminal-Bench 2.0 從 2025 年 2 月的 20% 漲到 77.3%。Vibe Code Bench（從零構(gòu)建完整 Web 應(yīng)用）Claude Opus 4.6 領(lǐng)先，但也只有 56.5%

Agent 進(jìn)展快但離可靠有距離：GAIA（通用 AI 助手）從 20% 漲到 74.5%，人類 92%。OSWorld（真實(shí)電腦操作）最好的模型 66.3%，人類 72.35%，差 6 個百分點(diǎn)。WebArena（自主網(wǎng)頁 Agent）從 15% 漲到 74.3%，人類 78.2%。Cybench（網(wǎng)絡(luò)安全 CTF）從 15% 漲到 93%

自動駕駛是 AI 進(jìn)入物理世界最成功的案例。Waymo 在五個美國城市達(dá)到每周約 45 萬次出行。 中國的 Apollo Go 完成了 1100 萬次完全無人駕駛出行，同比增長 175%。人形機(jī)器人硬件在 2025 年快速增長（Figure AI、特斯拉、波士頓動力、宇樹等），F(xiàn)igure 02 在寶馬工廠加載了 9 萬多個零件。但 BEHAVIOR-1K（1000 個家務(wù)任務(wù)）完成率只有 12.4%，大規(guī)模部署尚未發(fā)生

第三章：負(fù)責(zé)任的 AI

AI Incident Database 在 2025 年記錄了 362 起事件，2024 年是 233 起，2022 年之前每年不到 100 起。2025 年 7 月，xAI 的 Grok 在一次系統(tǒng)更新放松安全過濾器后，生成了反猶言論和暴力仇恨言語

透明度倒退。 Foundation Model Transparency Index（FMTI）平均分從 2024 年的 58 分跌到 2025 年的 40 分。IBM 以 95 分領(lǐng)先，Claude 4 得 41 分，Gemini 2.5 得 39 分，Grok 3 只有 14 分。幾乎所有前沿模型的預(yù)訓(xùn)練數(shù)據(jù)透明度得分為零

幻覺率在不同 Benchmark 上差異巨大。Vectara 的 HHEM 排行榜顯示 1.8%-5.4%（文檔摘要場景），但 AA-Omniscience 測試（跨 6 領(lǐng)域 6000 個問題）顯示幻覺率從 22% 到 94% 不等。GPT-4o 在「用戶信念」場景下準(zhǔn)確率從 98.2% 跌到 64.4%，DeepSeek R1 從 90%+ 跌到 14.4%

組織層面有進(jìn)展：AI 專職治理崗位增長 17%，沒有負(fù)責(zé)任 AI 政策的企業(yè)從 24% 降到 11%。主要障礙是知識差距（59%）、預(yù)算限制（48%）和監(jiān)管不確定性（41%）

AI 在英語之外的表現(xiàn)差距比全球 Benchmark 所反映的要大得多

在 HELM Arabic 上，一個為阿拉伯語專門開發(fā)的區(qū)域模型超過了 GPT-5.1 和 Gemini 2.5 Flash。在斯洛文尼亞語常識推理測試中，用方言測試時多個領(lǐng)先模型的準(zhǔn)確率損失接近一半

安全評估方面，在 AILuminate Benchmark 上多個前沿模型在正常條件下獲得「非常好」或「好」的安全評級，但面對對抗性越獄攻擊時所有模型的安全性能都出現(xiàn)下降

負(fù)責(zé)任 AI 的各個維度之間存在沖突，并且這個問題比想象中更棘手。差分隱私提升了隱私保護(hù)，但降低了公平性、可解釋性和準(zhǔn)確性（準(zhǔn)確率下降高達(dá) 33 個百分點(diǎn)）。目前沒有任何框架能解決這個 trade-off

第四章：經(jīng)濟(jì)

全球 AI 企業(yè)投資總額達(dá)到 5816 億美元，同比增長約 130%，約為 2013 年的 40 倍。私人投資增長 127.5%，達(dá)到 3447 億美元。GenAI 拿走了 1709 億（接近一半），增長超過 200%。超 10 億美元融資事件從 15 起增長到 28 起

大額交易：OpenAI 融資 400 億（估值 3000 億），Anthropic 融資 130 億（估值 1830 億），Anysphere（Cursor）23 億（估值 293 億），CoreWeave IPO 估值 230 億。Stargate 項(xiàng)目宣布 5000 億，中國設(shè)立 1380 億國家 VC 基金

美國私人 AI 投資 2859 億美元，是中國（124 億）的 23 倍。但中國政府引導(dǎo)基金在 2000-2023 年間投入約 1840 億。自 2013 年以來美國累計(jì)吸引了 7573 億美元 AI 私人投資

營收方面，OpenAI 年化收入約 250 億美元。 Anthropic 約 190 億。xAI 約 4.28 億。OpenAI 的收入增速超過了 Uber 和 Moderna 在類似階段的表現(xiàn)。但 Google 2025 年資本支出超過 1500 億，算力成本在快速攀升

生成式 AI 在三年內(nèi)達(dá)到 53% 人口滲透率，比 PC 和互聯(lián)網(wǎng)都快

GenAI 工具給美國消費(fèi)者帶來的年度剩余價值估算達(dá) 1720 億美元。 一年前是 1120 億。使用 GenAI 的美國成年人從 9500 萬增加到 1.25 億，每用戶中位價值從 3.40 美元漲到 11.40 美元（+235%）。這個消費(fèi)者剩余遠(yuǎn)超 GenAI 企業(yè)的收入總和。各國差異大：阿聯(lián)酋 64%，新加坡 61%，法國 44%，美國排第 24 位只有 28.3%

企業(yè)層面，88% 的組織在至少一個業(yè)務(wù)功能中使用了 AI。但 AI Agent 的采用仍處于早期，幾乎所有業(yè)務(wù)功能中大規(guī)模使用 Agent 的比例都是個位數(shù)

22-25 歲軟件開發(fā)者就業(yè)人數(shù)從 2022 年峰值到 2025 年 9 月下降近 20%

在 AI 暴露程度最高的職業(yè)中，22-25 歲工人的就業(yè)相對暴露最低的職業(yè)下降了約 16%。自 GenAI 引入以來的職業(yè)流動速度，快于計(jì)算機(jī)和互聯(lián)網(wǎng)引入后的同期速度。三分之一的組織預(yù)計(jì) AI 將在未來一年減少員工

生產(chǎn)率提升在結(jié)構(gòu)化工作中最明顯。客戶支持 14%-15%（Brynjolfsson et al.），軟件開發(fā) 26%（Cui et al.，GitHub Copilot），營銷產(chǎn)出 50%（Ju & Aral），會計(jì) 55%（Choi & Xie）。METR 的研究發(fā)現(xiàn)經(jīng)驗(yàn)豐富的開源開發(fā)者反而慢了 19%（但后續(xù)未能復(fù)現(xiàn)）。依賴 AI 學(xué)習(xí)的軟件工程師沒有表現(xiàn)出可測量的速度提升，研究者稱之為「學(xué)習(xí)懲罰」

宏觀層面，美國 2025 年生產(chǎn)率增長達(dá) 2.7%，接近過去十年 1.4% 平均值的兩倍。Brynjolfsson 將此解讀為「J 曲線」的早期階段。12,000 家歐洲企業(yè)的研究發(fā)現(xiàn) AI 采用提升了 4% 的勞動生產(chǎn)率

中國繼續(xù)安裝全球一半以上的工業(yè)機(jī)器人（2024 年 54%），差距還在擴(kuò)大。臺灣以 33% 的同比增長率領(lǐng)跑

第五章：科學(xué)

今年新獨(dú)立的章節(jié)，與 Schmidt Sciences 合作開發(fā)

AI 相關(guān)科學(xué)論文在 2025 年達(dá)到約 80,150 篇，同比增長 26%。AI 方法占科學(xué)研究產(chǎn)出的 5.8%-8.8%，2010 年低于 1%。地球科學(xué)的 AI 滲透率最高（8.8%），其次是整體自然科學(xué)（6.8%）和生命科學(xué)（6.5%）

AI 在科學(xué)中的角色分三個層次：第一層是傳統(tǒng)的科學(xué)數(shù)據(jù)機(jī)器學(xué)習(xí)，已經(jīng)成熟；第二層是輔助科學(xué)家工作流（文獻(xiàn)綜合、實(shí)驗(yàn)設(shè)計(jì)、數(shù)據(jù)分析），2025 年大幅擴(kuò)展；第三層是自主發(fā)現(xiàn)，仍在早期階段

在分子生物學(xué)領(lǐng)域，小模型在打敗大模型。 MSAPairformer 只有 1.11 億參數(shù)，在 ProteinGym 上打敗了之前的領(lǐng)先方法。GPN-Star 2 億參數(shù)的基因組學(xué)模型打敗了近 200 倍大的模型

虛擬細(xì)胞模型在 2025 年出現(xiàn)突破，包括 Arc Institute 的 Evo 2（400 億參數(shù)，訓(xùn)練數(shù)據(jù) 9.3 萬億堿基對，全開源）、STATE 和 DeepMind 的 AlphaGenome（從 DNA 預(yù)測數(shù)千種功能測量）。天文學(xué)發(fā)布了第一個基礎(chǔ)模型 AION-1，訓(xùn)練于 2 億多個天體

AI 首次端到端運(yùn)行了完整的天氣預(yù)報流程。Aardvark Weather 用單個 ML 系統(tǒng)替換了傳統(tǒng)數(shù)值預(yù)報流水線。FourCastNet 3 在不到 4 分鐘內(nèi)生成 60 天全球預(yù)報，比之前的方法快 8-60 倍。材料科學(xué)方面，微軟的 MatterGen 用擴(kuò)散模型生成新材料，新穎性和穩(wěn)定性是此前方法的 2 倍以上

ClimateAgent 完成了 85 個氣候任務(wù)，完成率 100%，質(zhì)量評分 8.32，超過 Microsoft Copilot 的 6.27 和 GPT-5 的 3.26

Sakana 的 AI Scientist-v2 產(chǎn)出了第一篇完全由 AI 生成并被同行評審（ICLR 2025 Workshop）接受的論文。Google 的 AI Co-scientist 在 GPQA Diamond 上達(dá)到 78.4% 的 top-1 準(zhǔn)確率。Kosmos 在單次 12 小時運(yùn)行中執(zhí)行平均 42,000 行代碼并閱讀 1,500 篇論文，約相當(dāng)于 6 個月的研究工作量

但 frontier agents 在論文級復(fù)現(xiàn)任務(wù)上的得分仍然低于 20%。能提出計(jì)算假設(shè)和能實(shí)驗(yàn)驗(yàn)證之間的差距仍然很大

第六章：醫(yī)療

同樣是今年新獨(dú)立的章節(jié)

AI 驅(qū)動的蛋白質(zhì)研究在 2024 到 2025 年間增長了約 71%。蛋白質(zhì)-藥物相互作用占論文的最大份額（54.4%）。隨著共折疊模型已經(jīng)可以表示蛋白質(zhì)數(shù)據(jù)庫中的所有結(jié)構(gòu)類型，瓶頸正在從架構(gòu)轉(zhuǎn)向數(shù)據(jù)

環(huán)境筆記 AI 是 2025 年臨床 AI 中采用最廣的品類。 Abridge 從約 100 家擴(kuò)展到 150 多家醫(yī)療系統(tǒng)，Kaiser Permanente 在 40 家醫(yī)院和 600 多個診所部署。Sharp HealthCare 報告筆記寫作工作量減少 83%。芝加哥大學(xué)醫(yī)學(xué)中心認(rèn)知負(fù)荷降低 47%，不分心地關(guān)注患者的時間增加 58%。斯坦福醫(yī)療（48 名醫(yī)生的前瞻性研究）每半天門診節(jié)省 20 分鐘，職業(yè)倦怠顯著降低

膿毒癥預(yù)測取得實(shí)質(zhì)進(jìn)展。TREWS（約翰霍普金斯/Bayesian Health）在克利夫蘭診所 13 家醫(yī)院部署后：膿毒癥死亡率相對降低 18.7%，首次抗生素使用時間提前 1.85 小時，ICU 使用降低 10%，臨床醫(yī)生采用率 89%。COMPOSER（加州大學(xué)圣地亞哥分校）：膿毒癥死亡率降低 17%，估計(jì)每年挽救 50 條生命

診斷方面，微軟的 MAI-DxO 搭配 OpenAI 的 o3 在 NEJM 疑難病例上達(dá)到 85.5%，21 名執(zhí)業(yè)醫(yī)生（5-20 年經(jīng)驗(yàn)）在類似條件下約 20%。MedAgentBench 上最佳模型在虛擬電子病歷環(huán)境中達(dá)到 69.7% 的任務(wù)成功率

2025 年 FDA 授權(quán)了 258 個 AI 醫(yī)療設(shè)備，已超過此前任何完整年度。 累計(jì)總數(shù)達(dá)到 1,357 個。放射學(xué)占 76.6%。絕大多數(shù)通過 510(k) 通道上市（不要求新臨床試驗(yàn)），只有 2.4% 有隨機(jī)試驗(yàn)數(shù)據(jù)支撐

AI 生成的摘要現(xiàn)在出現(xiàn)在 84%-92% 的健康相關(guān) Google 搜索結(jié)果頂部

癥狀和常見健康問題觸發(fā) AI 概覽的比例最高（92%），其次是治療和疾病查詢。這正在塑造用戶對健康問題的初始理解

臨床 AI 的證據(jù)基礎(chǔ)依然薄弱。超過 500 項(xiàng)臨床 AI 研究的綜述發(fā)現(xiàn)，近一半使用的是考試題而非真實(shí)患者數(shù)據(jù)，只有 5% 使用了真實(shí)臨床數(shù)據(jù)

醫(yī)學(xué)數(shù)字孿生的研究興趣增長迅速。在一項(xiàng) 150 名糖尿病患者的隨機(jī)試驗(yàn)中，71% 在一年內(nèi)達(dá)到了健康血糖水平，同時安全地減少了用藥

醫(yī)學(xué) AI 論文中的倫理討論在 2025 年翻倍，但話題集中在治理層面，算法問責(zé)、生物安全和全球健康公平仍然被忽視

第七章：教育

美國四年制大學(xué)的 CS 入學(xué)人數(shù)在 2024 到 2025 年間下降了 11%，學(xué)生在對入門級 CS 崗位的就業(yè)前景做出反應(yīng)。但 AI 軟件相關(guān)碩士畢業(yè)生在 2022-2024 年間增長了 82%

美國高中和大學(xué)生使用 AI 的情況

全球 80% 的大學(xué)生使用過 GenAI 學(xué)習(xí)（2023 年是 40%）。60% 的美國高中生用 GenAI 做研究、編輯論文和頭腦風(fēng)暴。Anthropic 對 Claude 使用數(shù)據(jù)的分析顯示，學(xué)生主要用于高階任務(wù)：創(chuàng)造（39.8%）和分析（30.2%）

但只有約一半的美國中學(xué)和高中有 AI 政策，只有 6% 的教師認(rèn)為學(xué)校的 AI 政策清晰。47% 的學(xué)生想用 AI 做作業(yè)但不確定是否被允許

美國和加拿大新增 AI PhD 從 2022 到 2024 年增長 22%，達(dá)到 442 人，但新增的 PhD 全部去了學(xué)術(shù)界而非產(chǎn)業(yè)界，扭轉(zhuǎn)了過去十年的趨勢

全球 90% 以上的國家已向中小學(xué)生提供 CS 課程，但 AI 教育推進(jìn)更慢。中國和阿聯(lián)酋從 2025-26 學(xué)年強(qiáng)制要求 AI 教育。韓國在 2025 年 3 月推出 AI 教科書后因家長和教師反對而撤回

第八章：政策與治理

今年報告新增了 AI 主權(quán)分析框架，覆蓋基礎(chǔ)設(shè)施主權(quán)、數(shù)據(jù)主權(quán)、模型主權(quán)、應(yīng)用主權(quán)和人才主權(quán)五個維度。國家支持的 AI 超算集群：中國以 85 個領(lǐng)先。 歐洲/中亞 44 個，北美 41 個。南亞 2 個，拉美 3 個，中東北非 8 個

全球 AI 相關(guān)立法數(shù)量趨勢

全球 AI 政策方向分裂。2025 年 1 月特朗普簽署行政命令撤銷了拜登的 AI 行政命令 14110，轉(zhuǎn)向去監(jiān)管和創(chuàng)新。2 月 EU AI Act 第一階段生效，禁止預(yù)測性執(zhí)法和情感識別等高風(fēng)險應(yīng)用。巴黎 AI 行動峰會上美國和英國拒絕簽署 60 個國家背書的包容性 AI 宣言

7 月美國參議院通過了 10 年聯(lián)邦禁令阻止州級 AI 立法。但州級立法在快速增長：從 2020 年的不到 10 部增加到 2025 年的 150 部，加州一個州在 2025 年就通過了 20 部 AI 法案

模型產(chǎn)出仍高度集中：美國累計(jì) 1,618 個，中國 849 個，歐洲 666 個，拉丁美洲只有 2 個。數(shù)據(jù)本地化措施：東亞太平洋 77 項(xiàng)，撒哈拉以南非洲 71 項(xiàng)，北美只有 3 項(xiàng)。超過一半的新 AI 國家戰(zhàn)略來自發(fā)展中經(jīng)濟(jì)體

美國國會 AI 相關(guān)聽證證人從 2017 年的 5 人增長到 2023 年峰值 131 人。產(chǎn)業(yè)界證人占比從 13% 升到 37%，成為最大群體。學(xué)術(shù)界降至 15%，政府降至 10%

美國公共投資與私人支出相比微不足道。 2013 到 2024 年美國在 AI 相關(guān)合同和撥款上投入約 204 億，而 2025 年一年美國私人 AI 投資就有 2859 億。歐洲 AI 公共承諾在 2013-2024 年間約 37 億美元（英國 16 億，德國 5.05 億，法國 3.2 億）

第九章：公眾輿論

全球 AI 樂觀主義和焦慮同時上升。認(rèn)為 AI 利大于弊的比例從 55% 升到 59%，但認(rèn)為 AI 產(chǎn)品讓自己緊張的比例升到了 52%。超過一半的受訪者認(rèn)為自己對 AI 有良好理解

東南亞仍是全球最樂觀的地區(qū)。馬來西亞、泰國、印度尼西亞、新加坡超過 80% 認(rèn)為 AI 將在 3-5 年內(nèi)深刻改變生活。德國（+12 個百分點(diǎn)）、法國（+10）和中國（+9）的樂觀情緒在 2022-2025 年間增長最多

印度是 AI 焦慮上升最快的國家。 擔(dān)憂增加了 14 個百分點(diǎn)，樂觀只增加了 2 個百分點(diǎn)

工作場所 AI 使用在新興經(jīng)濟(jì)體中高于許多發(fā)達(dá)經(jīng)濟(jì)體。全球 58% 的員工報告半定期或定期使用 AI 工作，但在印度、中國、尼日利亞、阿聯(lián)酋和沙特，這一比例超過 80%

AI 專家和公眾的看法幾乎在所有維度上都存在巨大分歧

就業(yè)影響：專家 73% 積極 vs 公眾 23%（差距 50 個百分點(diǎn)）。經(jīng)濟(jì)影響：69% vs 21%。醫(yī)療：84% vs 44%。兩組人唯一的共識是 AI 會損害選舉和人際關(guān)系

64% 的美國人預(yù)期未來 20 年 AI 會減少就業(yè)，只有 5% 認(rèn)為會增加。專家沒那么悲觀（39% 減少，19% 增加），但預(yù)測采用速度快得多：專家預(yù)計(jì) 2030 年生成式 AI 輔助 80% 的美國工作時長，公眾的預(yù)期是 10%

AI 伴侶目前仍是小眾行為。2025 年 8 月一起與 AI 伴侶互動相關(guān)的青少年自殺事件引發(fā)了美國立法審查。專家預(yù)測到 2027 年 10% 的美國成年人將每天使用 AI 伴侶，2040 年 30%

美國對自己政府監(jiān)管 AI 的信任度全球最低，只有 31%。 全球平均 54%。新加坡最高 81%，印尼 76%，日本 32%。全球范圍內(nèi)，歐盟被認(rèn)為比美國或中國更可信地監(jiān)管 AI（53% vs 37% vs 27%）。全部 50 個美國州中，擔(dān)心監(jiān)管不足的人多于擔(dān)心監(jiān)管過度的人（41% vs 27%）

報告原文 423 頁，配套數(shù)據(jù)集在 Google Drive 上公開，詳情看這里

https://hai.stanford.edu/ai-index/2026-ai-index-report

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.