![]()
導語
從n-gram的統計預測到Transformer的注意力機制,從GPT的上下文學習到RLHF與GRPO對齊,再到AI Agent與Harness工程范式的興起,大語言模型正在完成從“生成文本”到“理解世界并執行任務”的躍遷。本文系統梳理這一技術演進主線,揭示AI能力涌現背后的核心機制:信息如何被聚合、表示與調度,以及人類如何一步步從“提示模型”走向“駕馭系統”。
關鍵詞:大語言模型、Transformer、注意力機制、預訓練、上下文學習、RLHF、GRPO、涌現能力、Scaling Law、思維鏈、AI Agent、Harness工程、信息聚合、模型對齊
付雯欣丨整理
張江丨講者
引言
2026年的春天,AI圈子的熱詞幾乎在以周為單位更迭:Skills、MCP、OpenClaw、Harness、Hermes Agent……對AI感興趣的所有人都狠狠體驗了一把“學完你的學你的”。這股熱潮,像極了2010年左右移動互聯網初期的“App爆炸”。那時,每天都有無數個應用誕生,也有無數個應用迅速被人遺忘。
回頭看,那場“App爆炸”最后留下了什么?表面上看,是微信、美團、抖音這些超級應用。但更深層的或許是:它重構了信息傳遞的方向和方式——從PC時代的“人找信息”,變成了移動互聯網時代的“信息找人”(推送)和“人隨人走”(社交媒體)。
那么,這場令人應接不暇的AI浪潮背后是什么?或許它在告訴我們,一個更本質的變化正在發生:AI正在從“預測”走向“行動”。 語言模型最初只是預測下一個詞,現在它可以調用搜索引擎、執行代碼、操控瀏覽器、根據反饋修正策略。
從被動的文本生成器,到主動的任務執行者,這背后是一整套架構的演變,北京師范大學系統科學學院教授、集智俱樂部創始人張江老師在《面向復雜系統的人工智能》課程第七講中將其拆解為:Transformer讓信息聚合變得動態靈活,GPT用預訓練撬動了通用能力,RLHF讓模型的行為與人類意圖對齊,推理打開了“思考深度”這個新維度,而從Prompt到Harness的工程范式演進,則在重新定義人類如何駕馭這個日益強大的智能引擎。
下文將沿著這條完整的線索,解碼大語言模型的技術內核與演變路徑。
一、語言模型的五次跳躍:
從數詞頻到理解世界
語言模型的核心任務從未改變——給定前面的詞,預測下一個詞。用概率語言表達,就是建模條件概率分布:
![]()
整個句子的概率可以用鏈式法則展開:
![]()
四十年來,圍繞如何得到這個條件概率,語言模型經歷了五次質的跳躍,每一次突破背后都是底層范式的徹底切換。
第一階段:統計語言模型(1990s-2006)。
其中最有名的n-gram模型假設當前詞只依賴前n-1個詞[1-3],將條件概率簡化為:
![]()
其概率通過語料庫中的頻率統計進行估計:
![]()
如果緊跟在“我想吃”這個詞后的詞語中,“蘋果”出現了200次,而“飛機”出現了3次,那模型就會預測“我想吃”的下一個詞是“蘋果”。這種方法簡單、直觀,在語音識別和機器翻譯中被使用了近二十年。但它有一個致命問題,那就是維度爆炸。如果詞表大小為V,n-gram模型需要存儲Vn個條件概率。當V=50000,n=5時,這個數字會達到500005≈ 3×1023,這是一個非常大的數字,而且耗費如此大的精力去存儲它未必能得到最好的結果。今天回看,這已是“古董級”技術,但它也讓我們明白:語言模型的本質是概率預測。
第二階段:詞向量與神經語言模型(2003-2017)。學術界很快發現,詞向量空間過大,且one-hot編碼難以表示詞語間的相似性,并提出使用詞嵌入(word embedding)方法來解決n-gram的數據稀疏問題[4]。 2013年,Mikolov等人發表了著名的Word2Vec論文[5]。其核心思想是:把每個詞映射到一個低維向量空間里,讓語義相近的詞在空間中靠近,如圖1所示。每個詞w被表示為一個d維向量,通過訓練使得經常共同出現的詞的向量余弦相似度更高:
![]()
![]()
圖1:詞向量空間中,語義相近的詞距離更近
“國王-男人+女人≈王后”這個著名的例子,可以用向量運算表達為:
![]()
由于把詞向量降到了低維連續空間,語義關系變成了可計算的幾何關系。
Word2Vec論文的作者Mikolov還將LSTM首次大規模應用于統計語言模型,在語音識別任務上將困惑度大幅降低,超越了n-gram,并直接啟發了后續的ELMo、GPT等模型[6]。
第三階段:預訓練語言模型(2018-2020)。2018年,Google發布BERT,OpenAI發布GPT-1。兩者都基于Transformer架構,但走了不同的路:BERT用雙向編碼器做掩碼語言建模(類似于“完形填空”),GPT用單向解碼器做自回歸生成(類似于“接龍”)。共同點是預訓練-微調范式:先在海量無標注文本上學習通用知識,再在具體任務上微調。這實現了一個模型適配多領域任務,NLP領域幾乎所有任務的最優成績在一年內被全面刷新。
第四階段:大語言模型爆發(2020-2024)。GPT-3(1750億參數)的出現標志著新階段。參數的暴力堆疊帶來了出乎意料的結果:模型可以僅通過在輸入提示(prompt)中提供的示例(demonstrations)來“即時”學習并執行新任務,而不更新模型權重或參數 ,也不需要傳統的微調過程,這就是“上下文學習”。
上下文學習(In-context Learning)是大語言模型區別于傳統機器學習的最顯著特征。如圖2所示,給ChatGPT輸入“Delicious food→Positive,The food is awful→Negative,Good Meal→?”,它會輸出“Positive”,它沒有經歷過微調,僅從上下文的幾個例子就歸納出了規則并輸出了正確的結果。
大語言模型是怎么做到的呢?2023年的一系列理論工作揭示了一個深刻的聯系:Transformer的上下文學習,在數學上等價于隱式的梯度下降。考慮一個簡化的單層線性注意力模型。給定n個示例(xi, yi)作為上下文,以及一個查詢xquery,模型的前向傳播可以寫成:
![]()
其中。這恰好等價于在W0 = 0的初始化下,對線性回歸損失做一步梯度下降所得到的權重矩陣[7-8]。
![]()
圖2:上下文學習的核心機制:不更新模型參數,僅通過提供幾個示例演示作為模板,讓大語言模型類比學習并執行新任務。
換句話說,少量示例就可以“誘導”模型表現出類似于經過訓練后的行為,模型似乎學會了“學習”本身。
更令人驚訝的是,這種能力在小模型上幾乎不存在,它是在參數規模跨過某個臨界值后“涌現”的結果。到了GPT-4,大模型開始展現AGI的雛形,這也引發了一個哲學層面的問題:當一個模型僅通過預測下一個詞就能通過律師考試、寫出可運行的代碼,“理解”和“模仿”的界限在哪里?模型能否突破“鸚鵡學舌”,學習到語言的因果律?
第五階段:多模態融合與智能體(2024-至今)。語言不再是大模型唯一接受的輸入方式,圖像、語音、視頻被統一到同一套表示框架里。同時,大模型通過工具調用和環境交互,開始走向智能體,可以自主判斷每一步需要做什么并調用工具執行任務。
圖3對近三十年語言模型的發展做了一個總結。
![]()
圖3:語言模型的五個階段:從統計模型到智能體
二、Transformer:注意力是如何工作的
2017年,Google的研究團隊發表了那篇后來被引用超過十萬次的論文《Attention Is All You Need》[9]。近十年過去了,這篇論文提出的注意力機制,已經從一個自然語言處理的局部創新,變成了整個AI領域的基礎設施,GPT系列、BERT、Stable Diffusion的圖像生成、AlphaFold2的蛋白質結構預測等耳熟能詳的AI名詞均建立在此基礎上。
市面上講Transformer的材料已經太多:Q、K、V、多頭注意力、殘差連接、位置編碼……公式嚴密,但容易讓人“知其然,不知其所以然”。我們換一個更本質的問題來追問:從全連接到卷積,從圖神經網絡到Transformer,這些模型架構到底在進化什么?
答案是:信息聚合的方式。
沿著這條“信息聚合”的線索,語言模型的發展脈絡會變得異常清晰:從固定的全連接,到局部的卷積,到預設的圖網絡,最終到達現在的動態、上下文驅動、全互聯的注意力機制,模型可能越改越復雜,數據量和參數量可能越來越大,但最本質的變化是“信息聚合的建模方式越來越貼近現實世界”。
2.1 一個信息聚合問題
在解釋注意力機制之前,先思考一個更一般的問題:神經網絡的核心操作是什么?
答案是信息聚合——每個節點需要從其他節點收集信息,更新自己的表示。不同架構用不同的聚合策略:
全連接網絡:每個節點跟所有節點交互,信息充分但參數量爆炸。
卷積網絡(CNN):如圖4所示,卷積網絡注重局部鄰域交互,利用空間局部性,但表現亦有限。
循環網絡(RNN/LSTM):信息沿序列方向逐步傳遞,能處理變長序列,但串行瓶頸鎖死效率。
![]()
圖4:卷積網絡可視作將局域信息進行聚合的過程
注意力機制的本質,是一種動態的、數據驅動的信息聚合方式。它讓每個節點根據當前的內容,自主決定應該關注誰、關注多少。而且至關重要的是,它可以完全并行計算。
2.2 從連邊預測到注意力:Q、K、V的由來
理解注意力機制的最好方式,是聚焦一個基本的問題:信息該怎么在詞與詞之間流動?
把N個詞看作圖上的把N個節點,最直接的做法是給每兩個詞之間連一條帶權重的邊,用一個N × N的矩陣A描述所有連接強度,A就是詞之間信息流動的方式(投影),每個詞的新表示就是所有詞的舊表示按權重加權求和:H'=AH。
問題是:這個N × N的矩陣太大了。當N = 4096時,A有近1700萬個元素,而且序列長度一變,矩陣維度也會變。我們想要的是一個動態的、隨輸入內容變化的連接權重,直接存儲A既不經濟也不靈活。
我們可以換一個思路:不存儲這個矩陣,只在需要的時候臨時算出來。這就變成了一個連邊預測問題:給定兩個節點的特征,預測它們之間的連接強度。最自然的預測方式是向量內積:方向一致(語義相關)則內積大、連邊強,方向正交則連邊弱。整個權重矩陣直接算出來:A=HHT。這樣不需要額外參數,且天然適應任意序列長度。
但若同一個向量既做“發出查詢”又做“被查詢”,其表達能力是有限的。例如,“it”在做指代消解時,需要表達“我在找一個名詞”;“cat”被查詢時,需要呈現“我是一個動物名詞”。兩種角色混用同一個向量,信息會打架。一個自然的解決方案是將兩者分離——用不同的線性變換把同一個輸入映射到不同的語義空間,如圖5所示,Q、K、V正是這種建模視角下的信息表示方式:
Query = “我在找什么”:Q=XWQ
Key = “我有什么可以被找到”:K=XWK
Value = “找到我之后能提供什么”:V=XWV
![]()
圖5:注意力機制本質上是把詞間關系建模為動態連邊預測問題:用 Query 與 Key 的內積預測任意兩詞之間的連接強度,再以此權重對 Value 進行加權聚合,從而完成詞間的信息流動。
連邊預測從變成了,而Value的引入進一步解耦了“用什么計算相關性”和“傳遞什么信息”。把這些組合起來,就得到了縮放點積注意力。給定輸入序列(N個詞,每個詞d維表示):
![]()
從網絡科學的角度看,注意力機制的本質,更像是一種參數高效的、內容自適應的連邊預測方案——用O(d2)的投影參數替代了O(N2)的顯式連接矩陣,同時獲得了動態性和泛化性。
逐步拆解這個公式:
第一步:。這是一個N × N的注意力分數矩陣,第(i,j)個元素衡量的是第i個詞對第j個詞的關注程度。從幾何角度看,這就是Query向量和Key向量的點積——兩個向量方向越一致,點積越大,語義相關性越高。
第二步:除以。當dk很大時,點積的方差與dk成正比。假設q和k的每個分量獨立且均值為0、方差為1,則的方差為dk。如果不做縮放,點積值會很大,Softmax輸出接近one-hot分布,梯度趨近于零。除以將方差拉回1,保證Softmax在有效區間內工作。
第三步:Softmax歸一化。將分數轉化為概率分布:
![]()
每一行的注意力權重之和為1,形成一個概率分布。
第四步:加權求和。第i個位置的輸出是所有Value向量的加權平均:
![]()
從幾何角度看,注意力機制在序列上動態構造了一個有向的、加權的信息網絡。每個詞根據語義相關性,從其他所有詞那里汲取信息。“The cat sat on the mat because it was tired”——當處理“it”這個詞時,注意力權重αit, cat應當遠大于αit, mat,從而正確解析指代關系。
2.3 多頭注意力:同時關注多種關系
一個注意力頭只能學習一種關注模式,但語言中的關系是多元的,如圖6所示,多頭注意力(Multi-head Attention)讓模型同時學習多種不同的關注模式:
![]()
圖6:多頭注意力機制中,每個頭的關注不同
![]()
其中,
原論文中,d=512,有h=8個頭,每個頭dk = dv = d/h = 64維[9]。不同的頭可以關注不同的語義維度:某個頭關注語法依存關系,某個頭關注指代關系,某個頭關注位置鄰近性。最后通過W0將拼接后的hdv維向量映射回d維。
2.4 殘差連接:從正向到反向的雙重合理性
深層網絡面臨一個核心困難:每一層的變換F(x)可能非常不光滑。它是多層運算加上注意力機制的復合結果,輸出的數值可能劇烈跳躍——高維向量的每個分量跨度都很大,不一定落在我們所期望的范圍內。如果讓網絡直接學習從輸入到輸出的完整映射Y = F(x),這種跳躍會讓學習變得極其困難。
2015年,何愷明等人在ResNet論文中提出了一個極簡但極其有效的解決方案:跳躍連接(Skip Connection)[11]。如圖7所示,其核心思想是將每一層的輸出從變為原始輸入加上一個殘差:
Y =x+ F(x)
![]()
圖7:引入恒等映射可以跳躍連接(ResNet),圖片由GPT Image 2生成
從正向(前向傳播)的角度看,這個設計有一個樸素但有效的好處:當x本身的數量級足夠大時,F(x)相對于x就成了一個小的擾動量。Y的值幾乎約等于x的數量級,F(x)中那些劇烈的跳躍被“壓縮”了——它不再決定輸出的整體形態,只是在x的基礎上做微調。
這意味著網絡不再需要從零學習一個可能非常復雜、跳躍劇烈的完整映射,而只需要學習一個殘差——輸入和目標之間的差異。這個差異往往比完整映射光滑得多、數值范圍小得多,自然也好學得多。這背后也有直覺性的支撐:直接預測明天的股價很難,但預測今天和明天的差值就容易很多——因為差值的波動幅度遠小于絕對值。
從反向(反向傳播)的角度看,殘差連接解決的是梯度消失問題——這也是何愷明等人在ResNet原始論文中重點論證的角度。對x求梯度:
![]()
關鍵在于恒等矩陣I。不管F的梯度多小甚至趨近于零,梯度總有一個“1”兜底。殘差連接讓梯度可以跨層直接傳遞——從頂層一下子傳到底層,不需要逐層衰減地穿過每一個F。這也是為什么以前的網絡做不深:沒有殘差連接時,梯度必須逐層相乘,層數一多就指數級消失或爆炸。加上殘差連接后,網絡可以穩定地堆疊到幾十層、上百層甚至更深。
還有一個更深層的視角值得一提。如果把Y看作t+1時刻的狀態,x看作t時刻的狀態,殘差連接就是一個差分方程:
![]()
當時間間隔取得足夠小時,這就變成了一個常微分方程(ODE):
![]()
沿著這個思路,Chen等[12]提出了Neural ODE——用微分方程求解器替代離散的網絡層,將深度學習和動力系統理論聯系起來。從這個角度看,一個L層的殘差網絡就是對一個連續動力系統的L步離散化,而層數趨于無窮時,它就趨近于一個連續的微分方程。殘差連接不僅是一個工程技巧,它揭示了深度網絡的本質是對連續變換過程的離散逼近。
2.5 歸一化與前饋網絡
殘差連接解決了梯度流通問題,但深層網絡還面臨另一個挑戰:數據不對齊。最開始,原始特征之間量綱差異巨大,需要做歸一化讓它們在同一尺度下。而進入網絡之后,隨著參數更新,每一層看到的輸入分布也在不斷漂移。因此必須引入歸一化。
歸一化的核心操作很簡單:把數據拉回均值為0、方差為1的標準分布。給定一組數值{x1, x2, ……, xn},做變換:
![]()
其中是均值,是標準差,?是一個極小值(通常為10-5或10-6),是為防止除以零而設的參數。
但強制把所有輸出拉到標準分布,可能會破壞網絡學到的有用表示。所以歸一化之后還要接兩個可學習參數——縮放因子γ和平移因子β:
![]()
如果學到γ=σ、β=μ,就完全恢復了原始分布。
不同的求均值和方差的方式,衍生出了不同的技術流派:Layer Norm與Batch Norm。為了講清楚這兩種方法的區別,我們需要先明確數據的維度。在NLP任務中,一個mini-batch的數據可以表示為一個三維張量:
![]()
其中B是batch size(一次訓練多少個樣本),N是序列長度(一個句子有多少個詞),d是特征維度(每個詞的向量維數)。
想象一個B×N×d的長方體,每個小格子存儲一個標量值。如圖8所示,歸一化的本質問題是:該沿著哪個方向“切一刀”來計算均值和方差?
![]()
圖8:Batch Norm和Layer Norm的圖解(圖片由GPT Image 2生成)
批歸一化(Batch Norm)
批歸一化(Batch Norm)的切法是沿Batch維度切,即在一個批次的數據內,對同一個特征維度求均值和標準差。
對于特征維度d中的第k個維度,收集同一個batch內所有樣本、所有位置上該維度的值,計算統計量:
![]()
Batch Norm在計算機視覺中效果出色,它的成功有一個隱含前提:同一個特征在不同樣本之間是可比較的。在圖像中,第k個卷積核檢測的是同一種視覺模式(比如邊緣或紋理),不同圖像在該特征上的分布確實應該被拉齊。
但在NLP中,這個前提出了問題:
變長序列。一個batch中,有的句子5個詞,有的50個詞。短句需要padding,但padding位置的值是無意義的,它們會污染均值和方差的計算。
位置語義差異。序列中不同位置的含義往往不同——句首是主語、句中是謂語、句末可能是標點。跨位置混合計算統計量不太合理。
Batch依賴性。Batch Norm的統計量依賴于當前mini-batch的樣本組成。Batch size太小時,統計量估計不準,訓練不穩定。推理時需要用訓練階段的移動平均統計量,引入了訓練-推理不一致的問題。
不同于Batch Norm,Layer Norm是在同一樣本的所有維度上計算,即“沿特征維度切”,更適合變長序列。對于同一個樣本的同一個位置,收集該位置向量的所有d個維度的值,計算統計量:
![]()
Transformer中沒有使用Batch Norm,建立在其上的一系列模型也是清一色地只使用Layer Norm做歸一化,消除不同特征量綱的影響。
RMSNorm:更簡潔的選擇
DeepSeek系列進一步采用了RMSNorm(Root Mean Square Normalization)[13],思路更加激進——去掉減均值的步驟,只保留縮放:
![]()
其中均方根值的計算為:
![]()
為什么可以省掉減均值?RMSNorm的作者認為,歸一化的核心價值在于控制向量的尺度(模長),使其不會隨著層數增加而爆炸或消失。減均值的操作提供的額外好處相對有限,去掉它可以節省計算量。
實驗驗證了這個判斷:在多數任務上,RMSNorm的效果與Layer Norm幾乎無差異,但因為減少了均值的計算和減法操作,在大規模模型訓練中可以帶來約5%~10%的速度提升[13]。當模型參數達到數百億甚至數千億量級時,這個比例對應的是大量的GPU小時和真金白銀。
LLaMA、DeepSeek-V3、Gemma等當前主流的大語言模型都采用了RMSNorm,在效果和效率之間取得了最優平衡[14-16]。
前饋網絡:信息聚合之后的信息處理
從信息流動的角度,上述的注意力機制已經讓每個詞看到了所有其他詞的信息,但關鍵在于,注意力層完成的是信息聚合,但它的運算以線性為主。雖然Softmax引入了非線性,但僅這一層非線性的處理能力是有限的。加權求和本質上是一個線性組合——把信息收集過來了,但還沒有對這些信息做充分的非線性加工。
![]()
圖9:FFN層的作用機制
而在現實世界中,信息的處理方式絕非簡單的線性組合就可以被表達完全。前饋網絡(FFN)將這一塊補上了,如圖9所示,它的結構是“先放大再壓縮”:
![]()
從d維輸入,先通過放大到4d維,將網絡變寬,在更高維的空間中做非線性變換(ReLU激活),再通過壓縮回d維輸出。在此過程中,放大是為了增加表達能力,壓縮是為了保持維度一致,方便殘差連接和層間傳遞。
綜上,一個Transformer層的分工是:
注意力層:信息聚合,建立詞與詞之間的動態連接,解決的是“應該從誰那里獲取信息”。
前饋網絡:信息處理,通過多層非線性變換提取更深層的特征,解決的是“拿到信息之后怎么加工”。
DeepSeek-V3的主要改動恰恰集中在這兩個不那么性感的組件上:Norm從Layer Norm換成了RMSNorm(計算更快),FFN從標準前饋網絡換成了混合專家系統(MoE)——不同的輸入被路由到不同的專家子網絡處理,大幅提升參數效率[15],而注意力機制本身基本沒有改動。
這說明一個值得玩味的事實:Transformer的核心創新是注意力機制,但后續迭代的主戰場,反而是那些看起來不那么重要的工程組件。殘差連接、歸一化、前饋網絡——這些技術大多是過去十到二十年里積累下來的工程化技巧,單獨拿出來都不算驚艷,但在實際訓練中,加上跟不加,效果差別巨大,它們是讓Transformer從論文走向工業級系統的基礎設施。
2.5 位置編碼:讓注意力“知道”順序
語言是有順序的,“狗咬人”和“人咬狗”意思完全不同。因此,需要引入位置編碼讓注意力明白位置與順序,常見的一個方案是用正弦和余弦函數進行位置編碼:
![]()
其中pos是位置索引,i是維度索引。在許多處理方案中,位置編碼向量會被直接加到詞嵌入向量上:。
![]()
圖10:Transformer中的正弦余弦位置編碼公式,這種編碼能讓模型更容易通過相對位置信息來學習注意力
一個很自然的問題是:為什么用三角函數而不是簡單使用位置的編號?
第一,值域有界且連續。簡單編號的問題是序列很長時數值差異很大,而三角函數始終在[-1, 1]之間。
第二,這種方法可以通過三角函數的和差公式天然體現相對位置:
![]()
位置pos+k的編碼可以通過位置pos的編碼經線性變換得到——模型不需要記住絕對位置,只需學習位置之間的偏移量。如圖10所示,直觀上來看,不同維度使用不同頻率的正弦波,類似二進制編碼中不同位的翻轉頻率——低頻維度編碼大尺度位置信息,高頻維度編碼細粒度位置信息。
2.6 編碼器-解碼器:完整的信息流
如圖11所示,完整的Transformer是編碼器-解碼器結構。解碼器比編碼器多了兩個關鍵設計:
1. 掩碼自注意力(Masked Self-Attention)。在注意力分數矩陣中,將未來位置設為-∞:
![]()
其中掩碼矩陣M的上三角部分為-∞,經過Softmax后變為0,確保生成第t個詞時只能看到前t-1個詞。
2. 交叉注意力(Cross-Attention)。將編碼器輸出作為K和V,解碼器自身的表示作為Q:
![]()
這是編碼器和解碼器之間信息交互的橋梁——解碼器生成每個詞時,通過交叉注意力查詢編碼器的輸出,決定應該關注輸入的哪個部分。
![]()
圖11:Transformer架構圖
一個容易混淆的要點是:訓練和推理的運行方式完全不同。訓練時,解碼器的輸入是完整的目標序列(通過掩碼確保模型不提前看到答案),所有位置可以并行計算。推理時,必須自回歸地逐步生成——先生成第一個詞,再把它作為輸入生成第二個詞,一個接一個,類似“接龍”。
三、從GPT到DeepSeek:
兩條技術路線的分叉
3.1 GPT:Decoder-only的范式創新
2020年5月,OpenAI宣布推出GPT-3模型的beta版本,該模型擁有1750億個參數,是當時最大的自然語言處理模型。不同于當時很火的BERT,GPT做了一個關鍵的架構選擇:只用解碼器,扔掉編碼器。所有NLP任務都統一轉化為“給定上文,生成下文”的序列生成問題,訓練目標就是最大化自回歸對數似然:
![]()
實驗發現了一個有趣的現象:多任務聯合訓練的效果優于單任務累加——模型在翻譯任務上學到的知識,居然能幫助它做文本分類,這驗證了大規模自回歸預訓練能學到通用的語言表示。不過,這并非GPT的獨家發現,是遷移學習和多任務學習領域的一個經典結論。
3.2 ChatGPT的三階段對齊
技術上來說,GPT(以 GPT-3 為例)是一個純粹的下一個詞預測器,它是一個很大的模型,但是離我們現在所理解的大語言模型還有一段距離。 GPT-3 能寫出通順的段落,但也經常輸出種族歧視、事實錯誤等“不被人類所接受”的內容。從統計學上來說這非常合理,因為這些內容在訓練數據里確實存在。
2022年11月30日,OpenAI正式發布ChatGPT,它能夠比較自然地與人對話,科幻小說中的“與人對話的機器人”第一次大規模地照進現實。ChatGPT 的創新在于:它在 GPT 的基礎上,刻意把模型的輸出訓練為特定風格——有幫助的、誠實的、無害的(即著名的 HHH 目標)[17-19],其訓練過程分為三個階段:
階段一:預訓練,使用大量文本得到Base Model,讓模型掌握語言和世界知識,但行為是補全文本而非回答問題。
階段二:監督微調(SFT),用人工編寫的高質量指令-回答對微調,教會模型對話格式。微調目標可以被表示為:
![]()
其中x是用戶指令,y是期望回答。
階段三:RLHF,讓模型的回答進一步與人類偏好對齊。在這個過程中,一個很有效的創新點是,不讓標注員直接打分,改為做兩兩比較排序,因為“A比B好”這樣一個相對判斷比絕對打分客觀得多。從數學表達上來說,即給定兩個回答yw(更好)和yl(更差),獎勵模型rΦ通過Bradley-Terry模型訓練:
![]()
其中σ是sigmoid函數。然后用PPO算法(Proximal Policy Optimization,近端策略優化)優化語言模型策略πθ,最大化獎勵的同時約束策略不偏離參考模型πref太遠[20]:
![]()
但PPO的工程也有其巨大痛點:需要同時維護四個模型——策略模型πθ、參考模型πref、獎勵模型rΦ和價值網絡Vψ(Critic)。價值網絡用于估計狀態價值Vψ(s)以計算優勢函數A = R - Vψ(s),但它的參數量與策略模型相當,顯存開銷巨大。
3.3 DeepSeek:GRPO的簡潔之道
2025年初,DeepSeek發布R1模型,憑借低成本訓練、開源策略、性能對標全球頂尖模型的三重顛覆性突破,打破了“堆算力”的傳統AI研發路徑。不同于ChatGPT系列模型,DeepSeek-R1 用GRPO(Group Relative Policy Optimization,群體相對策略優化)替代PPO,用一個非常簡潔的操作,替代了PPO中復雜的“價值網絡”模塊。對于每個問題x,讓模型生成一組G個回答{y1, ……, yG},用組內回答的相對獎勵計算優勢函數:
![]()
然后用裁剪后的策略梯度更新:
![]()
省掉價值網絡后,訓練時需維護的模型從四個減少到三個,顯存需求大幅降低,而GRPO的對齊效果并不遜色于PPO。
四、新趨勢:當模型開始思考
4.1 涌現:數據量和參數量帶來的意外能力
GPT的問世也引發了人們的思考:為什么大語言模型能做到以往設計精妙的小模型做不到的事情?它的能力是怎么“冒”出來的?
2022年,Google的Jason Wei等人系統性地考察了一批語言任務在不同規模模型上的表現,發現參數量較小的模型上,在多步算術推理、指代消解、常識推理等任務上的表現接近隨機猜測,模型仿佛“完全不會”。但是,當參數量跨過某個臨界值時,其性能突然跳躍式提升,仿佛模型一夜之間學會了這些任務[21],如圖12所示。關于這一“涌現”現象,Jason Wei曾應集智俱樂部邀請,在2022年年會上做過題為《Emergent abilities unlocked by scaling up language models》的專題分享,系統探討了其機理與啟示,詳見:https://pattern.swarma.org/study_group_issue/504。
![]()
圖12:參數量跨過某個臨界值時,大模型的各類性能突然跳躍式提升
這種現象被稱為涌現能力(Emergent Abilities)。圍繞涌現原因的學術討論至今沒有定論。例如,Schaeffer等人[22]提出了一個尖銳的質疑:涌現可能有部分是度量指標選擇的假象。很多展示涌現的任務用的是精確匹配(Exact Match)這類離散指標——要么完全對,要么完全錯。因此,當模型能力平滑提升但還沒達到“完全正確”的門檻時,得到的分數一直是0;一旦跨過這個門檻,其分數可以突然跳到1。換用連續指標(比如編輯距離或部分匹配分數)后,其隨著參數量變化而變化的得分曲線可能由突然跳躍的曲線變成平滑上升的斜坡。由此看來,涌現也許并不代表模型能力的突變,可能只是度量方法帶來的錯覺。
但即便如此,這背后的事實是不爭的:大模型確實能做到小模型做不到的事。至于它究竟是達到某個參數量后帶來質變,還是量變的累積被離散指標放大了,可能還需要更多的理論工作。
在實踐層面,OpenAI的Scaling Law研究[23]給出了一個可操作的經驗規律:訓練損失與計算量之間存在冪律關系:
其中,C表示投入的計算量C(FLOPs)。如圖13所示,可以理解為,計算量每翻一個數量級,損失下降一個固定比例。這條冪律在跨越多個數量級的范圍內保持成立,也帶來了算力、數據和參數量的“內卷”。
![]()
圖13:計算量、數據集和參數量上升后,損失會下降
DeepMind的Chinchilla論文[24]進一步追問了一個更精細的問題:給定固定的計算預算,參數量和數據量應該怎么分配?答案是兩者應當等比例擴展。之前的行業慣例是瘋狂堆參數(GPT-3用了1750億參數,但只用了3000億token的數據),Chinchilla指出這是一種浪費——同樣的計算預算,用更小的模型配更多的數據,效果會更好。這篇論文直接影響了后續的模型設計,LLaMA等后來者都采用了更均衡的參數-數據配比。
Scaling Law描述的都是訓練階段模型能力的可拓展性。事實上,想讓模型表現更好,可以努力的方面還有很多。
4.2 推理:讓模型多思考一會
2022年,Wei等人提出的思維鏈(Chain of Thought, CoT)提示方法,發現大語言模型中也有“四兩撥千斤”的小訣竅:在提示中加一句“Let's think step by step”,大模型的數學推理能力就大幅提升[25]。
為什么會這樣?一個直覺性的解釋是:自回歸模型每生成一個token,只做一次前向傳播。對于復雜的推理問題,一次前向傳播的計算量不足以得出正確答案。思維鏈的作用是把推理過程展開到輸出序列中——模型在生成中間步驟時,每一步都觸發一次新的前向傳播,相當于用更多的計算來處理問題。
傳統的Scaling Law關注的是訓練階段:參數越多、數據越多、訓練越久,模型越好。但推理時計算擴展(Inference Scaling Laws)揭示了另一個維度:即使模型參數不變,通過在推理時投入更多計算(生成更長的推理鏈、進行多次采樣、反復驗證和修正),也能持續提升性能。
OpenAI的o1模型和DeepSeek-R1都在實踐這個方向。它們在回答復雜問題時,會先生成一段長長的思考過程——分解問題、嘗試不同路徑、檢查中間結果、糾正錯誤——然后才給出最終答案。這段思考過程可能長達數千token,消耗的推理計算量遠超普通回答[16][26]。
這對產業落地有深遠的意義。傳統范式下,想要更強的模型就必須訓練更大的模型,成本以千萬美元計。推理時擴展提供了一種更靈活的方案:訓練一次,推理時按需調節思考深度。簡單的事實性問題,讓模型秒答即可;復雜的數學證明或代碼調試,讓模型多花時間想一想。用戶為推理計算付費,而不是為訓練成本付費——這可以重新定義大模型的商業模式。
不過,思維鏈能幫助的主要是可分解為步驟的推理任務(數學、編程、邏輯推演),對于那些需要整體直覺判斷的任務(創意寫作、審美評價),想得更久未必有用。而且推理鏈越長,累積錯誤的風險也越大——模型可能在第5步犯了一個小錯,然后在后續20步中基于錯誤的前提一路推導下去。如何讓模型在推理過程中有效地自我糾錯,是當前的一個活躍研究方向。
4.3 工程:從Prompt到Harness
人類理解和改造世界的時候,總是先認識到是什么(What)這個維度,再去想為什么和怎么做(Why與How)。在大語言模型已經能夠回答大部分問題后,AI使用者開始自然地把大模型融入一整套真正可以解放雙手、幫自己干活的系統。
上升到系統這個層級后,工程范式就變得非常重要。一個大模型在基準測試上表現優異,不代表它能可靠地服務于生產環境。它可能在90%的情況下給出精彩的回答,但在剩下10%的情況下自信地胡說(即常被提及的AI幻覺現象)。對于一個聊天機器人而言,10%的錯誤率也許可以接受,因為有人類來判斷正確性和承擔后果;對于一個全自動的醫療診斷助手或金融分析工具而言,1%的錯誤都可能變為災難。
圍繞大模型的工程方法論經歷了三個代際的演進。
第一代:Prompt Engineering(提示工程)。這是2023年的主流范式,其核心思路是精心設計輸入提示詞,例如給定角色、提供少樣本示例、約束輸出格式、利用思維鏈引導[25][27],把“如何讓模型理解我想要什么樣的回答”當作主要解決的問題。
Prompt Engineering能讓我們獲得更想要的回答,但它有一個根本局限:只能控制輸入,無法控制模型怎么處理輸入。同一個精心設計的Prompt,換一個模型版本可能就失效了,難以量化和復現。
第二代:Context Engineering(上下文工程)。2024年以來,Andrej Karpathy等人開始強調上下文工程的概念,Prompt Engineering中很多方法更像是一堆trick的堆積,但上下文工程開始系統性思考資源約束、設計模式、可觀測性,這是一次重要的認知升級。
上下文窗口被當作一種稀缺資源來管理,什么信息放進去、什么順序排列、什么時候檢索新信息、什么時候丟棄舊信息,都需要系統性的設計,而Prompt只是上下文的一小部分。一個完整的上下文可能包括:系統指令、用戶的多輪對話歷史、從外部知識庫檢索到的相關段落、之前工具調用的返回結果、格式約束和安全規則。
RAG(檢索增強生成)是上下文工程最典型的實踐。相較于把所有知識塞進模型的參數里,在需要時從外部數據庫檢索相關內容,動態地填充到上下文中,變成了一個更有效的選擇。
第三代:Harness Engineering(駕馭工程)。這是當前正在成形的最完整范式,它的核心思想是:把大模型視作一個需要被“駕馭”的能力引擎,圍繞它去構建完整的控制系統。
如圖14所示,一個Harness系統包含三個層次:
信息層,用于決定模型該看到哪些內容——系統提示、用戶輸入、檢索結果、工具返回值、歷史上下文、權限限制。它可以被看作是Context Engineering的升級,但更強調信息的動態編排而非靜態拼接。
執行層,用于決定模型可以做什么——模型的輸出不再只是文本,還可以是工具調用(搜索引擎、計算器、代碼解釋器)、API請求(數據庫查詢、郵件發送)、甚至物理操作(操控瀏覽器、編輯文件)。
反饋層,用于判斷模型做的對不對并糾正模型——工具調用的返回值、代碼運行的報錯信息、用戶的修正指令等,都被回傳給模型,形成閉環。模型根據反饋修正策略、重新規劃、糾正錯誤。
![]()
圖14:Harness Engineering的三層架構:信息層、執行層和反饋層
今天使用大模型,大致分為六個層次,難度遞增:
Prompt交互層:直接使用自然語言對話,很簡單。
API調用層:通過代碼等方式調用模型API,實現程序化交互。
外部知識集成層(RAG):檢索增強生成,讓模型基于私有數據回答。難點在于知識塊的切分粒度——切太細丟失語境,切太粗浪費窗口。
AI Agent層:設計智能體執行復雜工作流,涉及任務拆解、工具調用等,難度上升。
微調LLM層:在預訓練模型基礎上用垂直數據微調,需要算法工程能力,對于領域數據有一定要求。
訓練LLM層:從零或大規模預訓練基礎模型,對算力、算法和數據要求極高。
其中,AI Agent正是Harness Engineering思想的典型產物。一個成熟的Agent不該被視作“更聰明的聊天機器人”,它其實更像是一個在信息-執行-反饋循環中自主運轉的系統,具備三個核心要素:自主性、任務特定性、反應性。
從Prompt到Context到Harness,這三代范式的演進揭示了一個深層的趨勢:從單純跟模型對話,變為設計一個以模型為核心的系統。AI的能力邊界由模型和工具決定,但AI的可靠性邊界由駕馭它的系統決定。
結語:
模型預測下一個詞,架構預測下一個時代
讓我們回到最開頭那個問題:這場AI浪潮最后會留下什么?
讀到這里,也許你已經有了一個更具體的回答:一套信息聚合與處理的底層思想與對應的架構,以及圍繞它生長出來的訓練方法、對齊技術和工程范式。
回顧近三十年語言模型的發展,統計語言模型問的是“這個詞后面最常跟什么詞”,Word2Vec問的是“詞和詞之間的語義關系能不能被計算”,Transformer問的是“信息在序列中該如何流動”,GPT問的是“一個模型能不能通過預測下一個詞來理解世界”,而今天的AI Agent問的是“理解了世界之后,如何在世界中行動”。每一個模型對應的問題都包含了前一個問題,但又打開了前一個問題看不到的空間。
站在2026年這個時間點,我們正處在一個特殊的位置。Transformer架構已經八歲了,這在AI領域是很長的壽命。目前還沒有任何架構在大規模場景下真正超越它,但Mamba等狀態空間模型、混合架構、以及各種效率優化方案都在積極探索中;而在應用層面,從Prompt到Context到Harness的工程范式演進,正在重新定義人類與AI協作的方式——我們不再只是向模型提問,AI也許正在變成一套類似蘋果、安卓的生態系統。
語言模型從誕生之初就在做一件事:給定過去,預測未來,給定前面的詞,預測下一個詞。給定這幾十年的技術演進,我們也許無法精確預測下一個突破會是什么。但我們可以做到的是,當突破到來時,不把它當作魔法,而是把它放進一個可理解的框架里——看清它從哪里來、改變了什么、以及邊界在哪里。
參考文獻
[1]Shannon, C. E. (1948). A mathematical theory of communication. The Bell system technical journal, 27(3), 379-423.
[2]Chen, S. F., & Goodman, J. (1999). An empirical study of smoothing techniques for language modeling. Computer Speech & Language, 13(4), 359-394.
[3]Suen, C. Y. (1979). N-gram statistics for natural language understanding and text processing. IEEE transactions on pattern analysis and machine intelligence, (2), 164-172.
[4]Bengio, Y., Ducharme, R., Vincent, P., & Jauvin, C. (2003). A neural probabilistic language model. Journal of machine learning research, 3(Feb), 1137-1155.
[5]Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
[6]Mikolov, T., Karafiát, M., Burget, L., Cernocky, J., & Khudanpur, S. (2010, September). Recurrent neural network based language model. In Interspeech (Vol. 2, No. 3, pp. 1045-1048).
[7]Akyürek, E., Schuurmans, D., Andreas, J., Ma, T., & Zhou, D. (2022). What learning algorithm is in-context learning? investigations with linear models. arXiv preprint arXiv:2211.15661.
[8]Von Oswald, J., Niklasson, E., Randazzo, E., Sacramento, J., Mordvintsev, A., Zhmoginov, A., & Vladymyrov, M. (2023, July). Transformers learn in-context by gradient descent. In International Conference on Machine Learning (pp. 35151-35174). PMLR.
[9]Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
[10]Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
[11]He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770-778).
[12]Chen, R. T., Rubanova, Y., Bettencourt, J., & Duvenaud, D. K. (2018). Neural ordinary differential equations. Advances in neural information processing systems, 31.
[13]Zhang, B., & Sennrich, R. (2019). Root mean square layer normalization. Advances in neural information processing systems, 32.
[14]Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M. A., Lacroix, T., ... & Lample, G. (2023). Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971.
[15]Liu, A., Feng, B., Xue, B., Wang, B., Wu, B., Lu, C., ... & Piao, Y. (2024). Deepseek-v3 technical report. arXiv preprint arXiv:2412.19437.
[16]Guo, D., Yang, D., Zhang, H., Song, J., Wang, P., Zhu, Q., ... & Tan, Y. (2025). DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning. Nature, 645(8081), 633-638.
[17]Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving language understanding by generative pre-training.
[18]Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving language understanding by generative pre-training [Technical report]. OpenAI.
[19]Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners [Technical report]. OpenAI Blog.
[20]Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. (2017). Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347.
[21]Wei, J., Tay, Y., Bommasani, R., Raffel, C., Zoph, B., Borgeaud, S., ... & Fedus, W. (2022). Emergent abilities of large language models. arXiv preprint arXiv:2206.07682.
[22]Schaeffer, R., Miranda, B., & Koyejo, S. (2023). Are emergent abilities of large language models a mirage?. Advances in neural information processing systems, 36, 55565-55581.
[23]Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., ... & Amodei, D. (2020). Scaling laws for neural language models. arXiv preprint arXiv:2001.08361.
[24]Hoffmann, J., Borgeaud, S., Mensch, A., Buchatskaya, E., Cai, T., Rutherford, E., ... & Sifre, L. (2022). Training compute-optimal large language models. arXiv preprint arXiv:2203.15556, 10.
[25]Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E., ... & Zhou, D. (2022). Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems, 35, 24824-24837.
[26]Jaech, A., Kalai, A., Lerer, A., Richardson, A., El-Kishky, A., Low, A., ... & Metz, L. (2024). Openai o1 system card. arXiv preprint arXiv:2412.16720.
[27]Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.
參考文獻可上下滑動查看
課程推薦
從“看懂”技術脈絡到“親手駕馭”這股浪潮,中間還差一次系統性的實踐。當AI Agent開始從“預測”走向“行動”,當“氛圍編程”正在模糊產品經理與工程師的邊界,我們該如何快速跟上并參與其中?
集智俱樂部、集智學園創始人,北京師范大學張江教授開設了,致力于打破學科壁壘,將復雜系統與人工智能深度融合。從神經網絡到因果推斷,從世界模型到多尺度建模,甚至包含最前沿的“氛圍編程(Vibe Coding)”實戰,帶你親手落地AI項目。
1.
2.
3.
4.
5.
6.
7.
#整理
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.