2017年,谷歌研究團隊發表了一篇標題極簡的論文:《Attention Is All You Need》。作者署名欄里,Ashish Vaswani排在第一位。沒人預料到,這個架構會成為GPT、Claude以及幾乎所有現代語言模型的底座。
要理解Transformer為什么重要,得先看看它之前的路有多繞。神經網絡從單個神經元畫一條分割線開始,逐步疊加隱藏層來彎曲決策邊界。研究者教會網絡自己學習權重,用mini-batch和Adam優化器規模化訓練,用dropout對抗過擬合。卷積神經網絡為圖像設計了過濾器,循環神經網絡給序列賦予了記憶。每一步都在解決前一代解決不了的問題,同時繼承經驗、拋棄包袱。
![]()
但RNN有個致命傷:它必須按順序處理。想象一下用泰米爾語構思句子,再逐詞翻譯成英語——慢、串行、信息損耗。當你終于能用英語直接思考時,意義、語法、語境同時涌現,不再受翻譯鏈條的束縛。Transformer做的,就是把這種"并行理解"變成計算現實。
核心公式驚人地簡潔:P(next token | all previous tokens)。給定之前所有內容,下一個詞的概率是多少?GPT、Claude、每一個你用過的生成式AI,底層都是這個思想:輸出由過往與當下的語境共同塑造,無論你是否意識到。
解碼器-only的Transformer(GPT、Claude都采用這種設計)由完全相同的層堆疊而成。每層四個組件,其實都出現過,只是組合方式變了。
首先是Token加位置嵌入。每個詞變成一組數字,比如128維向量。注意力機制本身不感知順序,所以必須注入位置信號。位置3的"slow"和位置6的"slow",嵌入結果不同——模型自己學會位置的重要性。
然后是掩碼多頭自注意力,這是真正的核心。每個詞計算它與之前所有詞的相關度,再按權重融合信息。以RNN論文里的例句為例:"My teacher said I was slow, but he didn't know I was just getting started。"預測"he"指代誰時,"teacher"獲得高權重,"said"等詞權重低。RNN得把所有信息壓縮進固定長度的隱藏狀態,指望"teacher"能扛過全程不丟失;注意力則直接回頭抓取,無壓縮、無遺忘。
注意力公式同樣簡潔:Attention(Q, K, V) = softmax(Q·K? / √d) · V。每個詞生成查詢向量(我在找什么)、鍵向量(我是什么)、值向量(我攜帶什么信息)。點積計算匹配度,softmax歸一化為概率,最后加權求和得到輸出。
這個設計徹底改寫了規則。不再需要按順序逐個處理,整個序列并行計算。上下文長度不再受隱藏狀態容量限制,理論上可以無限延伸(雖然實際受算力約束)。更重要的是,注意力權重可解釋——你能打開黑箱,看見模型"看"向了哪里。
從2017年到今天,變體層出不窮:BERT用雙向注意力做理解,GPT用單向注意力做生成,T5把編碼器解碼器都用上。但那個原始方程始終在場。Vaswani團隊當年或許沒想到,他們解決的是一個翻譯模型的技術問題,放出的卻是一場通用人工智能的序幕。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.