網易首頁 > 網易號 > 正文申請入駐

2017年那篇論文，怎么讓AI突然"開竅"了

2026-05-07 11:07:05　來源: 我是一個養蝦人

北京舉報

分享至

2017年，谷歌研究團隊發表了一篇標題極簡的論文：《Attention Is All You Need》。作者署名欄里，Ashish Vaswani排在第一位。沒人預料到，這個架構會成為GPT、Claude以及幾乎所有現代語言模型的底座。

要理解Transformer為什么重要，得先看看它之前的路有多繞。神經網絡從單個神經元畫一條分割線開始，逐步疊加隱藏層來彎曲決策邊界。研究者教會網絡自己學習權重，用mini-batch和Adam優化器規模化訓練，用dropout對抗過擬合。卷積神經網絡為圖像設計了過濾器，循環神經網絡給序列賦予了記憶。每一步都在解決前一代解決不了的問題，同時繼承經驗、拋棄包袱。

但RNN有個致命傷：它必須按順序處理。想象一下用泰米爾語構思句子，再逐詞翻譯成英語——慢、串行、信息損耗。當你終于能用英語直接思考時，意義、語法、語境同時涌現，不再受翻譯鏈條的束縛。Transformer做的，就是把這種"并行理解"變成計算現實。

核心公式驚人地簡潔：P(next token | all previous tokens)。給定之前所有內容，下一個詞的概率是多少？GPT、Claude、每一個你用過的生成式AI，底層都是這個思想：輸出由過往與當下的語境共同塑造，無論你是否意識到。

解碼器-only的Transformer（GPT、Claude都采用這種設計）由完全相同的層堆疊而成。每層四個組件，其實都出現過，只是組合方式變了。

首先是Token加位置嵌入。每個詞變成一組數字，比如128維向量。注意力機制本身不感知順序，所以必須注入位置信號。位置3的"slow"和位置6的"slow"，嵌入結果不同——模型自己學會位置的重要性。

然后是掩碼多頭自注意力，這是真正的核心。每個詞計算它與之前所有詞的相關度，再按權重融合信息。以RNN論文里的例句為例："My teacher said I was slow, but he didn't know I was just getting started。"預測"he"指代誰時，"teacher"獲得高權重，"said"等詞權重低。RNN得把所有信息壓縮進固定長度的隱藏狀態，指望"teacher"能扛過全程不丟失；注意力則直接回頭抓取，無壓縮、無遺忘。

注意力公式同樣簡潔：Attention(Q, K, V) = softmax(Q·K? / √d) · V。每個詞生成查詢向量（我在找什么）、鍵向量（我是什么）、值向量（我攜帶什么信息）。點積計算匹配度，softmax歸一化為概率，最后加權求和得到輸出。

這個設計徹底改寫了規則。不再需要按順序逐個處理，整個序列并行計算。上下文長度不再受隱藏狀態容量限制，理論上可以無限延伸（雖然實際受算力約束）。更重要的是，注意力權重可解釋——你能打開黑箱，看見模型"看"向了哪里。

從2017年到今天，變體層出不窮：BERT用雙向注意力做理解，GPT用單向注意力做生成，T5把編碼器解碼器都用上。但那個原始方程始終在場。Vaswani團隊當年或許沒想到，他們解決的是一個翻譯模型的技術問題，放出的卻是一場通用人工智能的序幕。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.