2017年,Transformer架構(gòu)橫空出世,帶著編碼器和解碼器兩個核心部件。這個設(shè)計本意是讓兩者協(xié)同工作,形成所謂的編碼器-解碼器架構(gòu)。但研究者很快發(fā)現(xiàn),事情沒那么簡單。
解碼器單獨拎出來就夠強(qiáng)了。只用解碼器,模型能預(yù)測下一個詞、生成連貫文本、完成問答對話。ChatGPT的底層就是這個思路,這類模型被稱為"解碼器-only Transformer"。
![]()
但另一邊,編碼器單獨用也很能打。BERT就是典型代表,這類"編碼器-only Transformer"成了另一大流派。
編碼器-only的核心武器:上下文感知嵌入
編碼器-only架構(gòu)用的還是那幾層老面孔:自注意力層、前饋網(wǎng)絡(luò)層、歸一化和殘差連接。但組合起來,它干了一件很特別的事——給每個詞生成新的表示。
這個表示能捕捉什么?
1. 詞本身的含義——"bank"是銀行還是河岸
2. 周圍詞的語境——前面說了什么,后面要說什么
3. 整句的語義重心——哪部分是主語,哪部分是情緒
這種表示叫"上下文感知嵌入"(context-aware embeddings),也叫"語境化嵌入"。
為什么RAG檢索離不開它
上下文感知嵌入的真正價值在于:能把語義相近的東西拽到一起。
"如何重置密碼"和"忘記密碼怎么辦"——字面完全不同,嵌入空間里的距離卻很近。"蘋果股價"和"iPhone銷量"——表面不搭邊,語義上高度相關(guān)。
這就是RAG(檢索增強(qiáng)生成)的根基。先拿編碼器把知識庫里的文檔都編碼成嵌入向量,用戶提問時同樣編碼,然后在向量空間里找最近的鄰居。沒有這套機(jī)制,檢索就是關(guān)鍵詞匹配,不是語義理解。
同樣的嵌入也能直接喂給機(jī)器學(xué)習(xí)模型當(dāng)輸入特征,省去大量手工特征工程。
編碼器-only的故事就到這。下一篇聊神經(jīng)網(wǎng)絡(luò)里的強(qiáng)化學(xué)習(xí)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.