2017年,Transformer架構(gòu)橫空出世,帶著兩個(gè)核心部件:編碼器(encoder)和解碼器(decoder)。這套設(shè)計(jì)原本是為了讓兩者協(xié)同工作,處理機(jī)器翻譯這類需要"先理解、再生成"的任務(wù)。這就是最早的編碼器-解碼器架構(gòu)。
但研究者的探索很快走向了分叉。有人發(fā)現(xiàn),單把解碼器拎出來(lái)就足夠能打——GPT系列、ChatGPT正是這條路線的產(chǎn)物。而另一撥人則盯上了編碼器:如果我只用前半截,能干什么?
![]()
答案是:理解。純粹的、深度的理解。
僅編碼器架構(gòu)(encoder-only)的運(yùn)作邏輯很直接。輸入文本,經(jīng)過(guò)自注意力層和前饋網(wǎng)絡(luò),輸出的是每個(gè)詞的新表示——不是孤立的詞向量,而是"看完整句話后重新編碼"的上下文嵌入(contextualized embeddings)。同一個(gè)詞在不同語(yǔ)境下,在這里會(huì)得到不同的向量。
這種能力解鎖了兩個(gè)關(guān)鍵場(chǎng)景。
第一,語(yǔ)義聚類。上下文嵌入能把"問(wèn)價(jià)格"和"多少錢(qián)"這類表面不同、意圖相同的表達(dá)歸到一處。RAG(檢索增強(qiáng)生成)系統(tǒng)的檢索環(huán)節(jié),底層依賴的正是這個(gè)機(jī)制。
第二,特征輸入。這些嵌入可以直接喂給下游機(jī)器學(xué)習(xí)模型,充當(dāng)高質(zhì)量的特征表示。BERT及其衍生模型(RoBERTa、DistilBERT等)都建立在這個(gè)基礎(chǔ)之上。
僅編碼器與僅解碼器的分野,本質(zhì)是任務(wù)導(dǎo)向的差異:前者專精"看懂",后者主攻"生成"。兩者共享Transformer的核心組件,卻走向了不同的產(chǎn)品形態(tài)——一個(gè)支撐搜索與理解,一個(gè)驅(qū)動(dòng)對(duì)話與創(chuàng)作。
下一篇將切入神經(jīng)網(wǎng)絡(luò)中的強(qiáng)化學(xué)習(xí)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.