網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

傳播學(xué) | Token（詞元）

2026-03-09 10:06:33　來(lái)源: 新傳研究

湖南舉報(bào)

分享至

（1）概念

詞元是人工智能大模型為了高效處理數(shù)據(jù)，把數(shù)據(jù)進(jìn)行拆分后的“最小信息載體”，可以理解為“字/詞片段/符號(hào)”等。Token是AI理解文本的最小單位，就像人類閱讀時(shí)自動(dòng)拆分的“信息顆粒”，AI不是按字而是按oken處理文本。比如“我愛(ài)中國(guó)！”，可拆分成“我”“愛(ài)”“中國(guó)”“！”4個(gè)詞元。

人工智能時(shí)代，信息傳輸?shù)暮诵亩攘烤褪莟oken（詞元），無(wú)論是文本、圖像、視頻還是激光雷達(dá)的點(diǎn)云數(shù)據(jù)，都能通過(guò) Token 化處理轉(zhuǎn)化為離散化的符號(hào)或向量表示。

（2）Token 計(jì)算的核心原理

①分詞模型與編碼映射

不同的LLM（如GPT系列、Claude、Llama）會(huì)采用各自獨(dú)特的分詞模型，這就會(huì)導(dǎo)致針對(duì)同一文本，不同的模型可能會(huì)產(chǎn)生不同數(shù)量的Token。詞匯表將Token 映射到唯一的數(shù)值表示。由于LLM使用數(shù)字輸入，所以詞匯表中的每個(gè)Token都被賦予一個(gè)唯一標(biāo)識(shí)符或索引。這種映射允許LLM將文本數(shù)據(jù)作為數(shù)字序列進(jìn)行處理和操作，從而實(shí)現(xiàn)高效的計(jì)算和建模。

②主流分詞模型與編碼規(guī)則

在Token計(jì)算中，分詞模型的選擇至關(guān)重要。不同的模型采用不同的分詞算法，無(wú)論是基于字節(jié)對(duì)的分詞算法（Byte Pair Encoding，BPE）還是基于單詞的分詞算法，都會(huì)影響如何對(duì)文本進(jìn)行拆分。

③計(jì)算流程拆解（以GPT-4為例）

當(dāng)使用GPT-4進(jìn)行Token計(jì)算時(shí)，整個(gè)流程可以拆解為幾個(gè)關(guān)鍵步驟：首先，預(yù)處理輸入文本；然后，運(yùn)用分詞模型進(jìn)行拆分；最后，通過(guò)編碼映射將分詞后的語(yǔ)義單元轉(zhuǎn)換為模型可識(shí)別的整數(shù)ID。

（3）Token的作用

①解決詞匯表爆炸問(wèn)題

如果每個(gè)詞都單獨(dú)處理，模型需要記住數(shù)百萬(wàn)個(gè)詞。通過(guò)將詞拆分成更小的Token，只需要幾千個(gè)Token就能組合出幾乎所有的詞。

②處理未知詞匯

當(dāng)模型遇到?jīng)]見(jiàn)過(guò)的詞時(shí)，如果是基于Token的，它可以用已知的Token來(lái)“拼湊"理解。比如遇到"深度學(xué)習(xí)"，即使沒(méi)學(xué)過(guò)這個(gè)詞也知道“深度”和“學(xué)習(xí)”這兩個(gè)Token。

③統(tǒng)一多語(yǔ)言處理

不同語(yǔ)言的詞匯結(jié)構(gòu)差異很大，但通過(guò)Token化，可以建立統(tǒng)一的方式來(lái)處理各種語(yǔ)言。

（4）Token設(shè)計(jì)的局限性

①大小寫區(qū)分

不同大小寫的單詞被視為不同的標(biāo)記。“hello”是Token (31373),“Helo°是(15496)，而“HELLO”有三個(gè)Token(13909,3069,46)。這意味著模型在處理文本時(shí)，對(duì)于大小寫不同的相同單詞，會(huì)當(dāng)作不同的單元來(lái)處理，可能會(huì)增加模型的學(xué)習(xí)負(fù)擔(dān)和計(jì)算量。

②數(shù)字分塊不一致

數(shù)值“380°在GPT中標(biāo)記為單個(gè)“380” Token。但是“381”表示為兩個(gè)Token("38”,“1")。“382”同樣是兩個(gè)Token,但"383"是單個(gè)Token ("383")。這種數(shù)字分塊的不一致性或許就是為什么基于GPT的模型并不總是擅長(zhǎng)數(shù)學(xué)計(jì)算的原因之一，因?yàn)槟Ｐ碗y以對(duì)數(shù)字形成統(tǒng)一、準(zhǔn)確的理解和處理方式。

③尾隨的空格

有些Token有空格，這將導(dǎo)致提示詞和單詞補(bǔ)全的有趣行為。例如，帶有尾部空格的“once upona”被編碼為"once"、"upon"、"a"、"")。然而,"once ona time"被編碼為("once", "upon","a","time")。這說(shuō)明文本中的空格在Token化過(guò)程中也會(huì)產(chǎn)生影響，模型對(duì)于帶有空格和不帶有空格的相同文本片段，會(huì)生成不同的Token序列，進(jìn)而可能影響模型的輸出結(jié)果。

（5）Token化：Token的應(yīng)用

將文本劃分為不同token的正式過(guò)程稱為tokenization（Token化）。tokenization捕獲文本的含義和語(yǔ)法結(jié)構(gòu)，從而需要將文本分割成重要的組成部分。

tokenization是將輸入和輸出文本分割成更小的單元，由LLMAl模型處理的過(guò)程。tokenization可以幫助模型處理不同的語(yǔ)言、詞匯表和格式，并降低計(jì)算和內(nèi)存成本，還可以通過(guò)影響token的意義和語(yǔ)境來(lái)影響所生成文本的質(zhì)量和多樣性。根據(jù)文本的復(fù)雜性和可變性，可以使用不同的方法進(jìn)行tokenization，比如基于規(guī)則的方法、統(tǒng)計(jì)方法或神經(jīng)方法。

新聞傳播學(xué)專業(yè)公眾號(hào)

微信號(hào) : media-power

▇ 新傳考研智庫(kù) 洞察社會(huì)脈動(dòng)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.