![]()
(1)概念
詞元是人工智能大模型為了高效處理數(shù)據(jù),把數(shù)據(jù)進(jìn)行拆分后的“最小信息載體”,可以理解為“字/詞片段/符號(hào)”等。Token是AI理解文本的最小單位,就像人類閱讀時(shí)自動(dòng)拆分的“信息顆粒”,AI不是按字而是按oken處理文本。比如“我愛(ài)中國(guó)!”,可拆分成“我”“愛(ài)”“中國(guó)”“!”4個(gè)詞元。
人工智能時(shí)代,信息傳輸?shù)暮诵亩攘烤褪莟oken(詞元),無(wú)論是文本、圖像、視頻還是激光雷達(dá)的點(diǎn)云數(shù)據(jù),都能通過(guò) Token 化處理轉(zhuǎn)化為離散化的符號(hào)或向量表示。
![]()
![]()
(2)Token 計(jì)算的核心原理
①分詞模型與編碼映射
不同的LLM(如GPT系列、Claude、Llama)會(huì)采用各自獨(dú)特的分詞模型,這就會(huì)導(dǎo)致針對(duì)同一文本,不同的模型可能會(huì)產(chǎn)生不同數(shù)量的Token。詞匯表將Token 映射到唯一的數(shù)值表示。由于LLM使用數(shù)字輸入,所以詞匯表中的每個(gè)Token都被賦予一個(gè)唯一標(biāo)識(shí)符或索引。這種映射允許LLM將文本數(shù)據(jù)作為數(shù)字序列進(jìn)行處理和操作,從而實(shí)現(xiàn)高效的計(jì)算和建模。
②主流分詞模型與編碼規(guī)則
在Token計(jì)算中,分詞模型的選擇至關(guān)重要。不同的模型采用不同的分詞算法,無(wú)論是基于字節(jié)對(duì)的分詞算法(Byte Pair Encoding,BPE)還是基于單詞的分詞算法,都會(huì)影響如何對(duì)文本進(jìn)行拆分。
③計(jì)算流程拆解(以GPT-4為例)
當(dāng)使用GPT-4進(jìn)行Token計(jì)算時(shí),整個(gè)流程可以拆解為幾個(gè)關(guān)鍵步驟:首先,預(yù)處理輸入文本;然后,運(yùn)用分詞模型進(jìn)行拆分;最后,通過(guò)編碼映射將分詞后的語(yǔ)義單元轉(zhuǎn)換為模型可識(shí)別的整數(shù)ID。
![]()
(3)Token的作用
![]()
①解決詞匯表爆炸問(wèn)題
如果每個(gè)詞都單獨(dú)處理,模型需要記住數(shù)百萬(wàn)個(gè)詞。通過(guò)將詞拆分成更小的Token,只需要幾千個(gè)Token就能組合出幾乎所有的詞。
②處理未知詞匯
當(dāng)模型遇到?jīng)]見(jiàn)過(guò)的詞時(shí),如果是基于Token的,它可以用已知的Token來(lái)“拼湊"理解。比如遇到"深度學(xué)習(xí)",即使沒(méi)學(xué)過(guò)這個(gè)詞也知道“深度”和“學(xué)習(xí)”這兩個(gè)Token。
③統(tǒng)一多語(yǔ)言處理
不同語(yǔ)言的詞匯結(jié)構(gòu)差異很大,但通過(guò)Token化,可以建立統(tǒng)一的方式來(lái)處理各種語(yǔ)言。
![]()
(4)Token設(shè)計(jì)的局限性
①大小寫區(qū)分
不同大小寫的單詞被視為不同的標(biāo)記。“hello”是Token (31373),“Helo°是(15496),而“HELLO”有三個(gè)Token(13909,3069,46)。這意味著模型在處理文本時(shí),對(duì)于大小寫不同的相同單詞,會(huì)當(dāng)作不同的單元來(lái)處理,可能會(huì)增加模型的學(xué)習(xí)負(fù)擔(dān)和計(jì)算量。
②數(shù)字分塊不一致
數(shù)值“380°在GPT中標(biāo)記為單個(gè)“380” Token。但是“381”表示為兩個(gè)Token("38”,“1")。“382”同樣是兩個(gè)Token,但"383"是單個(gè)Token ("383")。這種數(shù)字分塊的不一致性或許就是為什么基于GPT的模型并不總是擅長(zhǎng)數(shù)學(xué)計(jì)算的原因之一,因?yàn)槟P碗y以對(duì)數(shù)字形成統(tǒng)一、準(zhǔn)確的理解和處理方式。
③尾隨的空格
有些Token有空格,這將導(dǎo)致提示詞和單詞補(bǔ)全的有趣行為。例如,帶有尾部空格的“once upona”被編碼為"once"、"upon"、"a"、"")。然而,"once ona time"被編碼為("once", "upon","a","time")。這說(shuō)明文本中的空格在Token化過(guò)程中也會(huì)產(chǎn)生影響,模型對(duì)于帶有空格和不帶有空格的相同文本片段,會(huì)生成不同的Token序列,進(jìn)而可能影響模型的輸出結(jié)果。
![]()
![]()
(5)Token化:Token的應(yīng)用
將文本劃分為不同token的正式過(guò)程稱為tokenization(Token化)。tokenization捕獲文本的含義和語(yǔ)法結(jié)構(gòu),從而需要將文本分割成重要的組成部分。
tokenization是將輸入和輸出文本分割成更小的單元,由LLMAl模型處理的過(guò)程。tokenization可以幫助模型處理不同的語(yǔ)言、詞匯表和格式,并降低計(jì)算和內(nèi)存成本,還可以通過(guò)影響token的意義和語(yǔ)境來(lái)影響所生成文本的質(zhì)量和多樣性。根據(jù)文本的復(fù)雜性和可變性,可以使用不同的方法進(jìn)行tokenization,比如基于規(guī)則的方法、統(tǒng)計(jì)方法或神經(jīng)方法。
![]()
新聞傳播學(xué)專業(yè)公眾號(hào)
微信號(hào) : media-power
▇ 新傳考研智庫(kù) 洞察社會(huì)脈動(dòng)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.