<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      傳播學(xué) | Token(詞元)

      0
      分享至


      (1)概念

      詞元是人工智能大模型為了高效處理數(shù)據(jù),把數(shù)據(jù)進(jìn)行拆分后的“最小信息載體”,可以理解為“字/詞片段/符號(hào)”等。Token是AI理解文本的最小單位,就像人類閱讀時(shí)自動(dòng)拆分的“信息顆粒”,AI不是按字而是按oken處理文本。比如“我愛(ài)中國(guó)!”,可拆分成“我”“愛(ài)”“中國(guó)”“!”4個(gè)詞元。

      人工智能時(shí)代,信息傳輸?shù)暮诵亩攘烤褪莟oken(詞元),無(wú)論是文本、圖像、視頻還是激光雷達(dá)的點(diǎn)云數(shù)據(jù),都能通過(guò) Token 化處理轉(zhuǎn)化為離散化的符號(hào)或向量表示。



      (2)Token 計(jì)算的核心原理

      ①分詞模型與編碼映射

      不同的LLM(如GPT系列、Claude、Llama)會(huì)采用各自獨(dú)特的分詞模型,這就會(huì)導(dǎo)致針對(duì)同一文本,不同的模型可能會(huì)產(chǎn)生不同數(shù)量的Token。詞匯表將Token 映射到唯一的數(shù)值表示。由于LLM使用數(shù)字輸入,所以詞匯表中的每個(gè)Token都被賦予一個(gè)唯一標(biāo)識(shí)符或索引。這種映射允許LLM將文本數(shù)據(jù)作為數(shù)字序列進(jìn)行處理和操作,從而實(shí)現(xiàn)高效的計(jì)算和建模。

      ②主流分詞模型與編碼規(guī)則

      在Token計(jì)算中,分詞模型的選擇至關(guān)重要。不同的模型采用不同的分詞算法,無(wú)論是基于字節(jié)對(duì)的分詞算法(Byte Pair Encoding,BPE)還是基于單詞的分詞算法,都會(huì)影響如何對(duì)文本進(jìn)行拆分。

      ③計(jì)算流程拆解(以GPT-4為例)

      當(dāng)使用GPT-4進(jìn)行Token計(jì)算時(shí),整個(gè)流程可以拆解為幾個(gè)關(guān)鍵步驟:首先,預(yù)處理輸入文本;然后,運(yùn)用分詞模型進(jìn)行拆分;最后,通過(guò)編碼映射將分詞后的語(yǔ)義單元轉(zhuǎn)換為模型可識(shí)別的整數(shù)ID。


      (3)Token的作用


      ①解決詞匯表爆炸問(wèn)題

      如果每個(gè)詞都單獨(dú)處理,模型需要記住數(shù)百萬(wàn)個(gè)詞。通過(guò)將詞拆分成更小的Token,只需要幾千個(gè)Token就能組合出幾乎所有的詞。

      ②處理未知詞匯

      當(dāng)模型遇到?jīng)]見(jiàn)過(guò)的詞時(shí),如果是基于Token的,它可以用已知的Token來(lái)“拼湊"理解。比如遇到"深度學(xué)習(xí)",即使沒(méi)學(xué)過(guò)這個(gè)詞也知道“深度”和“學(xué)習(xí)”這兩個(gè)Token。

      ③統(tǒng)一多語(yǔ)言處理

      不同語(yǔ)言的詞匯結(jié)構(gòu)差異很大,但通過(guò)Token化,可以建立統(tǒng)一的方式來(lái)處理各種語(yǔ)言。


      (4)Token設(shè)計(jì)的局限性

      ①大小寫區(qū)分

      不同大小寫的單詞被視為不同的標(biāo)記。“hello”是Token (31373),“Helo°是(15496),而“HELLO”有三個(gè)Token(13909,3069,46)。這意味著模型在處理文本時(shí),對(duì)于大小寫不同的相同單詞,會(huì)當(dāng)作不同的單元來(lái)處理,可能會(huì)增加模型的學(xué)習(xí)負(fù)擔(dān)和計(jì)算量。

      ②數(shù)字分塊不一致

      數(shù)值“380°在GPT中標(biāo)記為單個(gè)“380” Token。但是“381”表示為兩個(gè)Token("38”,“1")。“382”同樣是兩個(gè)Token,但"383"是單個(gè)Token ("383")。這種數(shù)字分塊的不一致性或許就是為什么基于GPT的模型并不總是擅長(zhǎng)數(shù)學(xué)計(jì)算的原因之一,因?yàn)槟P碗y以對(duì)數(shù)字形成統(tǒng)一、準(zhǔn)確的理解和處理方式。

      ③尾隨的空格

      有些Token有空格,這將導(dǎo)致提示詞和單詞補(bǔ)全的有趣行為。例如,帶有尾部空格的“once upona”被編碼為"once"、"upon"、"a"、"")。然而,"once ona time"被編碼為("once", "upon","a","time")。這說(shuō)明文本中的空格在Token化過(guò)程中也會(huì)產(chǎn)生影響,模型對(duì)于帶有空格和不帶有空格的相同文本片段,會(huì)生成不同的Token序列,進(jìn)而可能影響模型的輸出結(jié)果。



      (5)Token化:Token的應(yīng)用

      將文本劃分為不同token的正式過(guò)程稱為tokenization(Token化)。tokenization捕獲文本的含義和語(yǔ)法結(jié)構(gòu),從而需要將文本分割成重要的組成部分。

      tokenization是將輸入和輸出文本分割成更小的單元,由LLMAl模型處理的過(guò)程。tokenization可以幫助模型處理不同的語(yǔ)言、詞匯表和格式,并降低計(jì)算和內(nèi)存成本,還可以通過(guò)影響token的意義和語(yǔ)境來(lái)影響所生成文本的質(zhì)量和多樣性。根據(jù)文本的復(fù)雜性和可變性,可以使用不同的方法進(jìn)行tokenization,比如基于規(guī)則的方法、統(tǒng)計(jì)方法或神經(jīng)方法。


      新聞傳播學(xué)專業(yè)公眾號(hào)

      微信號(hào) : media-power

      ▇ 新傳考研智庫(kù) 洞察社會(huì)脈動(dòng)

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      臺(tái)灣問(wèn)題,中國(guó)對(duì)美表態(tài)后,魯比奧回應(yīng)了,盧秀燕不裝了,不簡(jiǎn)單

      臺(tái)灣問(wèn)題,中國(guó)對(duì)美表態(tài)后,魯比奧回應(yīng)了,盧秀燕不裝了,不簡(jiǎn)單

      雅兒電影解說(shuō)
      2026-05-16 18:01:26
      男裝像張若昀,女裝像唐藝昕,《低智商犯罪》他火了還獲得1稱號(hào)

      男裝像張若昀,女裝像唐藝昕,《低智商犯罪》他火了還獲得1稱號(hào)

      娛君墜星河
      2026-05-17 16:22:54
      韓紅愛(ài)心慈善基金會(huì)發(fā)布2025年度報(bào)告,共收入7.8億元,支出2.9億元,多位一線明星捐款明細(xì)曝光

      韓紅愛(ài)心慈善基金會(huì)發(fā)布2025年度報(bào)告,共收入7.8億元,支出2.9億元,多位一線明星捐款明細(xì)曝光

      大風(fēng)新聞
      2026-05-17 14:37:41
      特朗普訪華三天兩晚,親眼見(jiàn)證中國(guó)實(shí)力,徹底認(rèn)清中國(guó)不可戰(zhàn)勝

      特朗普訪華三天兩晚,親眼見(jiàn)證中國(guó)實(shí)力,徹底認(rèn)清中國(guó)不可戰(zhàn)勝

      攢一兜星星
      2026-05-17 15:53:48
      “內(nèi)褲姐”事件大結(jié)局:幾萬(wàn)塊和解,傷能治,被踐踏的尊嚴(yán)沒(méi)人還

      “內(nèi)褲姐”事件大結(jié)局:幾萬(wàn)塊和解,傷能治,被踐踏的尊嚴(yán)沒(méi)人還

      千言?shī)蕵?lè)記
      2026-05-17 14:45:56
      騎士再迎生死戰(zhàn)!米切爾期待找回狀態(tài),哈登力爭(zhēng)再進(jìn)分區(qū)決賽

      騎士再迎生死戰(zhàn)!米切爾期待找回狀態(tài),哈登力爭(zhēng)再進(jìn)分區(qū)決賽

      體壇小李
      2026-05-17 17:22:52
      諾蘭《奧德賽》DEI爭(zhēng)議升級(jí)!媒體發(fā)文辯護(hù)被群嘲

      諾蘭《奧德賽》DEI爭(zhēng)議升級(jí)!媒體發(fā)文辯護(hù)被群嘲

      3DM游戲
      2026-05-17 16:01:05
      上海京東總部大樓歪了?施工方回應(yīng):腳手架變形,樓體本身沒(méi)問(wèn)題

      上海京東總部大樓歪了?施工方回應(yīng):腳手架變形,樓體本身沒(méi)問(wèn)題

      墜入二次元的海洋
      2026-05-17 11:21:47
      美退役軍官曾宣稱:中國(guó)殲16D電子戰(zhàn)機(jī),簡(jiǎn)直是美國(guó)海軍的噩夢(mèng)!

      美退役軍官曾宣稱:中國(guó)殲16D電子戰(zhàn)機(jī),簡(jiǎn)直是美國(guó)海軍的噩夢(mèng)!

      華史談
      2026-05-17 08:57:13
      正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實(shí)情

      正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實(shí)情

      健康科普365
      2026-05-09 21:05:04
      MVP淪為累贅?山東籍媒體人怒了,公開(kāi)力挺,球迷:你替他挨罵?

      MVP淪為累贅?山東籍媒體人怒了,公開(kāi)力挺,球迷:你替他挨罵?

      萌蘭聊個(gè)球
      2026-05-17 15:14:01
      高峰現(xiàn)狀:離開(kāi)那英后娶了同學(xué),住北京郊區(qū)小院,和兒子形同陌路

      高峰現(xiàn)狀:離開(kāi)那英后娶了同學(xué),住北京郊區(qū)小院,和兒子形同陌路

      冷紫葉
      2026-04-21 13:26:25
      爆笑了!曾卓君忘報(bào)名拳皇15比賽 發(fā)文求官方給個(gè)機(jī)會(huì)

      爆笑了!曾卓君忘報(bào)名拳皇15比賽 發(fā)文求官方給個(gè)機(jī)會(huì)

      游民星空
      2026-05-17 12:44:15
      炸翻英超!8000萬(wàn)全能中場(chǎng)示好曼聯(lián),阿森納慌到坐不住!

      炸翻英超!8000萬(wàn)全能中場(chǎng)示好曼聯(lián),阿森納慌到坐不住!

      林子說(shuō)事
      2026-05-17 08:20:36
      任正非論AI:一位工業(yè)哲學(xué)家的清醒與遠(yuǎn)見(jiàn)

      任正非論AI:一位工業(yè)哲學(xué)家的清醒與遠(yuǎn)見(jiàn)

      新浪財(cái)經(jīng)
      2026-05-17 00:29:09
      28+24+21!這就是馬刺給他2.29億美金頂薪大合同的原因

      28+24+21!這就是馬刺給他2.29億美金頂薪大合同的原因

      世界體育圈
      2026-05-17 11:29:45
      馬爾代夫發(fā)生史上最嚴(yán)重單次潛水事故:5名游客身亡,包括海洋生物學(xué)家、前潛水教練等;遺體在約50米深水下洞穴被發(fā)現(xiàn),疑因“氧氣中毒”

      馬爾代夫發(fā)生史上最嚴(yán)重單次潛水事故:5名游客身亡,包括海洋生物學(xué)家、前潛水教練等;遺體在約50米深水下洞穴被發(fā)現(xiàn),疑因“氧氣中毒”

      魯中晨報(bào)
      2026-05-16 09:30:04
      所有動(dòng)物在交配時(shí)都會(huì)有快感嗎?

      所有動(dòng)物在交配時(shí)都會(huì)有快感嗎?

      宇宙時(shí)空
      2026-05-16 13:54:55
      等了32年!7月1日正式落地,國(guó)家給每個(gè)家庭留好了后路

      等了32年!7月1日正式落地,國(guó)家給每個(gè)家庭留好了后路

      朗威談星座
      2026-05-17 04:13:42
      AfD領(lǐng)導(dǎo)人魏德?tīng)柗Q烏克蘭無(wú)人機(jī)襲擊俄羅斯腹地,威脅德國(guó)安全

      AfD領(lǐng)導(dǎo)人魏德?tīng)柗Q烏克蘭無(wú)人機(jī)襲擊俄羅斯腹地,威脅德國(guó)安全

      山河路口
      2026-05-16 20:23:06
      2026-05-17 17:40:49
      新傳研究
      新傳研究
      洞察社會(huì)變化,傳遞新聞價(jià)值
      125文章數(shù) 4關(guān)注度
      往期回顧 全部

      科技要聞

      三大運(yùn)營(yíng)商即將免月租?多方回應(yīng)

      頭條要聞

      3樓租戶長(zhǎng)期有噪音2樓夫妻買震樓器反擊 結(jié)果1樓報(bào)警

      頭條要聞

      3樓租戶長(zhǎng)期有噪音2樓夫妻買震樓器反擊 結(jié)果1樓報(bào)警

      體育要聞

      生死戰(zhàn)只拿3分的核心,還有留的必要嗎?

      娛樂(lè)要聞

      《主角》劉浩存上線,死別猝不及防

      財(cái)經(jīng)要聞

      OpenAI和蘋果的“聯(lián)盟”即將破裂

      汽車要聞

      大五座SUV卷王!樂(lè)道L80上市 租電15.68萬(wàn)元起

      態(tài)度原創(chuàng)

      手機(jī)
      時(shí)尚
      本地
      房產(chǎn)
      健康

      手機(jī)要聞

      剛買就遇iPhone 17大降價(jià)的受害者發(fā)聲:這些情況可退貨

      5.22沙龍報(bào)名|何寬×黃競(jìng)歐×王如菲:「二手知識(shí),一手思考」

      本地新聞

      用蘇繡的方式,打開(kāi)江西婺源

      房產(chǎn)要聞

      老黃埔熱銷之下,珠江春,為何去化僅3成?

      專家揭秘干細(xì)胞回輸?shù)陌踩L(fēng)險(xiǎn)

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 日韩人妻熟女中文字幕aⅴ春菜| 国产免费AV网站| 视频二区制服丝袜人妻欧美| 无码人妻精品一区二区蜜桃网站| 97在线精品视频免费| 超碰免费在线观看| 东北妇女精品bbwbbw| 免费av一区二区三区在线| 国偷自产一区二区三区在线视频| 久久精品女人| 仙女白丝jk小脚夹得我好爽| 无码av不卡免费播放| 亚洲A综合一区二区三区| 337p日本欧洲亚洲大胆精筑| 亚洲日韩乱码中文无码蜜桃臀| 久9久热免费精品视频| 伊人久久大线影院首页| 精品国产亚洲区久久露脸| 亚洲夂夂婷婷色拍WW47| 97久久超碰亚洲视觉盛宴| 亚洲精品久久国产片400部| 91在线无码精品秘九色APP| 久久精品国产一区二区三区不卡| 国产97色在线 | 中国| 国产久产在线视频免费观看| av无码制服丝袜国产日韩| 综合激情久久综合激情| 激情伊人五月天久久综合| 久久国产精品国产自线拍| 成在人线av无码免费看网站| 中文字幕在线观看| 日韩乱码av| 日韩成人电影| 日本一区二区视频免费在线播放| 天天综合网网欲色| 亚洲精品一区二区制服| 日韩欧美aⅴ| 亚洲 欧美 变态 另类 综合| 天天综合色天天综合| 国产成人精品免费视频大全 | 国产精品白丝喷水jk娇喘视频|