2026年3月23日,全國科學技術名詞審定委員會發布公告推薦“詞元”試用,AI領域核心術語Token定下正式中文譯名“詞元”。
好的翻譯,的確利于技術的科普、傳播。laser剛進入中國時,大陸最初音譯為“來塞”,臺灣地區則叫作“鐳射”,此外還有其他譯法,混亂的譯法給科研交流、科普帶來了極大困擾。錢學森反復斟酌,將laser統一譯為“激光”。這一譯法簡潔精準,既體現了激光是電子受激發后產生的這一技術特征,也方便了公眾認識。這個翻譯比臺灣“鐳射”的譯法更好,雖然鐳射有音譯的成分,但因鐳字與放射性元素“鐳”相關,在當時還引發了恐慌。
但問題是,laser是一個相對單一的概念,而Token的含義則很多。
Token是AI大模型處理的數據最小單元。早在大語言模型之前,AI有一個領域叫作“自然語言處理”,簡稱NLP。在NLP中,Token表達的就是詞、語素、詞位等各種語言符號的最小單元,翻譯成“詞元”是很合適的。
![]()
后來,transformer模型從nlp領域,向圖像領域等更多模態延展。比如,將圖像分割為16×16的小塊(patches),每個patch就是一個“Token”。從nlp領域延伸過來,自然也就沿用了nlp領域的術語。不過,一般視覺模型的論文中會寫成image token,別的模態也會加上相應的前綴。
隨著多模態大模型的發展,Token不再局限于語言,而是變成了AI能處理一切離散符號的最小單元,圖像、視頻、聲音等都可以拆解成Token,再用token作為單位來計算算力耗費。
所以,“詞元”從字面上理解,概念比token變窄了。有程序員吐槽:“token在AI里不只是處理文字,現在圖像、視頻、語音都會被‘token化’處理,token既可以是一個漢字、一個詞根,也可以是一張圖片的像素塊、一段語音的片段。‘詞元’里的‘詞’字,直接把非文字模態排除在外,太片面了!”難道未來還要有“圖元” “視頻元” “音元” 嗎?
![]()
這就會導致一個問題。
維特根斯坦認為,語言通過邏輯結構與世界形成映射關系。在我看來,這種映射關系是多元的、整體的。翻譯必然丟掉其中一些映射關系。舉一個漢語的例子,花這個字的意思,最基本的含義是植物的器官。這個本意衍生出煙花、校花這類意義。花從名詞又衍生出形容詞的含義,形容顏色、式樣復雜。這個意思,又再次遞進,用來形容磨損或破損——因為磨損后的形態、形狀、圖案是復雜的,比如,玻璃花了,鞋子磨花了。因為磨損的意思,花字又產生了一個動詞意義:花費、花銷、浪費。
![]()
動詞意義的花費、花銷;加上形容詞的樣式復雜;再加上花本身的名詞意義,綜合在一起,就是“花天酒地”這個成語中“花”的意思,表達一種鋪張浪費、花樣繁多、女性混合在一起的綜合性、整體性意境。
這種整體性的含義,母語是中文的人,不難理解。但對學中文的外國人而言,他們想要理解“花朵”和“花錢”,為什么都是花字,是很難的——這就像中國人學英語那樣。至于外國人要領會“花天酒地”這個成語中的“花”字的整體性含義,就得要很多年,浸淫中文語境,才能領悟。
同樣的,如果把一張貓咪圖片拆解成token,說成拆解成詞元。這不僅僅是不符合日常認知,也不僅僅是會給科普帶來困擾,更關鍵的是,缺失了整體性,會影響認知框架,會對技術思維方式,形成潛移默化的影響。今后無數的技術人員,在使用token這個詞的時候,他們的思維會潛移默化地、更多地將token視為一個詞。所以,當詞元的含義更狹窄的時候,使用詞元的人,對技術的思考也會相應變窄。
一個“言說”影響思維的例子是,轉基因如果叫作生物育種,預制菜叫作塑料罐頭,那么,引發輿論的可能,引發輿論的強度就會小得多。因為育種和罐頭,都是“傳統”之物。這就是“名詞中自帶的觀點”。
![]()
自動控制領域的術語robust,在學術圈被統一翻譯為“魯棒”性。“魯棒”在中文里沒有任何語義聯想,在公眾傳播層面,遭到一定的吐槽。有人調侃:“第一次看到‘魯棒性’,我還以為是山東出產的棒球棍。”但這是一個專業名詞,首先應該考慮的不是公眾傳播,公眾自然會慢慢明白其意思。這類名字的翻譯,更需要考慮的是技術傳播。“魯”“棒”字,很好地包含了robust的整體性意思,不妨礙技術思維,所以,在我看來,這是一個很好的翻譯。
20世紀90年代,互聯網進入中國時,Internet曾有“因特網”“信息網絡”“互聯網”等多種譯法,然后權威統一定為“因特網”。不過,在后來的文字演變中,“互聯網”勝出。其實,“因特網”這個翻譯,沒有考慮太多的語言在文化意義上的純潔,采用了音譯,在我看來,就是為了更好地保留其整體意義。
所以,token翻譯為詞元,是有所失的。凡事皆有得失,那么,“得”是什么呢?
有一種說法,統一譯名,是語言權力博弈,是在爭奪國際AI技術話語權。這種情況是存在的。典型的例子是對龍的翻譯。中國龍和西方龍,是不一樣的。中國龍是祥瑞神獸、象征皇權,西方龍是邪惡怪物,往往要被騎士斬殺。英語中把龍翻譯為dragon,是找了一個英語語境中,最接近的形象。但西方傳統觀點在潛移默化中,就會產生對中國龍不好的印象,進而影響對中國文化、中國的印象。所以,中國主動澄清,推廣龍的音譯long,是一個典型的消除文化誤會,爭奪國際話語權的例子。
![]()
另一個例子是漢城。漢城因位于漢江之北,得名“漢陽”。14世紀末朝鮮王朝定都漢陽后,改名為“漢城”。英語根據韓語發音,直譯為Hanseong”,然后,中文又根據拼寫和發音,譯為漢城。漢城帶有濃厚的古代政治文化色彩,使人容易聯想到韓國曾臣服于中國。“Seoul”一詞在韓語中本意為“首都”,早在19世紀末已非正式用于國際交流。到了2005年,韓國政府正式宣布“Seoul”為唯一官方英文名稱,并明確要求國際社會停止使用“Hanseong”,自然也就涉及到中文的“漢城”。怎么翻譯,當然是一國自己的事,但尊重他國意愿,中國也采用了“首爾”這個譯法。推動這一更名,體現了韓國強化文化主體性的意圖。
問題是,前面兩個例子,都是主動干涉其他語言翻譯自身語言,但Token的英譯漢,僅僅是一個翻譯問題,不管中國人如何翻譯,英語中始終叫“token”,毫無影響。就像你在自己家里,把貓叫作狗,狗叫作貓,這也絲毫影響不了其他人怎么叫,更談不上所謂的爭奪貓狗話語權。這就像Chip一詞,不管是翻譯為“芯片”“晶片”“集成電路”還是“水晶寶石”“沙之寶”“沙寶亮”,都是中國人關起門來的事,與中國大陸半導體行業在全球話語體系中的主體性,沒有絲毫的關系。
![]()
實際上,英語對dragon的翻譯,就是一個典型“非要用現存的詞語去套外來概念,進而產生誤導”的例子。反過來看,對token的翻譯,和西方對龍的翻譯,進入了一模一樣的誤區。
所以,采用詞元這個字面翻譯,更多地保留了形式上文字的純潔性,但并不能爭取到所謂的話語權,而在語義上的丟失,則會影響一代又一代的人,潛移默化的限制他們對AI底層原理的思維廣度、發散性,最終,是那寶貴的觸類旁通,靈光一現。這必然會產生深遠的技術影響。
劉 遠 舉
![]()
央視網、第一財經、光明日報、騰訊大家、南方周末、新京報、南方都市報、FT中文網、澎湃等特約作家,多家智庫研究員。
關注時政、財經、科技話題,以深度、專業、理性的態度,去掘現象背后的事實。
中國科技自媒體50人
第35屆中國新聞獎評論三等獎
第34屆中國經濟新聞獎評論二等獎
第28屆北京新聞獎一等獎
2024年湖南新聞獎一等獎
騰訊大家年度作家獎
新浪最有價值專欄作家獎
紅辣椒評論年度佳作獎
已開快捷轉載,歡迎轉載
已開過白名單的公眾號,轉載請遵循轉載規則
您的關注是最好的支持!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.