一個(gè)漢字到底"值"多少信息?這個(gè)問題聽起來玄,真要較真起來,牽扯的是兩千多年的造字史,也牽扯到上世紀(jì)那場(chǎng)差一點(diǎn)把漢字推下懸崖的大討論。漢語今天能穩(wěn)穩(wěn)坐上"全球最緊湊書面語"這把交椅,背后到底搭進(jìn)去了什么、又留下了什么?
![]()
2026年4月,國(guó)內(nèi)幾家大模型團(tuán)隊(duì)在公開的技術(shù)白皮書里都提到一個(gè)細(xì)節(jié):訓(xùn)練同樣規(guī)模的語料,中文版本占用的token數(shù)只有英文的六成左右。換句話說,機(jī)器讀一份中文文檔,比讀對(duì)應(yīng)的英文版要省力氣、省錢。這件事讓不少做AI的工程師重新打量起方塊字,原來曾經(jīng)被嫌"笨重"的漢字,在算力時(shí)代成了省錢利器。
![]()
這種密度優(yōu)勢(shì)并不是憑空冒出來的。1948年,貝爾實(shí)驗(yàn)室的香農(nóng)寫了一篇《通信的數(shù)學(xué)理論》,把"信息熵"這個(gè)工具遞給了全世界的語言學(xué)家。后來有人拿這把尺子量過,平均一個(gè)漢字承載的信息量,大約是一個(gè)英文字母的好幾倍。聯(lián)合國(guó)六種工作語言的同一份決議印出來擺在一起,中文那本永遠(yuǎn)是最薄的。
為什么差這么多?根子在于漢字是"表意"的,而不是"表音"的。每一個(gè)字本身就是一個(gè)意義單元,自己能站住,搭配別的字又能生出新詞。"風(fēng)骨""山河""破曉",兩個(gè)字撐起來的畫面感,英文得繞一圈解釋。一句"己所不欲,勿施于人",八個(gè)字說完的事,翻成英文得多用一倍篇幅。
![]()
這種本事不是天上掉下來的。公元前221年秦統(tǒng)一六國(guó)之后,李斯主持"書同文",以秦國(guó)小篆為標(biāo)準(zhǔn)把六國(guó)雜七雜八的寫法統(tǒng)一過來。要知道在那之前,光一個(gè)"馬"字就有幾十種異體,商人跨郡做生意,合同上的字兩邊都得猜半天。
文字一統(tǒng),帶來一個(gè)意想不到的紅利——方言可以千差萬別,文字卻始終一脈相承。一個(gè)潮汕人說話廣東人都未必聽懂,但寫下來,兩千公里外的東北老鄉(xiāng)照樣能讀。這一點(diǎn)是拉丁系文字望塵莫及的,當(dāng)年羅馬帝國(guó)一散,拉丁文很快碎成法語、意大利語、西班牙語、葡萄牙語,而漢字兩千年沒有分家。
![]()
不過這條路也不是一直順風(fēng)順?biāo)?840年以后中國(guó)挨打太狠,知識(shí)分子一邊救國(guó)一邊反思,反思到最后,連漢字都被推上了被告席。魯迅寫過那句"漢字不滅,中國(guó)必亡",今天讀著扎耳朵,放回當(dāng)年的國(guó)情里,代表的是對(duì)識(shí)字率長(zhǎng)期低迷的真實(shí)焦慮。
![]()
二十世紀(jì)二三十年代,錢玄同、瞿秋白、趙元任輪番上陣,主張廢掉漢字、改用拼音文字。1931年召開的中國(guó)新文字第一次代表大會(huì),通過了《北方話拉丁化新文字方案》,這套方案后來在一些根據(jù)地試過水,意思就是把漢語徹底拼音化。
![]()
新中國(guó)成立之后,這條思路沒有立刻剎車。1954年中國(guó)文字改革委員會(huì)成立,1956年公布簡(jiǎn)化字方案,1958年《漢語拼音方案》出臺(tái)。在早期的設(shè)計(jì)里,簡(jiǎn)化字被定位成通向拼音化的"過渡橋梁",拼音化才是終點(diǎn)。這樁"過渡"能不能修成,得看一個(gè)繞不開的門檻——機(jī)器。
19世紀(jì)末打字機(jī)普及以后,英文一個(gè)26鍵的鍵盤搞定所有事,中文怎么辦?1916年前后,留美學(xué)生祁暄做了一臺(tái)拼合式中文打字機(jī),把漢字拆成部件再拼,創(chuàng)意有了,效率沒了,打一個(gè)字得敲好幾下。
![]()
真正在中國(guó)辦公室扎根的,是1919年舒震東在商務(wù)印書館改進(jìn)的"舒式華文打字機(jī)"。它把幾千個(gè)最常用的鉛字鋪在一個(gè)大字盤上,打字員靠一只機(jī)械手在字海里"撈"。熟練工一分鐘也就二三十字,手指頭要磨出繭子,但這玩意兒后來撐起了民國(guó)幾十年的公文系統(tǒng)。
最讓人心里發(fā)酸的,是林語堂的故事。1947年,他在紐約把畢生積蓄砸進(jìn)去的"明快中文打字機(jī)"做了出來,本來談好合作的雷明頓公司臨陣退縮,演示當(dāng)天機(jī)器又掉鏈子。這位寫《京華煙云》的大才子,差點(diǎn)被債務(wù)壓垮。漢字過不了機(jī)器這道關(guān),在當(dāng)年看起來真的就是死局。
![]()
鉛字印刷同樣苦。一家普通報(bào)社的字模庫七八千個(gè)起步,排字工拎著字盤在車間里走來走去,一個(gè)版面排一通宵很正常。如果漢字始終擺不平機(jī)械化這件事,被拼音文字替代似乎只是時(shí)間問題。
![]()
轉(zhuǎn)彎發(fā)生在1970年代末。北京大學(xué)的王選,長(zhǎng)期帶病工作,帶著團(tuán)隊(duì)搞漢字激光照排,直接繞開了別人正在死磕的"二代""三代"機(jī)械照排,跳到第四代,用數(shù)學(xué)方法把字形高倍壓縮,再用激光在膠片上還原。這一招業(yè)內(nèi)后來叫"跳代攻關(guān)"。
![]()
1981年華光Ⅰ型樣機(jī)通過鑒定,1987年《經(jīng)濟(jì)日?qǐng)?bào)》成為全球第一家用計(jì)算機(jī)激光照排出報(bào)的中文報(bào)紙。鉛與火,被光與電換了出去。王選后來被業(yè)界稱作"當(dāng)代畢昇",這個(gè)稱號(hào)背后,是漢字從機(jī)械時(shí)代整體抬腿邁進(jìn)了數(shù)字時(shí)代。
進(jìn)了互聯(lián)網(wǎng)時(shí)代,情況又翻了個(gè)個(gè)兒。Unicode把漢字收進(jìn)統(tǒng)一框架,GB18030收錄了七萬多個(gè)字,拼音輸入法、五筆、再到智能聯(lián)想,中文錄入速度甚至反超了英文。到了手機(jī)屏幕上,一段中文顯示出來只占英文一半的位置,密度優(yōu)勢(shì)變成實(shí)實(shí)在在的便利。
![]()
因而當(dāng)大模型按token計(jì)費(fèi),中文的緊湊直接換算成成本節(jié)省。當(dāng)年被嫌"難"的方塊字,如今成了AI時(shí)代一筆不動(dòng)聲色的資產(chǎn)。
那么,漢語為了走到今天這一步,究竟?fàn)奚袅耸裁矗空J(rèn)真盤下來,核心的東西其實(shí)一樣沒丟。被舍棄的,是筆畫繁復(fù)到?jīng)]人愿意寫的異體字,是鉛字車間里的體力活,是一段被低估了幾十年的文化自信。秦朝那次"書同文"算第一次瘦身,二十世紀(jì)的簡(jiǎn)化字算第二次,王選那一代人做的事,是把它整個(gè)從鉛字時(shí)代抬進(jìn)了數(shù)字屏幕。
![]()
幾千年里,漢字三次走到懸崖邊,三次都沒掉下去。今天能被稱作"最緊湊、最高效",不是某一刀砍出來的結(jié)果,而是一代代人在歷史的窄路上,一邊沒扔掉字形里藏著的文化密碼,一邊沒拒絕新工具遞過來的手。這條路不算好走,但終究走通了。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.