ESSAY
我們在很多地方都看到了一個(gè)詞,叫「壓縮即智能」
第一次碰到這個(gè)詞的時(shí)候,很多人會(huì)愣一下。壓縮?壓縮怎么就智能了?zip 文件很智能嗎?后來讀到劉慈欣的《詩云》,突然就通了
故事的背景是,一個(gè)技術(shù)遠(yuǎn)超人類的外星神級(jí)文明來到地球。人類在它面前毫無還手之力,科技、軍事、能源,全面碾壓
但有一個(gè)人類詩人對它說:你寫不出超越李白的詩
這個(gè)文明不服。它決定用自己的方式解決這個(gè)問題:窮舉。把所有漢字的所有可能排列組合,全部生成出來,存進(jìn)一團(tuán)圍繞恒星運(yùn)行的巨大存儲(chǔ)結(jié)構(gòu)里。劉慈欣管它叫「詩云」
雕 床 欄 頭 春 故 少 光 里 更 層 朱 似 國 夜 國 鄉(xiāng) 欄 事 中 風(fēng) 樓 雕 昨 前 千 鄉(xiāng) 舉 山 流 霜 國 前 改 多 又 千 改 窮 有 春 事 只 砌 小 了 樓 東 知 了 玉 水 猶 故 樓 了 往 前 夜 東 月 低 花 知 幾 國 疑 望 昨 是 流 少 能 日 昨 目 白 多 多 玉 向 向 似 山 雕 只 舉 月 樓 幾 春 花 秋 月 何 時(shí) 了 ? 50002? 種排列 · 好詩在哪里?
從數(shù)學(xué)的角度,這朵云里一定包含了超越李白的作品。所有可能的漢字排列都在里面,當(dāng)然也包括最好的那幾首
但這個(gè)文明做完之后,沉默了。因?yàn)樗?strong>找不到那些詩。擁有一切可能的詩句,卻沒有辦法判斷哪些是好的
一個(gè)圖書館把世界上所有的書都收齊了。這不叫智能。一個(gè)人讀完之后,用三頁紙寫清楚這些書的共同規(guī)律。這叫智能,區(qū)別在于:丟掉了什么
窮舉不產(chǎn)生智能。壓縮才產(chǎn)生智能
從 Shannon 開始
那壓縮和智能之間的關(guān)系,到底是文學(xué)直覺,還是有數(shù)學(xué)支撐?
有。而且這條線索比大多數(shù)人想象的要長
1948 年,Claude Shannon 發(fā)表「A Mathematical Theory of Communication」,定義了信息熵:一條消息的信息量,等于編碼它所需的最小比特?cái)?shù)
最小。這兩個(gè)字是整個(gè)信息論的地基
你能用 10 個(gè) bit 無損表達(dá)原本需要 100 個(gè) bit 的信息,說明你找到了 90% 的冗余結(jié)構(gòu)。你理解了它
1960 年代,Solomonoff、Kolmogorov 和 Chaitin 從三個(gè)不同國家獨(dú)立提出了算法信息論。Kolmogorov 復(fù)雜度:一個(gè)對象的復(fù)雜度 = 生成它的最短程序長度
最短的程序,能還原全部的信息
100 bits 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 compress 10 bits 1 0 1 0 1 90% 冗余被消除 H(X) = ?Σ p(x) log p(x) 找到冗余結(jié)構(gòu) = 理解它
100 bits → 10 bits:找到冗余,就是理解
2006 年,Marcus Hutter 發(fā)起了一個(gè) 50 萬歐元的競賽:誰能更好地壓縮維基百科的前 1GB,誰就更智能。他說,智能是一個(gè)模糊的概念,但文件大小是硬數(shù)字
Ilya Sutskever 說過,通過壓縮實(shí)現(xiàn)無監(jiān)督學(xué)習(xí),是創(chuàng)立 OpenAI 的兩個(gè) founding ideas 之一
DeepMind 的論文「Language Modeling Is Compression」證明了語言建模和數(shù)據(jù)壓縮在數(shù)學(xué)上等價(jià)。訓(xùn)練一個(gè)語言模型,就是在訓(xùn)練一個(gè)壓縮器
從 Shannon 到 Kolmogorov 到 Hutter 到 Ilya,幾十年,所有人到了同一個(gè)地方:
最小化描述長度,最大化預(yù)測能力
這就是「壓縮即智能」的數(shù)學(xué)含義
F = ma
不止數(shù)學(xué)。回頭看整個(gè)科學(xué)史,「壓縮即智能」一直在場
第谷花了二十多年記錄天文觀測數(shù)據(jù),手稿好幾米高。開普勒壓縮成了三條定律
然后牛頓來了。F = ma 加上萬有引力公式,兩行字,把前面所有東西全部裝進(jìn)去了
麥克斯韋用四個(gè)方程壓縮了整個(gè)電磁學(xué)。愛因斯坦用五個(gè)符號(hào) E=mc2 壓縮了質(zhì)量和能量的關(guān)系
科學(xué)的進(jìn)步史,就是壓縮率的提升史
第谷 20 年觀測 開普勒 3 條定律 牛頓 F = ma 2 行字 數(shù)據(jù) → 定律 → 公式:壓縮率越來越高
20 年觀測 → 3 條定律 → 2 行字
每一次重大突破,都是用更少的符號(hào)解釋更多的現(xiàn)象
物理學(xué)最底層的原理叫最小作用量原理。光走最短路徑。物體沿作用量最小的軌跡運(yùn)動(dòng)。宇宙在每一個(gè)尺度上都偏好最經(jīng)濟(jì)的方案
壓縮,即智能
馮·諾依曼
說到數(shù)學(xué)結(jié)構(gòu),這里有一段有意思的歷史
1928 年,馮·諾依曼證明了博弈論的基石定理:在零和博弈中,存在一個(gè)最優(yōu)策略,使得最大可能損失被最小化
這個(gè)定理叫Minimax 定理
找到所有最壞情況(max loss),然后在里面選最好的(min)。反過來也成立,在所有保守策略中找收益最高的(max min)
后來這個(gè)框架到處都是。Nash 均衡、Alpha-Beta 剪枝、對抗訓(xùn)練,都建立在它上面
max min loss gain min(max loss) = max(min gain) Minimax 定理:兩條線終將收斂
兩條線終將收斂:這就是 Minimax
還有一件事比較有意思,可以把前面說的「壓縮即智能」放進(jìn)數(shù)學(xué)框架里看
Kolmogorov 復(fù)雜度:最短的程序,還原全部信息
min 描述長度,max 保真度
Shannon 最優(yōu)編碼:最少的比特?cái)?shù),無損傳輸全部信息
min 碼長,max 保真
訓(xùn)練語言模型:找一組參數(shù),使得在任何未知數(shù)據(jù)上的預(yù)測誤差盡可能小
min loss,max generalization
這三個(gè)問題的數(shù)學(xué)結(jié)構(gòu)是一樣的。都是 Minimax
馮·諾依曼在 1928 年就把這個(gè)結(jié)構(gòu)命名好了。只是當(dāng)時(shí)沒人在討論 AI
![]()
大腦
「壓縮即智能」在生物學(xué)里也有對應(yīng)
人類嬰兒出生時(shí),大腦有大約100 萬億個(gè)突觸連接。到成年,減少到 50 萬億
少了一半。這個(gè)過程叫突觸修剪。大腦主動(dòng)丟棄低效連接,保留最有用的路徑。大腦在對自己做壓縮
自閉癥譜系的一種理論認(rèn)為,部分患者的突觸修剪不夠充分。連接太多,信號(hào)互相干擾,無法提取清晰的模式
連接太多和信息太多,是同一類問題。詩云的困境,在生物學(xué)里也存在
人腦每秒接收大約 1100 萬 bits 的感官信息,意識(shí)只能處理大約 50 bits。99.9995%被丟棄了
意識(shí),大概就是一個(gè)極其挑剔的壓縮器
它的工作就是決定丟掉哪些信息
10 的 103 次方
最后回到詩云,算一筆賬
假設(shè)漢字 5000 個(gè),一首七言絕句 28 個(gè)字。所有可能的排列組合是 50002?,大約101?3
可觀測宇宙中的原子總數(shù)大約 10??。詩云里的「詩」比宇宙里的原子還多
好詩大概率不超過幾百萬首。占比 10? / 101?3 =10???
隨機(jī)抽樣找好詩,在宇宙的整個(gè)生命周期里,一首都找不到
窮舉的失敗在于搜索空間太大。什么都不壓縮,好的東西就被淹沒了
而李白不在 101?3 的空間里搜索。他對語言、情感、韻律、意象有一套高度壓縮的理解,可以直接跳到好詩的鄰域
他的腦子里裝的是一個(gè)壓縮過的生成模型
10? 首好詩 101?3 李白 壓縮 = 知道往哪里跳
李白不窮舉。他知道往哪里跳
大語言模型也是一回事。GPT 的參數(shù)量遠(yuǎn)小于訓(xùn)練數(shù)據(jù)量,但它能生成從沒見過的合理文本。因?yàn)樗鼔嚎s了數(shù)據(jù)背后的結(jié)構(gòu)
外星文明輸給了李白。它的算力夠了。它不會(huì)壓縮
「壓縮即智能」這個(gè)詞表達(dá)得不好。兩個(gè)抽象概念中間一個(gè)「即」字,沒有信息論背景的人很難直覺理解
但它說的事情很簡單。用最少的符號(hào)解釋最多的現(xiàn)象,用最短的程序還原全部信息,用最少的參數(shù)做最好的預(yù)測。換句話說:Mini 這個(gè) Max
我建議以后別說「壓縮即智能」了,說:MiniMax
以上內(nèi)容,是認(rèn)真的
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.