![]()
新智元報道
編輯:桃子
【新智元導讀】你敢信?一個活在95年前的AI,竟寫出了Python代碼。GPT之父下場,用2600億Token煉出了一個「老古董」AI。
一個從未見過電腦的AI,竟寫出了現代編程語言!
這可不是什么科幻的設定。
就在今天,GPT之父Alec Radford帶隊發布了震撼全網的「talkie」——
總參數130億,一個只讀過1931年之前舊文獻的大模型。
![]()
talkie的「世界觀」(全部訓練數據),被凍結在了1930年12月31日。
那個時代,沒有互聯網,沒有維基百科,更沒有任何現代代碼。
它讀過的最「新」的東西,是近百年前的專利書、科學期刊、禮儀手冊和私人書信。
![]()
但就是這樣一個「活在95年前」的AI,居然能寫出Python代碼。
![]()
![]()
![]()
沒學過編程,
卻寫出了Python,理解了「逆函數」
talkie最炸裂的發現,藏在一組編程測試里。
Alec Radford團隊突發奇想,用HumanEval去測試talkie的編程能力——
給它幾個Python函數作為上下文示例,然后讓它解決新的編程問題。
要知道,talkie的訓練數據中,沒有任何一行現代代碼。連數字計算機的概念,都不存在于它的「知識體系」中。
![]()
但結果令人震驚,通過少樣本學習,它竟然能寫出正確的Python程序。
雖然目前只能完成簡單的單行程序,比如兩個數相加,或者對上下文示例做微小修改。
![]()
Alec Radford:GPT、CLIP、Whisper背后核心大佬
但其中一個案例讓人印象深刻:給定一個旋轉密碼的編碼函數encode_shift,它的邏輯是把每個字母在字母表中向后移動5位。
talkie自己寫出了對應的解碼函數,整個修改只有一個字符:把+5改成了-5,加號換成了減號。
它真正理解了「逆函數」:加密是加,解密就是減」這個逆運算的概念。
![]()
傳送門:https://talkie-lm.com/chat
2600億Token,專喂百年前的紙
Alec Radford團隊為什么要費這么大勁,手動OCR近百年前的物理文獻,來訓練一個「老古董」?
因為他們要回答AI領域最核心的一個問題:LLM的能力,到底是推理,還是背誦?
talkie可以寫出Python,證明了——
LLM可以用19世紀的知識做推理,并非只是檢索。不得不說,這才是真正意義上的「泛化」!
![]()
再來看talkie的訓練語料庫,可以稱得上是一個龐大的「考古工程」。
它的訓練語料達到了2600億token,全部來自1931年之前的英語文本,包括書籍、報紙、期刊、科學論文、美國專利、判例法。
要知道,這么多文本皆需要從實體文檔掃描并OCR轉錄。
![]()
而選擇1930年作為截止日期,原因很實際:這是美國公共版權法(public domain)的分界線。
不過,這帶來了一個意想不到的瓶頸:數據質量。
團隊做了一組對照實驗:用傳統OCR系統轉錄的舊文本訓練模型,和用人工轉錄的同一批文本訓練模型相比,前者的學習效率只有后者的30%。
簡單的正則清洗能把這個數字提升到70%,但仍然有巨大的差距。
![]()
在評估talkie性能實驗中,團隊又打造了一個「現代孿生體」(talkie-web-13b-base)。
后者用FineWeb的現代網絡數據訓練,兩款模型用了「相同的算力」。
顯而易見,在核心語言理解、數學推理任務上,talkie的表現與現代孿生體相當。
但在通用知識評測上,即使剔除了對1930年視角來說「穿越」的題目,talkie仍然落后。
![]()
團隊懷疑,這跟數據質量有很大關系。
為此,Radford團隊計劃從零開始訓練「復古OCR系統」,專門用于重新轉錄1931年前的文本。
用最現代的Claude 4.6
訓練最古老的AI
talkie的「后訓練」方案也很有意思。
要把一個只讀過舊書的「基礎模型」變成能對話的聊天機器人,根本沒有現成的指令微調的數據可用。
![]()
團隊的做法是,從1930年之前的結構化參考書中提取指令-回答對:禮儀手冊、書信寫作指南、菜譜、百科全書、詩歌集。
然后,再用這些「復古教材」做第一輪SFT。
在接下來的RLAIF階段,團隊用在線DPO來提升talkie的指令遵循能力,Claude Sonnet 4.6作為裁判。
一個2026年最先進的AI,給一個「活在」1930年的AI打分。
最終的精調階段,團隊甚至用Claude Opus 4.6生成多輪對話數據,來打磨talkie的對話能力。
訓練過程中,Claude對talkie指令遵循能力的評分從2.0提升到了3.4(滿分5分)。
最后一步,用Claude Opus 4.6與talkie進行多輪合成對話,再做一輪拒絕采樣+SFT,打磨對話能力。
團隊也坦承了一個諷刺之處:用現代大模型訓練一個本該凍結在1930年的模型,本身就是一種「時間污染」。
他們的長期目標是用復古基座模型自身作為裁判,實現完全「自舉式」的后訓練流水線。
值得一提的是,talkie的7B版本在RL訓練后出現了一個搞笑的副作用——
它開始用列表體說話,純屬是被現代AI的「壞習慣」傳染了。
AI界最干凈的一次「開卷考試」
研究團隊還做了另一個有趣的實驗。
他們從《紐約時報》的「歷史上的今天」欄目中提取了近5000條歷史事件描述,計算talkie對每條事件的「驚訝度」。
![]()
結果非常清晰,1930年之前的事件,talkie不太驚訝。1930年之后的事件,驚訝度開始攀升。
到了1950年代和1960年代達到峰值,然后趨于平穩。
這條曲線本身就是一個關于預測能力的實驗。隨著模型規模增大,這條曲線會怎么變化?
谷歌DeepMind CEO Demis Hassabis曾提出一個思想實驗——
一個只訓練到1911年的模型,能不能像愛因斯坦在1915年那樣獨立發現廣義相對論?
talkie目前當然做不到。但它提供了一條路徑,往上Scale就行了。
今夏擴展到GPT-3級別
talkie目前是130億參數,團隊的路線圖相當激進——
今年夏天,發布GPT-3級別的復古模型。
![]()
更遠期的目標:將語料擴展到超過一萬億token,理論上足夠訓練一個GPT-3.5級別的模型,能力接近初代ChatGPT。
一個凍結在1930年的ChatGPT。
參考資料:
https://x.com/status_effects/status/2048878495539843211?s=20
https://talkie-lm.com/introducing-talkie
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.