<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      哈薩比斯出的難題,GPT之父接上了:用一個(gè)知識(shí)停在1930年的模型

      0
      分享至


      機(jī)器之心編輯部

      一個(gè)訓(xùn)練數(shù)據(jù)截止到 1911 年的模型,能不能自己推導(dǎo)出愛因斯坦 1915 年提出的廣義相對(duì)論?」今年年初,哈薩比斯給出了一個(gè)極其硬核的 AGI 判定標(biāo)準(zhǔn)。



      沒想到的是,這件事真的有人嘗試去做了,而且其中一位作者還是 GPT 之父 Alec Radford。



      最近,Alec Radford 和「神經(jīng)常微分方程」提出者之一、陳天琦導(dǎo)師 David Duvenaud 以及量化專家 Nick Levine 一起做了一個(gè)有趣的項(xiàng)目:用 1931 年以前的數(shù)據(jù)訓(xùn)練了一個(gè) 13B 模型 ——Talkie,然后和這個(gè)模型對(duì)話,看看會(huì)發(fā)生什么有意思的事情。



      這個(gè)「來自 1930 年」的模型被切斷了所有現(xiàn)代知識(shí)的污染。這給了研究者一個(gè)罕見的機(jī)會(huì):當(dāng)你想測(cè)試一個(gè) AI 到底是真的理解了某些能力,還是僅僅在重復(fù)訓(xùn)練數(shù)據(jù)里的答案,talkie-1930 就是那個(gè)誠(chéng)實(shí)的參照系(理論上是)。對(duì)于哈薩比斯提出的問題,這也是一個(gè)很好的探索起點(diǎn)。

      來自 1930 年的模型,有什么用?

      talkie 的訓(xùn)練數(shù)據(jù),全部來自 1931 年以前的英文文本,包括書籍、報(bào)紙、期刊、專利、法律文書,總計(jì) 2600 億個(gè) token。之所以選這一年作為截止點(diǎn),是因?yàn)樵诿绹?guó),在此之前的作品已進(jìn)入公共領(lǐng)域,可以合法使用。

      模型訓(xùn)練好之后,研究者們做了一件很有趣的事:他們開了一個(gè) 24 小時(shí)的直播頻道,讓 Claude Sonnet 4.6 全天候地去和 talkie?1930 聊天,探索這個(gè)「古人」的知識(shí)邊界。對(duì)話記錄是公開的,大家看看怎么樣。

      其他人也可以試用這個(gè)模型,以下是我們問的兩個(gè)簡(jiǎn)單的小問題。





      體驗(yàn)鏈接:https://talkie-lm.com/chat

      但更有意思的,不是模型具體表現(xiàn),而是研究者們?yōu)槭裁匆@么做。

      他們提出了一個(gè)問題:一個(gè)只活在過去的模型,能在多大程度上「預(yù)感」到未來?

      他們從《紐約時(shí)報(bào)》的「歷史上的今天」欄目里抓了將近 5000 條歷史事件的描述,然后測(cè)量這些描述對(duì) talkie 來說有多「意外」。用信息論的語(yǔ)言說,就是每字節(jié)文本的驚訝度。結(jié)果正如預(yù)期的那樣:1930 年之前的事,talkie 不覺得意外;1930 年之后,驚訝度明顯爬升,在五六十年代達(dá)到頂峰,之后趨于平穩(wěn)。



      這套方法背后藏著一個(gè)更野心勃勃的設(shè)想。研究者們引用了 DeepMind 創(chuàng)始人 Demis Hassabis 曾經(jīng)提出過的問題(如前所述),他們還舉了幾個(gè)類似的例子:西科斯基的直升機(jī)專利(1935 年)、圖靈關(guān)于可計(jì)算數(shù)的論文(1936 年)、卡爾森的靜電復(fù)印專利(1942 年)—— 這些都是 talkie「理論上」無法知曉的東西。但如果模型足夠大、理解足夠深,能不能憑借對(duì)已有知識(shí)的推演,自己走到那一步

      這個(gè)問題目前還沒有答案,但已經(jīng)足夠讓人認(rèn)真想一想了。

      他們提出的第二個(gè)動(dòng)機(jī),是污染問題。

      評(píng)估大模型能力,有一個(gè)長(zhǎng)期困擾研究者的麻煩:你怎么知道模型是真的「會(huì)」,而不是在訓(xùn)練數(shù)據(jù)里見過這道題的答案?這個(gè)問題幾乎無解,因?yàn)楝F(xiàn)代模型的訓(xùn)練數(shù)據(jù)實(shí)在太龐大,根本沒法逐一排查。

      talkie 天然繞開了這個(gè)問題。它完全不知道 Python 是什么,也從未見過任何一行現(xiàn)代代碼。于是研究者們做了一個(gè)實(shí)驗(yàn) —— 用 HumanEval 這套標(biāo)準(zhǔn)編程測(cè)試來評(píng)估它。他們給 talkie 隨機(jī)挑選幾個(gè) Python 函數(shù)作為示例,然后讓它自己寫一個(gè)新的出來,看它能在 100 次嘗試中至少答對(duì)一次的比例有多高。

      結(jié)果是:talkie 確實(shí)能學(xué),而且隨著規(guī)模的擴(kuò)大,模型在這項(xiàng)任務(wù)上的表現(xiàn)會(huì)緩慢但穩(wěn)定地提升。



      但比起訓(xùn)練在現(xiàn)代網(wǎng)頁(yè)數(shù)據(jù)上的同等規(guī)模模型,talkie 還有很大差距。而且,它答對(duì)的題目全都屬于兩類:要么是極簡(jiǎn)單的單行程序,要么是對(duì)示例程序的小幅改動(dòng)。研究者們特別提到了一個(gè)例子 —— 一個(gè)旋轉(zhuǎn)密碼的解碼函數(shù)。示例里給了編碼函數(shù),talkie 理解了「逆操作」的概念,把加號(hào)換成減號(hào),一字之差,答案正確。他們認(rèn)為,這說明模型對(duì)「逆函數(shù)」這個(gè)抽象概念有所理解,而不只是在照貓畫虎。



      一個(gè)對(duì)數(shù)字計(jì)算機(jī)一無所知的模型,依然能從示例里摸索出編程的邏輯。這個(gè)結(jié)果讓研究者們覺得值得繼續(xù)往下做。

      第三個(gè)動(dòng)機(jī),是關(guān)于數(shù)據(jù)多樣性的一個(gè)更深層的問題。

      當(dāng)今所有主流大模型,無論是 GPT、Claude、還是 Gemini,訓(xùn)練數(shù)據(jù)最終都指向同一個(gè)來源:互聯(lián)網(wǎng)。直接爬取也好,蒸餾也好,合成數(shù)據(jù)也好,本質(zhì)上都是同一片信息海洋的產(chǎn)物。這就引出了一個(gè)值得認(rèn)真對(duì)待的問題:我們以為自己在研究「語(yǔ)言模型的普遍規(guī)律」,實(shí)際上研究的,會(huì)不會(huì)只是「訓(xùn)練在互聯(lián)網(wǎng)上的模型」的特殊性質(zhì)?這些模型在氣質(zhì)、能力和行為傾向上的相似,到底有多少來自人類語(yǔ)言和文化的共性,又有多少只是因?yàn)楹攘送豢诰锏乃?/p>

      talkie 提供了一個(gè)對(duì)照組。通過研究它與現(xiàn)代模型的異同,研究者們希望剝離出哪些特征是語(yǔ)言模型的普遍屬性,哪些是「互聯(lián)網(wǎng)訓(xùn)練」的特有產(chǎn)物。

      為了更直觀地衡量 talkie 的能力,研究者們還專門訓(xùn)練了一個(gè)「現(xiàn)代孿生」模型 —— 架構(gòu)完全一樣,只是把訓(xùn)練數(shù)據(jù)換成了現(xiàn)代網(wǎng)頁(yè)數(shù)據(jù)集 FineWeb。兩個(gè)模型在語(yǔ)言理解、數(shù)字計(jì)算和知識(shí)掌握三個(gè)維度上正面比較。

      結(jié)果是 talkie 全面落后。但研究者們注意到一個(gè)細(xì)節(jié):測(cè)試題里有很多問題,對(duì)一個(gè)只知道 1930 年以前世界的模型來說,本身就是「超綱」的 —— 它沒有理由知道那些事。把這些題目過濾掉之后,兩個(gè)模型之間的差距大約縮小了一半。



      在語(yǔ)言理解和數(shù)字計(jì)算這兩個(gè)維度上,talkie 的表現(xiàn)與現(xiàn)代孿生模型相當(dāng)接近。研究者們認(rèn)為,剩余的差距,很可能來自兩個(gè)原因:一是歷史文本的 OCR 識(shí)別質(zhì)量較差,二是訓(xùn)練語(yǔ)料的主題分布與現(xiàn)代模型差異較大。

      訓(xùn)練復(fù)古模型,沒有那么容易?

      訓(xùn)練一個(gè)復(fù)古模型遠(yuǎn)沒有聽起來那么簡(jiǎn)單。

      最棘手的問題叫「時(shí)間泄漏」。訓(xùn)練數(shù)據(jù)的截止日期是 1930 年,但「1930 年以前出版」并不等于「內(nèi)容只涉及 1930 年以前的事」。一本 1920 年的書,如果后來重版,編輯可能加了現(xiàn)代的序言;一份報(bào)紙的數(shù)字化檔案,可能附帶著整理者寫的當(dāng)代注釋。這些內(nèi)容一旦混進(jìn)訓(xùn)練集,模型就會(huì)在不該知道的地方突然「開竅」。

      早期的 7B 版本就出過這種狀況 —— 有人問它 1936 年誰(shuí)是美國(guó)總統(tǒng),簽署了哪些重要立法,它不假思索地答出了羅斯福和新政的細(xì)節(jié),順帶還提到了聯(lián)合國(guó)和德國(guó)的戰(zhàn)后分裂。一個(gè)理應(yīng)只活在 1930 年的模型,不知從哪條縫里看到了后來的世界。



      研究者們?yōu)榇碎_發(fā)了一套基于 n-gram 的異常詞檢測(cè)分類器,專門用來過濾訓(xùn)練數(shù)據(jù),但承認(rèn)這套方法并不完美。13B 版本的 talkie 依然對(duì)二戰(zhàn)后的某些事情有模糊的感知。怎么徹底堵住這條縫,還是一個(gè)未解決的問題。

      另一個(gè)麻煩是數(shù)據(jù)質(zhì)量。1930 年沒有數(shù)字出版,所有文本都要從紙質(zhì)原件掃描、識(shí)別。傳統(tǒng)的 OCR 系統(tǒng)對(duì)付干凈的印刷品還行,碰上版式復(fù)雜或保存不善的舊書,識(shí)別出來的東西往往慘不忍睹 —— 字母錯(cuò)位、段落混亂、符號(hào)亂入。研究者們做過對(duì)照實(shí)驗(yàn):同樣的訓(xùn)練量,用傳統(tǒng) OCR 轉(zhuǎn)錄的文本訓(xùn)練出來的模型,性能只有人工轉(zhuǎn)錄版本的 30%。做一些正則清洗之后,能回升到 70%,但差距仍然很大。



      他們現(xiàn)在正在開發(fā)一套專門針對(duì)歷史文獻(xiàn)的 OCR 系統(tǒng),希望把這個(gè)缺口補(bǔ)上。

      還有一個(gè)問題是訓(xùn)練后的對(duì)齊。現(xiàn)代大模型的指令微調(diào),依賴大量人工標(biāo)注的對(duì)話數(shù)據(jù),但那些數(shù)據(jù)全都帶著現(xiàn)代世界的氣息和預(yù)設(shè)。用它們來微調(diào) talkie,就像是把一個(gè)維多利亞時(shí)代的紳士送去參加企業(yè)培訓(xùn),出來之后說話開始帶著 PPT 腔。早期版本的 talkie 在強(qiáng)化學(xué)習(xí)之后,有段時(shí)間說話全是列表和要點(diǎn),完全不像一個(gè) 1930 年代的人。

      為了解決這個(gè)問題,研究者們從歷史文本本身入手,用禮儀手冊(cè)、書信范文、烹飪食譜、百科全書這類結(jié)構(gòu)規(guī)整的舊書生成指令 - 回復(fù)對(duì),從頭構(gòu)建了一套后訓(xùn)練流程。用 Claude Opus 4.6 扮演用戶、talkie 扮演助手,生成多輪對(duì)話,再用 Claude Sonnet 4.6 做裁判,給 talkie 的回答打分。訓(xùn)練開始時(shí),裁判平均給 2 分(滿分 5 分),結(jié)束時(shí)升到了 3.4 分。



      他們也坦承,用現(xiàn)代 AI 做裁判,本身就是一種「時(shí)代污染」。徹底干凈的做法,應(yīng)該用 talkie 的基礎(chǔ)模型來評(píng)價(jià) talkie 的對(duì)話 —— 自己審判自己,完全活在 1930 年的邏輯里。這是他們下一步想嘗試的方向。

      目前,他們正在訓(xùn)練一個(gè) GPT-3 級(jí)別的模型,并希望在今年夏天發(fā)布。初步估計(jì)表明,他們可以將語(yǔ)料庫(kù)擴(kuò)展到超過 1T 個(gè)歷史文本 token,這應(yīng)該足以創(chuàng)建一個(gè) GPT-3.5 級(jí)別的模型 —— 其功能與最初的 ChatGPT 類似。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      忍了大半年,聞泰科技終于亮劍:荷蘭政府搶走的,連本帶利賠80億

      忍了大半年,聞泰科技終于亮劍:荷蘭政府搶走的,連本帶利賠80億

      知法而形
      2026-05-14 12:02:59
      4-3晉級(jí)!3-2逆天改命,東部最大黑馬誕生,2換1交易賺大了

      4-3晉級(jí)!3-2逆天改命,東部最大黑馬誕生,2換1交易賺大了

      生活新鮮市
      2026-05-14 19:10:52
      千萬(wàn)網(wǎng)友組成最悲壯調(diào)查兵團(tuán),全死在了各大地圖APP的假公廁門前

      千萬(wàn)網(wǎng)友組成最悲壯調(diào)查兵團(tuán),全死在了各大地圖APP的假公廁門前

      情報(bào)姬
      2026-05-13 23:05:41
      梅洛尼追悔莫及!疏遠(yuǎn)中國(guó)四年后,意大利將成歐元區(qū)最大債務(wù)國(guó)

      梅洛尼追悔莫及!疏遠(yuǎn)中國(guó)四年后,意大利將成歐元區(qū)最大債務(wù)國(guó)

      情系雨櫻花葉
      2026-05-14 20:39:22
      好牛逼的狀元!29歲帶隊(duì)進(jìn)西決,30歲帶隊(duì)進(jìn)東決,31歲帶隊(duì)進(jìn)東決

      好牛逼的狀元!29歲帶隊(duì)進(jìn)西決,30歲帶隊(duì)進(jìn)東決,31歲帶隊(duì)進(jìn)東決

      球毛鬼胎
      2026-05-12 11:24:51
      涉嫌發(fā)布虛假?gòu)V告 深圳閃魔數(shù)碼科技集團(tuán)被罰1000元

      涉嫌發(fā)布虛假?gòu)V告 深圳閃魔數(shù)碼科技集團(tuán)被罰1000元

      信網(wǎng)
      2026-05-14 14:02:27
      特朗普愛吃的兩道中國(guó)菜,好多老外都猜不到

      特朗普愛吃的兩道中國(guó)菜,好多老外都猜不到

      阿萊美食匯
      2026-05-15 00:03:02
      大疆多款產(chǎn)品降價(jià),Pocket3至高直降1400元,Pocket4仍無現(xiàn)貨

      大疆多款產(chǎn)品降價(jià),Pocket3至高直降1400元,Pocket4仍無現(xiàn)貨

      魯中晨報(bào)
      2026-05-13 16:06:55
      清華系團(tuán)隊(duì)出手!一張 4090 即可「爆改」,1.3B小鋼炮震撼開源

      清華系團(tuán)隊(duì)出手!一張 4090 即可「爆改」,1.3B小鋼炮震撼開源

      新智元
      2026-05-13 12:11:23
      大s悲劇即將重演?45歲小沈陽(yáng)身體亮起紅燈,給所有明星提了醒

      大s悲劇即將重演?45歲小沈陽(yáng)身體亮起紅燈,給所有明星提了醒

      草莓解說體育
      2026-05-15 04:13:39
      記者曝布萊克·萊弗利采訪黑幕:怕被封殺不敢反抗

      記者曝布萊克·萊弗利采訪黑幕:怕被封殺不敢反抗

      娛圈觀察員
      2026-05-14 07:29:51
      20多年前陳紅在陳凱歌家拍照,她躺在沙發(fā)上的樣子,堪稱人間尤物!

      20多年前陳紅在陳凱歌家拍照,她躺在沙發(fā)上的樣子,堪稱人間尤物!

      感覺會(huì)火
      2026-04-28 21:18:46
      江西舉報(bào)恩人沈女士已社死,正臉照曝光,大叔崗位被調(diào),景區(qū)回應(yīng)

      江西舉報(bào)恩人沈女士已社死,正臉照曝光,大叔崗位被調(diào),景區(qū)回應(yīng)

      水泥土的搞笑
      2026-05-14 19:34:54
      阿森納迷惑操作!19 歲天才剛坐穩(wěn)主力,就要被 7000萬(wàn)先生擠走?

      阿森納迷惑操作!19 歲天才剛坐穩(wěn)主力,就要被 7000萬(wàn)先生擠走?

      奶蓋熊本熊
      2026-05-15 01:10:37
      何穗這些年變化也太大了,今昔對(duì)比,簡(jiǎn)直不敢相信竟是同一個(gè)人

      何穗這些年變化也太大了,今昔對(duì)比,簡(jiǎn)直不敢相信竟是同一個(gè)人

      草莓信箱
      2026-05-14 10:04:37
      全網(wǎng)炸鍋!49歲馬伊琍突然官宣,文章攜新歡亮相終獲圓滿?

      全網(wǎng)炸鍋!49歲馬伊琍突然官宣,文章攜新歡亮相終獲圓滿?

      動(dòng)物奇奇怪怪
      2026-05-15 01:31:32
      國(guó)家階級(jí)固化完成:這世界上不可能再有國(guó)家可以取代中美了!

      國(guó)家階級(jí)固化完成:這世界上不可能再有國(guó)家可以取代中美了!

      天老爺
      2026-05-08 15:50:54
      上海泡沫最嚴(yán)重的3個(gè)地方!不是陸家嘴,剛需買完直接虧掉首付

      上海泡沫最嚴(yán)重的3個(gè)地方!不是陸家嘴,剛需買完直接虧掉首付

      科學(xué)發(fā)掘
      2026-05-14 16:50:00
      騎士加時(shí)逆轉(zhuǎn)3-2活塞:哈登30+8+6比肩詹姆斯 坎寧安39+7+9

      騎士加時(shí)逆轉(zhuǎn)3-2活塞:哈登30+8+6比肩詹姆斯 坎寧安39+7+9

      醉臥浮生
      2026-05-14 11:07:28
      蘇超爭(zhēng)冠大戲:凱爾特人讀秒點(diǎn)球絕殺,將與哈茨上演末輪生死戰(zhàn)

      蘇超爭(zhēng)冠大戲:凱爾特人讀秒點(diǎn)球絕殺,將與哈茨上演末輪生死戰(zhàn)

      星耀國(guó)際足壇
      2026-05-14 15:37:44
      2026-05-15 09:12:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12996文章數(shù) 142648關(guān)注度
      往期回顧 全部

      科技要聞

      兩年聯(lián)姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      歡迎宴會(huì)座位公開:馬斯克黃仁勛與中國(guó)企業(yè)家同桌吃飯

      頭條要聞

      歡迎宴會(huì)座位公開:馬斯克黃仁勛與中國(guó)企業(yè)家同桌吃飯

      體育要聞

      爭(zhēng)議抽象天王山,和季后賽最穩(wěn)定中鋒

      娛樂要聞

      何九華官宣當(dāng)爸!全程不提孩子?jì)?/h3>

      財(cái)經(jīng)要聞

      特朗普的北京時(shí)刻

      汽車要聞

      雙零重力座椅/AI智能體/調(diào)光天幕 啟境GT7內(nèi)飾發(fā)布

      態(tài)度原創(chuàng)

      藝術(shù)
      教育
      旅游
      家居
      軍事航空

      藝術(shù)要聞

      花園里,花叢中

      教育要聞

      “體育+數(shù)學(xué)”“體育+美育”“體育+勞動(dòng)”……這位老師的體育跨學(xué)科教學(xué),有趣又有益!

      旅游要聞

      三亞億恒夜市“五一”期間接待游客超8萬(wàn)人次 助力 “夜經(jīng)濟(jì)”增長(zhǎng)

      家居要聞

      精神奢享 對(duì)話塔尖需求

      軍事要聞

      烏克蘭首都基輔遭空襲 死亡人數(shù)增至12人

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲一区二区三区日韩| 中文 国产 无码免费| 国产午夜激无码av毛片| 丁香五月久久丫| 国产午国产午夜精华 免费| 国产妇女馒头高清泬20p多 | 久久精品夜色噜噜亚洲A∨| 99青青青精品视频在线| 国产 高清 无码 在线播放| 国产女人91精品嗷嗷嗷嗷| 欧美疯狂性受xxxxx另类| 日本精品无码一区二区三区久久久| www.99r| 永久免费无码AV在线网站| 亚洲AV成人片不卡无码| 欧美性猛交xxxx黑人猛交| 啪啪啪网站| 国产成人无码A区在线观| 欧美人妻中文| 极品美女高潮喷白浆视频| 无码av免费一区二区三区试看| 精品久久综合日本久久网| 免费av网站| 美女个护士一级毛片亚洲| 国产香蕉尹人在线观看视频| 极品少妇xxxx精品少妇| 人妻无码综合| 激情综合色五月丁香六月亚洲| 久久综合久久美利坚合众国| 国产九九| 曰本亚洲欧洲色a在线| 无码乱人伦一区二区亚洲一| 久久精品国内一区二区三区| 国产超高清麻豆精品传媒麻豆精品| 亚洲色大成网站WWW永久男同| 少妇做爰免费视频网站| 亚洲乱码av中文一区二区| 日日噜噜噜夜夜爽爽狠狠视频 | 国厂精品114福利电影免费| 欧美成人无码国产精品嫩草开发| 亚洲熟女少妇av一区|