網易首頁 > 網易號 > 正文申請入駐

2017，制造奧本海默

2026-03-11 21:57:27　來源: 飯統戴老板

上海舉報

分享至

2017年6月，谷歌的8位AI研究員發表了一篇名為《Attention Is All You Need》的論文，提出了Transformer架構。

Transformer就是ChatGPT里的“T”，大公司的大模型、各種各樣的AI Agent、自動駕駛的算法、幾乎所有人工智能的創造，底座都是Transformer。

不夸張地說，Transformer誕生的那一刻，人工智能的歷史進程驟然加速。

《Attention Is All You Need》的8位作者

然而，這篇開山之作發表時，論文的8位作者、他們供職的谷歌、全球高科技公司都遠遠低估了Transformer的革命性。對它最準確的評價來自《連線》雜志[1]：一個不是秘密的秘密武器。

當時，社會公眾對人工智能的想象還集中在下圍棋的AlphaGo。論文發表一個月前，AlphaGo在烏鎮3:0橫掃圍棋選手柯潔，直觀塑造了社會公眾對AI的認知。

這似乎解釋了為什么最不該低估Transformer的谷歌，會大大低估論文的重要性：

AlphaGo的發明者DeepMind在2014年被谷歌收購，擊敗柯潔同期，DeepMind發布新版AlphaGo Zero，以100:0吊打AlphaGo。另一個大項目AlphaFold（蛋白質折疊預測）也在緊鑼密鼓推進，創始人Demis Hassabis憑借該項目，拿到2024年諾貝爾化學獎。

而Transformer論文作者來自谷歌另一個AI研究部門Google Brain和Google Research團隊。在DeepMind看來，自己在倫敦解決復雜的科學難題，Google Brain在美國做翻譯軟件，高下立判。

谷歌管理層對Transformer也談不上重視。2018年，谷歌基于Transformer架構推出BERT模型，用來優化谷歌搜索，完全沒意識到人工智能的核武器握在自己手里。

AlphaGo也迷惑了馬斯克，作為OpenAI的重要金主，馬斯克覺得他們進展太慢，完全打不過谷歌和DeepMind，提出將OpenAI并入特斯拉，自己親自掛帥指揮，被創始人Sam Altman拒絕。

隨后，馬斯克完全退出OpenAI，反手挖走了創始成員Andrej Karpathy，擔任特斯拉自動駕駛總監。

英偉達的遭遇更富戲劇性：2017年5月，英偉達推出了搭載Tensor Core（張量核心）的V100 GPU。黃仁勛大概率沒想到，這種設計可以說是為一個月后誕生的Transformer量身定制。

唯一對Transformer革命性有著清醒認知的是OpenAI，技術骨干Ilya Sutskever認為，Transformer解決了之前種種技術方案力有未逮之處，堅決砍掉了很多看似有趣但毫無前景的研究，將所有資源集中在一個項目上：訓練GPT模型。

到了2022年，OpenAI已經開始訓練GPT-4模型，團隊希望在模型發布前開發一款聊天機器人，觀測人類對AI的反饋，指引后續研究，并由創始人Sam Altman在推特上發布：

我們做了一個叫ChatGPT的東西，大家來試試吧。

ChatGPT上線5天突破100萬用戶，兩個月突破1億，打破了TikTok創造的互聯網產品最快增長紀錄，一場新的工業革命拉開了大幕。

從2017年《Attention Is All You Need》發表到2022年ChatGPT發布，醞釀五年的風暴漸行漸近，世界在一聲驚雷中被永久改變。

直到今天，人類似乎都沒做好準備。

2012：最后一個冬天

人工智能的終極目標是讓機器擁有人類的各種能力，這就需要模擬人類的各種感知與認知能力。其中，計算機視覺（CV）和自然語言處理（NLP）是最核心的兩個研究領域。

2012年，多倫多大學教授杰夫·辛頓（Geoffrey Hinton）帶著兩個學生Ilya Sutskever和Alex Krizhevsky參加當年的ImageNet圖像識別比賽，以84%的準確率奪得冠軍，人工智能產業化開始爆發。

辛頓團隊主攻計算機視覺，采用了名叫卷積神經網絡（CNN）的算法。其運作原理是讓“卷積核”在圖片上滑動，提取輪廓、邊緣和紋理，配合并行計算，識別效率很高。

這其實是對人腦的一種模擬：大腦會不斷抽象瞳孔攝入的像素，因此人類不需要看到整體，根據一些特征就能判別物體。

比如下圖并未展示整只鴨子，但絕大部分人都不會把它認成老鼠或其他生物：

CNN的高效率配合GPU的大算力，讓計算機視覺的產業化空間迅速打開，智慧停車、快遞分揀、人臉識別等應用迅速落地，資本投資熱情空間高漲。

辛頓教授憑借這一貢獻獲得2024年諾貝爾物理學獎；Alex Krizhevsky在谷歌干了幾年，逐漸淡出產業界；Ilya Sutskever活躍至今，參與了OpenAI的創辦，是GPT系列模型的核心骨干。

計算機視覺夜夜笙歌，隔壁的自然語言處理卻在苦苦掙扎。

原因在于，圖像是“連續”的，就像一套拼圖，每片拼圖之間都存在“關聯”，組合成完整圖像。同時，計算機視覺主要處理“感知”問題，無論是識別貓狗還是識別車牌，答案是客觀的。準確率不高，也可以通過人工彌補。

而語言是“離散”的，字詞之間的關聯是抽象的語法和邏輯，沒法像拼圖一樣“串聯”。換句話說，自然語言處理難就難在它的“自然”：它是日常生活中非結構化的口語，而非標準的財務指標或編程語言。

同時，語言識別更接近“認知”問題，不僅要識別文字和發音，還要弄懂其中含義。

當時，NLP領域的主流算法是循環神經網絡（RNN），一是需要一個字一個字按順序看，計算效率極低；二是一旦文本量太大，算法讀到后面就會忘記前面，這種現象被稱為“長距離依賴”。

這也是Siri等很多語音助手讓人覺得智商不高的原因：RNN無法真正理解長文本抽象的邏輯，高度依賴人工編寫規則。

比起計算機視覺的商業化前景，NLP顯然是投資機構的座下賓，跟當年的PPT造車比地位，也只能說是險勝。

這也解釋了Transformer為何被業界集體低估：8位作者只想拿它來優化翻譯效率，在BLEU（機器翻譯準確度測試）上刷刷榜。

如果翻看《Attention Is All You Need》論文原文，實驗部分展示的成果幾乎全是雙語翻譯的屠榜記錄，完全沒想過AGI的東西。

這也不難理解，鈾元素被發現后的150多年里，沒有人把它和原子彈聯系起來。

2017：Attention

2016年AlphaGo戰勝李世石，嚇醒了全世界的科技公司。同期，谷歌內部正被翻譯產品折磨的死去活來。

當時，谷歌針對機器翻譯推出了GNMT（Google Neural Machine Translation）系統，基于業內主流的RNN（LSTM）方案，谷歌在GNMT中引入了一個名為“Attention（注意力）”的機制。

簡單來說，Attention的作用是解決RNN“讀到后面忘記前面”的問題：它可以讓算法識別長段落時，動態關注段落的不同部分，時不時看兩眼前面的詞，為不同的詞分配不同的權重，讓翻譯變準確。

GNMT承襲了Attention的理論思想，并為每天數十億真實的翻譯任務做了大量工程優化。但RNN順序計算的特點，導致計算效率非常低。

Transformer誕生的動機是提高計算效率，作者之一的Jakob Uszkoreit提出，既然Attention這么好，為什么還要用RNN呢？這就是論文標題表達的含義：Attention Is All You Need。

基于這種思路，Transformer拋棄RNN，引入自注意力機制（Self-Attention）。簡單來說，一段文本中的每一個詞都會和其他詞瞅一眼，動態判斷每個詞的權重，決定重點關注哪個詞。

由于任意距離的兩個詞都可以互相關聯，“讀到后面忘記前面”的問題被解決，但這也讓算法無法識別詞的先后順序。因此，Transformer用位置編碼給每個詞打上坐標，還原原始語序。

同時，在Transformer的框架下，所有詞同時進入矩陣并行計算，配合多頭注意力（Multi-Head Attention，多個Attention模塊同時計算），特別適合GPU計算，效率指數級提高。

論文一經發布，立刻在自然語言處理領域引發轟動，帶動了2018年后產業界的創新浪潮。

2018年初，華盛頓大學發布了一個ELMo模型，研究人員先讓模型閱讀大量無標注文本，自己慢慢琢磨語言規律，再執行具體任務，效果不錯。這種思路被稱為“預訓練”。

ELMo證明了預訓練的思想行得通，讓算法對人工標注的依賴大幅降低，極大緩解了“有多少人工，就有多少智能”的問題。但ELMo沿用了RNN架構，計算效率很低。

2018年10月，谷歌基于Transformer和預訓練推出BERT模型，刷新了NLP領域主要基準測試的全部記錄。在斯坦福大學的SQuAD1.1測試中，BERT全面超越人類表現。

有BERT的帶頭表率作用，Meta用更多數據訓練出了RoBERTa，微軟亞洲研究院搞出了MT-DNN，百度在2019年3月發布ERNIE（后來的文心一言），在中文任務上超過了BERT。

谷歌的管理層也意識到了BERT巨大的商業價值，2019年10月，谷歌宣布在英語搜索中全面啟用BERT，第一時間賦能業務，配合自研TPU計算集群，一個人工智能產業帝國冉冉升起。

但后來發生的事情我們都知道：OpenAI谷歌發明的武器打垮了谷歌。

2018：力大磚飛

BERT誕生的原因之一，是谷歌與OpenAI的技術理念分歧。

Transformer問世后，第一個動手的其實是OpenAI。2018年6月，OpenAI發布了GPT-1模型。其中GPT指是的Generative Pre-trained Transformer。

這個只有1.17億參數的模型，完整呈現了技術骨干Ilya Sutskever的技術理念。

通俗來說，OpenAI的思路是“生成式”：給算法輸入足夠多的數據，讓它不斷預測下一個詞，算法就能在這個過程中理解事物的規律。

2023年的英偉達GTC，已經謝頂的Ilya Sutskever在與黃仁勛的對話中解釋過這種“智能就是壓縮”的概念：

表面上看，算法只是學習文本在統計學層面的相關性，但這些文本實際上是這個世界的映射。算法為了預測的足夠準，就會學習這些文本背后真實世界的規律和機制。

2023年GTC，黃仁勛對談Ilya Sutskever

2017年4月，Transformer誕生兩個月前，OpenAI在一篇論文[12]中公開了一項研究成果：

給算法投喂8200萬條亞馬遜評論組成的語料庫，讓算法預測一段文本中的下一個字符，算法內部自行生成了一個情感神經元（Sentiment Neuron），用來判斷評論是正面還是負面。

也就是說，OpenAI沒有告訴算法什么是“正面”和“負面”，但算法為了預測下一個字符，自己進化出了判斷感情色彩的能力。

但這項研究當時并未得到足夠重視，產業界的主流觀點是，靠文字接龍游戲搞AI屬于民科，正經的學者不會湊這個熱鬧。

與OpenAI對應，谷歌的思路是“判別式”：在BERT之父Jacob Devlin看來，GPT-1根據前文預測后文不符合人類的直覺，因為人類通過上下文來理解文本背后的抽象含義，AI也應該這么做。

用不太嚴謹但通俗的類比，谷歌認為AI應該先學通識，再做幾萬套真題鍛煉；OpenAI認為真正的天才不需要老師，但當時的GPT-1參數量有限，算法難免滿嘴跑火車，被BERT在各項測試中打的頭破血流。

谷歌發布BERT的論文[13]中，Jacob Devlin點名批評了GPT-1的技術思路。認為GPT-1的思路與人類認知相悖，在特定任務中是“有害的（harmful）”。

順帶一提，Jacob Devlin的經歷也很有意思：ChatGPT上線后，為了快速追上OpenAI，谷歌內部用ChatGPT訓練自家模型，觸發了Jacob Devlin的技術潔癖。大哥一不做二不休，直接跳槽去了OpenAI，結果在新東家干了三個月，又回到了谷歌[8]。

面對BERT壓倒式的優勢，OpenAI認為自己的技術路線沒有問題，只是模型參數不夠多，訓練算力不夠大。只要用更強的算力訓練參數量更大的模型，就會產生質變，即涌現。

這種思路就是今天的產業界司空見慣的一個詞：Scaling Laws。

2020：舊金山的弗蘭肯斯坦

Scaling Laws是人工智能領域的摩爾定律，即參數量、數據量、計算資源越大，模型能力會對應提升。

Transformer之前的深度學習時代，很多學者就意識到了Scaling Law的存在，但第一個對其進行系統性闡釋的其實是百度。

2017年，百度硅谷AI實驗室在論文中展示了模型參數和算力大小對模型的促進作用。Anthropic創始人Dario Amodei后來也在播客中回憶，2014年自己和吳恩達在百度工作時，就察覺到了Scaling Laws的特征。

Dario Amodei沒在百度干多久就去了OpenAI，結果和創始人Sam Altman反目成仇，隨后離職創辦了OpenAI的最大競爭對手Anthropic。

今年印度AI峰會，Sam Altman和Dario Amodei拒絕手拉手

百度雖然“發現”了Scaling Laws，但未做更多工程探索。很長時間里，產業界都將Scaling Laws的起點放在OpenAI的奠基性論文《Scaling Laws for Neural Language Models》上。

這篇著名的論文，為大名鼎鼎的GPT-3模型提供了關鍵的理論基礎。

2020年6月，OpenAI發布了GPT-3模型，架構和GPT-2大差不差（引入了稀疏注意力）。但拿了微軟10億美元投資后，財大氣粗的OpenAI把互聯網上的語料洗劫一空，模型參數量膨脹到1750億，是GPT-2的116倍。

模型發布同時，OpenAI借助測試申請，向特定人群開放了API接口，立刻引發小范圍轟動。

參與測試的人發現，GPT-3不僅能生成文本，也能寫文檔摘要、回答問題，甚至自己寫代碼。《衛報》就用GPT-3搓了一篇文章：

在備注中，編輯表示GPT-3生成了8個版本，最終的刊發版本經由編輯“潤色”

文中提到的Liam Porr是加州大學伯克利分校的一名學生，他用GPT-3生成的文章被兩萬多人閱讀，只有一個人指出文章是AI寫的[25]

而對硅谷的大公司來說，GPT-3無疑是劃過總部上空的斯普特尼克1號。

OpenAI證明了Scaling Laws的可行性。決定模型性能的關鍵變成了算力和參數規模，技術路線的交鋒迅速被整齊劃一的算力恐慌取代。

微軟發現自己撿了大漏，自然樂開了花，一邊興高采烈宣布自己拿到了GPT-3的排他性授權，一邊用這個樣板工程給自家云服務打廣告[21]。

另一個夢中笑醒的公司是英偉達。GPT-3原版論文中，OpenAI只是含糊的提了一句，模型訓練用了“微軟的V100 GPU”。但微軟自己沒憋住，在通稿中[22]大吹特吹由一萬張V100 GPU構建的超算，實際上是在給英偉達打廣告。

2016年，黃仁勛親自上門向OpenAI贈送英偉達DGX-1超算，當時馬斯克還沒和Sam Altman鬧掰

至于其他公司，幾乎都在第一時間加入了競爭：

大受刺激的谷歌設計了一個名叫Switch Transformer的簡化稀疏架構，可以將模型參數擴展到1.6萬億。Meta也是急火攻心，指責OpenAI違背極客精神，做了個同為1750億參數的模型，但開源且“民主化（Democratizing）”。

作為微軟在云計算的競爭對手，錯失OpenAI的亞馬遜投資了全球最大的開源AI社區Hugging Face。特斯拉一邊造車一邊掏出了D1芯片和Dojo超算。百度在2022年1月推出ERNIE 3.0 Titan，參數量飆升至2600億。

客觀來說，GPT-3不算完美，除了嚴重幻覺導致夢見啥說啥，AI也全盤吸收了人類所有的價值取向，時不時為種族歧視和恐怖主義大唱贊歌。加上GPT-3的測試范圍非常有限，并未被社會公眾廣泛關注。

但產業界振奮的是，技術迷霧被Scaling Laws的暴力工程吹散，大家紛紛拎起鏟子開挖護城河：

特斯拉忙里偷閑進軍機器人，蘋果對著自動駕駛躍躍欲試，谷歌建設了壯觀的TPU算力集群，英偉手握牢不可破的CUDA生態，百度為中國AI產業輸送了大量人才。

經歷一個又一個寒冬，人工智能的終極理想似乎只差臨門一腳。套用丘吉爾的話說：“這不是結束，甚至不是結束的開始，可能只是開始的結束。”

2022：風暴前夕

GPT-3發布后，Dario Amodei與創始人Sam Altman徹底分道揚鑣，從公司帶走了幾位研究員創辦了Anthropic。兩人的決裂，很大程度上源于微軟的投資。

對人工智能的擔憂幾乎與這門學科的歷史一樣長，作為研究副總裁，Dario Amodei認為如果只給模型瘋狂堆參數，而不引入人類的道德和價值觀，無異于隨時會失控的核彈。

Sam Altman是公司的掌舵者，必須四處畫餅化緣，找人報銷龐大的算力開支，只能在安全與商業化上找平衡區間。

科學所到之處，資本總是如影隨形。2019年，OpenAI窮的揭不開鍋，為了拿微軟的錢，OpenAI成立了一家有限盈利公司。同時，協議規定OpenAI必須使用微軟的云服務[28]。

就像當年列寧和羅莎·盧森堡的論戰，Dario Amodei認為拿了微軟的錢，安全就必須屈從于商業化；Sam Altman的邏輯是，沒有微軟的錢，模型都做不出來，安全更是空談。

隨著GPT-3的發布，Dario Amodei擔憂的安全問題逐漸具體。

GPT-3是Scaling Laws的奇跡，也是個毫無是非觀念的機器。OpenAI在訓練過程中把互聯網上的語料洗劫一空，自然也沒放過暴力、色情和種族歧視內容。

為了解決這個問題，2022年1月，OpenAI發布了一個名為InstructGPT的模型。相比GPT-3，InstructGPT通過RLHF（人類反饋強化學習），大量剝離了色情暴力等有害內容，讓模型更貼近人類的價值觀，即所謂“對齊（AI Alignment）”。

RLHF聽上去高大上，但底子還是能工智人：為了不讓模型頻繁爆典，OpenAI讓一群人類當道德裁判，給模型輸出的內容打分排序。模型在人類監督下自我訓練，逐漸向人類的道德品格靠攏。

OpenAI把當裁判這個任務交給了一家名叫Sama的肯尼亞外包公司。硅谷精英侃侃而談的“對齊”，似乎也離不開古典的全球分工。

按照《時代周刊》的獨家報道[30]，2021年，OpenAI和Sama簽了20萬美元的合同，外包工人實發時薪為1.32美元到2美元，工作內容就是瀏覽大量極端內容，怎么勁大怎么來，標注完成后反饋給模型訓練。

Sama位于肯尼亞的辦公室

雖然OpenAI承諾提供心理健康咨詢，但外包員工工作太充實，基本沒時間咨詢。2022年2月，OpenAI又要求Sama搜集“性和暴力圖像”[30]，后者認為甲方玩的有點大，導致雙方合作破裂。

但此時，OpenAI已經拿到足夠多的人類標注數據。綠色健康講文明的InstructGPT發布，為ChatGPT的誕生鋪平了道路。

Sam Altman的說法是，團隊正在開發的GPT-4過于強大，如果直接發布，人類社會接受不了。因此可以先做一個聊天機器人，看看公眾的反應，積累的數據也可以用于后續模型的改進。

《紐約時報》則提供了另一種說法[31]：OpenAI擔心競爭對手（可能是Anthropic）先于自己發布聊天機器人，因此提前動手，緊急啟動ChatGPT的開發。

無論如何，OpenAI內部沒有一個人預料到ChatGPT席卷的風暴，畢竟大家只是把它視為用來測試的技術預覽產品。而外界眼中如魔法一般的生成能力，也是工程師們過去多年研究生涯的日常。

ChatGPT這個名字直到上線前一天才確定，代替原本的“Chat with GPT-3.5”。Ilya Sutskever在前一晚問了它十個刁鉆問題，只有一半回答準確[35]。

就這樣，他們結束了一天的工作，隨手按下了人工智能的核按鈕。

尾聲

這場風暴由一篇標題不太正經的論文醞釀，在一個粗糙的套殼產品上爆發。時間線被一次次改寫的時候，那些正在創造歷史的人似乎毫不知情，甚至不知道自己身在現場。

這其實是科學史上的常態。我們今天感嘆那些改變世界的璀璨群星，似乎他們的成功是因為看見了遠方的目標，然后一步步抵達了終點。但更真實的歷史是，他們只是相信腳下的道路，然后一步步發現了遠方。

在那扇被打開的大門背后，歷史前進的信號清晰又具體，人工智能勾勒的福祉尚且遙遠，被甩下列車的焦慮和恐慌卻迅速蔓延。

人類離真正的通用人工智能從未如此接近，但學術層面的理念分歧、技術領域的道德交鋒、資本市場的利益博弈，和以理念與道德為名的利益博弈似乎又在證明，在某些方面，人工智能永遠替代不了人類。

總之，一段技術與夢想的冒險結束了，一個進步與失控的時代開始了。

全文完，感謝您的耐心閱讀。

參考資料

[1] 8 Google Employees Invented Modern AI. Here's the Inside Story，Wired

[2] Sakana AI's CTO says he's 'absolutely sick' of transformers, the tech that powers every major AI model，venturebeat

[3] 專訪 | 谷歌神經網絡翻譯系統發布后，我們和Google Brain的工程師聊了聊，機器之心

[4] 專訪“AI教父”本吉奧：袒露恐懼與遺憾，指出可能更安全之路，騰訊科技

[5] 被忽略的起點？Karpathy揭秘最初的注意力論文被Transformer光芒掩蓋的故事，機器之心

[6] 全面超越人類！Google稱霸SQuAD，BERT橫掃11大NLP測試，量子位

[7] 谷歌搜索近5年來最大變化，使用BERT算法改進10％搜索結果，新智元

[8] AI Boomerang: Google’s Internal Critic Returns From Rival OpenAI，The Information

[9] 黃仁勛與 Ilya Sutskever 的爐邊談話：看AI的現狀和未來，EETChina

[10] Improving Language Understanding by Generative Pre-Training，OpenAI

[11] OpenAI新研究發現無監督情感神經元：可直接調控生成文本的情感，機器之心

[12] Unsupervised Sentiment Neuron，OpenAI

[13] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding，Google

[14] Scaling Laws for Neural Language Models，OpenAI

[15] The Microsoft-OpenAI Files，GeekWire

[16] Meet GPT-3. It Has Learned to Code (and Blog and Argue)，Cade Metz

[17] OpenAI’s new language generator GPT-3 is shockingly good—and completely mindless，MIT Technology Review

[18] A robot wrote this entire article. Are you scared yet, human，衛報

[19] With $1 Billion From Microsoft, an A.I. Lab Wants to Mimic the Brain，Cade Metz

[20] OpenAI has released the largest version yet of its fake-news-spewing AI，MIT Technology Review

[21] Microsoft teams up with OpenAI to exclusively license GPT-3 language model，微軟

[22] Microsoft announces new supercomputer, lays out vision for future AI work，微軟

[23] US-China tech war: Beijing-funded AI researchers surpass Google and OpenAI with new language model，南華早報

[24] 深度學習革命，Cade Metz

[25] My GPT-3 Blog Got 26 Thousand Visitors in 2 Weeks，Liam Porr

[26] Training language models to follow instructions with human feedback，OpenAI

[27] 馬斯克傳，Walter Isaacson

[28] Inside the white-hot centre of AI doomerism，金融時報

[29] OpenAI’s Top Researchers Defect to Start Rival Backed by Billionaire，The Information

[30] Exclusive: OpenAI Used Kenyan Workers on Less Than $2 Per Hour to Make ChatGPT Less Toxic，Time

[31] How ChatGPT Kicked Off an A.I. Arms Race，紐約時報

[32] Inside facebook's african sweatshop，Time

[33] PTSD, depression and anxiety: why former Facebook moderators in Kenya are taking legal action，衛報

[34] What OpenAI Really Wants，Wired

[35] Inside ChatGPT, AI assistants, and building at OpenAI， OpenAI

作者：李墨天

編輯：張婕妤

責任編輯：李墨天

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.