網易首頁 > 網易號 > 正文申請入駐

Anthropic被曝買古籍掃描后即銷毀：科幻預言成真？

2026-05-11 10:54:11　來源: 爬蟲飼養員

北京舉報

分享至

一個X平臺上的帖子最近引發熱議。用戶Sivori聲稱，Anthropic正在大量購買實體書籍，掃描提取數據后立即銷毀紙質原件，原因是"這樣獲得的訓練數據更安全"。他還提到，這讓他想起20年前讀過的Vernor Vinge科幻小說《The Rainbow's End》里的情節。

帖子迅速發酵，小紅書上有人跟風傳播，說法越來越夸張——什么"A公司把人類知識庫連鍋端了""文化全部沒了"。這事聽著確實像科幻片，但查完幾份法律文件后，我發現現實比網絡傳言復雜得多。

首先，"巴拿馬項目"確實存在

2026年初，一份法庭文件披露了Anthropic內部代號"Project Panama"的計劃。文件翻譯過來就叫"巴拿馬項目"，目標簡單粗暴：獲取全球所有書籍。2024年2月，Anthropic挖來了曾負責Google Books項目的Tom Turvey，交給他一個公開任務——獲取"全球所有書籍"。

執行層面，公司投入大量資金，從Strand等實體書店大規模采購紙質書。然后運到倉庫，用破壞性高速掃描儀轉成PDF，紙質殘骸送往數據中心處理。

為什么要這么干？法律考量

Anthropic的法律團隊援引"首次銷售原則"：你買了實體書，就擁有對該副本做任何事的權利，包括銷毀。加上"合理使用"的模糊地帶，銷毀后公司只保留內部使用的數字文件，不對外分發，綜合評估后認定這種使用方式合法。

法律文件整體認為，這類模式具有較強的fair use辯護空間。相比直接抓取網站數據，法律風險確實更可控。

但Anthropic并非沒干過危險的事。巴拿馬項目之所以被曝光，正是因為Anthropic此前被出版商起訴——他們從LibGen這個盜版電子書網站下載了大量書籍用于訓練。CEO Dario Amodei內部許可郵件的標題就叫"法律/實踐/聲譽的麻煩"，說明當時明知風險。后來覺得風險太大，才轉頭采用實體書破壞性掃描這條路徑。

2025年，多家媒體披露Anthropic推進了這項規模約15億美元的和解方案，應對盜版數據訓練的集體訴訟。注意，這15億主要針對那筆舊賬，不是巴拿馬項目本身的購書費用。這在AI行業仍被視為金額最高的和解案之一。

法庭對"合法購買后銷毀訓練"這個模式整體態度積極，如果Anthropic一開始就走這條路，fair use辯護會更強。但干過盜版再轉正的做法，至少在法律輿論上已經讓自己被動了。當然話說回來，AI訓練的fair use在美國整體仍無定論，Meta、OpenAI的案子都還在打，這個領域還沒到一錘定音的時候。

科幻小說預言的不是一回事

這確實是最魔幻的部分。

Vernor Vinge在2006年的小說《The Rainbow's End》里，確實寫過一個叫"Librareome Project"的設定：用破壞性掃描的方式數字化圖書館，然后銷毀紙質書籍。2026年，Anthropic在現實中做了高度相似的事。

但科幻作家不是在預言未來，他只是寫了一個聽起來極端的故事。誰知道二十年后AI公司真干了，還被當成好主意。

被夸大的部分需要澄清

網上流傳的一些說法，確實需要糾偏。

第一，不是"文化滅絕"。Anthropic采購的主要是流通量大的二手普通書籍，從大書店和批發商進貨，不是珍本、善本，也不是什么具有收藏價值的東西。真正抗議的主要是作家和出版社，因為他們主張版權被侵犯，而不是文物保護者——被銷毀的只是工業印刷品，不是不可替代的歷史文獻。

第二，沒有"把人類大部分知識庫連鍋端"那么夸張。他們買了很多書沒錯，但人類歷史上出版的書籍數以千億計，幾本書在這個量級面前只是很小一部分。更準確的說法是，他們獲取了一部分高質量文本用于訓練，不是把人類知識連鍋端了。

第三，方法雖然粗暴，但法律路徑其實清晰。Anthropic的聯合創始人早在2023年就公開說過，用書籍訓練模型能讓AI學會"如何寫得更好"，而不是去模仿特定風格。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.