一個X平臺上的帖子最近引發熱議。用戶Sivori聲稱,Anthropic正在大量購買實體書籍,掃描提取數據后立即銷毀紙質原件,原因是"這樣獲得的訓練數據更安全"。他還提到,這讓他想起20年前讀過的Vernor Vinge科幻小說《The Rainbow's End》里的情節。
帖子迅速發酵,小紅書上有人跟風傳播,說法越來越夸張——什么"A公司把人類知識庫連鍋端了""文化全部沒了"。這事聽著確實像科幻片,但查完幾份法律文件后,我發現現實比網絡傳言復雜得多。
![]()
首先,"巴拿馬項目"確實存在
2026年初,一份法庭文件披露了Anthropic內部代號"Project Panama"的計劃。文件翻譯過來就叫"巴拿馬項目",目標簡單粗暴:獲取全球所有書籍。2024年2月,Anthropic挖來了曾負責Google Books項目的Tom Turvey,交給他一個公開任務——獲取"全球所有書籍"。
執行層面,公司投入大量資金,從Strand等實體書店大規模采購紙質書。然后運到倉庫,用破壞性高速掃描儀轉成PDF,紙質殘骸送往數據中心處理。
為什么要這么干?法律考量
Anthropic的法律團隊援引"首次銷售原則":你買了實體書,就擁有對該副本做任何事的權利,包括銷毀。加上"合理使用"的模糊地帶,銷毀后公司只保留內部使用的數字文件,不對外分發,綜合評估后認定這種使用方式合法。
法律文件整體認為,這類模式具有較強的fair use辯護空間。相比直接抓取網站數據,法律風險確實更可控。
但Anthropic并非沒干過危險的事。巴拿馬項目之所以被曝光,正是因為Anthropic此前被出版商起訴——他們從LibGen這個盜版電子書網站下載了大量書籍用于訓練。CEO Dario Amodei內部許可郵件的標題就叫"法律/實踐/聲譽的麻煩",說明當時明知風險。后來覺得風險太大,才轉頭采用實體書破壞性掃描這條路徑。
2025年,多家媒體披露Anthropic推進了這項規模約15億美元的和解方案,應對盜版數據訓練的集體訴訟。注意,這15億主要針對那筆舊賬,不是巴拿馬項目本身的購書費用。這在AI行業仍被視為金額最高的和解案之一。
法庭對"合法購買后銷毀訓練"這個模式整體態度積極,如果Anthropic一開始就走這條路,fair use辯護會更強。但干過盜版再轉正的做法,至少在法律輿論上已經讓自己被動了。當然話說回來,AI訓練的fair use在美國整體仍無定論,Meta、OpenAI的案子都還在打,這個領域還沒到一錘定音的時候。
科幻小說預言的不是一回事
這確實是最魔幻的部分。
Vernor Vinge在2006年的小說《The Rainbow's End》里,確實寫過一個叫"Librareome Project"的設定:用破壞性掃描的方式數字化圖書館,然后銷毀紙質書籍。2026年,Anthropic在現實中做了高度相似的事。
但科幻作家不是在預言未來,他只是寫了一個聽起來極端的故事。誰知道二十年后AI公司真干了,還被當成好主意。
被夸大的部分需要澄清
網上流傳的一些說法,確實需要糾偏。
第一,不是"文化滅絕"。Anthropic采購的主要是流通量大的二手普通書籍,從大書店和批發商進貨,不是珍本、善本,也不是什么具有收藏價值的東西。真正抗議的主要是作家和出版社,因為他們主張版權被侵犯,而不是文物保護者——被銷毀的只是工業印刷品,不是不可替代的歷史文獻。
第二,沒有"把人類大部分知識庫連鍋端"那么夸張。他們買了很多書沒錯,但人類歷史上出版的書籍數以千億計,幾本書在這個量級面前只是很小一部分。更準確的說法是,他們獲取了一部分高質量文本用于訓練,不是把人類知識連鍋端了。
第三,方法雖然粗暴,但法律路徑其實清晰。Anthropic的聯合創始人早在2023年就公開說過,用書籍訓練模型能讓AI學會"如何寫得更好",而不是去模仿特定風格。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.