上周整理文件夾時,我盯著一份PDF看了很久。那是去年的體檢報告,上面連著我的身份證號、醫保卡號、各項異常指標。三個月前,我順手把它丟進了某個AI對話框,想讓模型幫我"解讀一下"。當時只覺得方便,現在后背有點涼。
這不是危言聳聽。作為靠AI吃飯的人——音頻工程、設計、視頻剪輯,我的日常工作流早就離不開這些工具。課程筆記、研究文檔、截圖參考、隨機下載的PDF,往對話框里一丟,上下文就有了。這種"帶外信息"的能力,確實是AI最被低估的用法之一。但問題在于:我的文件夾里不光有設計稿,還有健康報告和銀行對賬單。而云端AI根本分不清這兩者的區別。
![]()
兩年前的我可能想都不會想就上傳了。現在?我花了點時間研究服務器是怎么回事,然后就沒法假裝不知道了。數據一旦離開你的設備,基本上就不歸你管了。"我們會安全處理您的數據"——這句話每家公司的定義都不一樣,而且往往不是你理解的那個意思。
免費版能走多遠?比你想象的短。
當你把文件上傳到云端AI,它可不是讀完就刪。模型處理期間,文件得住在某個地方——他們的基礎設施里,你看不見的服務器。就算你在聊天記錄里刪了,備份和日志里很可能還有殘留。在這種分布式系統里,徹底抹除幾乎是不可能的。
具體看看各家怎么處理。ChatGPT把文件和聊天記錄分開存,刪對話不等于刪文件,你得專門去文件管理里再刪一遍。標準賬戶的聊天記錄默認永久保留,手動刪除后還要等30天才能從后端清除。Claude默認不用你的數據訓練,刪除對話30天內清除——但如果你曾經勾選過"模型改進",保留期直接拉到五年。
Gemini默認保留對話18個月,但如果有人工審核員看過你的某次會話,這條數據會被單獨存放三年,不管你刪沒刪。NotebookLM算是清流,完全不拿上傳內容訓練,文件也是隨刪隨走。但畢竟是谷歌的基礎設施,同樣的前提適用:數據在遠程服務器上,可能受內部政策、備份機制、法律保全或其他因素影響。
我的核心顧慮是:這些工具根本不知道你上傳了什么。銀行對賬單和普通研究文檔被一模一樣地對待。這一點,我很難裝作無所謂。
本地模型已經能扛住我的全部需求,沒理由再賭云端。
我的轉向方案分三層。第一層是硬件:一臺M4 Mac Mini,32GB內存,外接2TB固態硬盤。總成本不到一部中端手機,但足夠跑70B參數的量化模型。第二層是軟件:Ollama做模型管理,AnythingLLM搭知識庫,配合Obsidian做筆記聯動。第三層是工作流:敏感文檔本地處理,非敏感內容按需上云——不是非黑即白,而是分級治理。
實際用下來,本地RAG的質量讓我意外。70B模型在文檔問答上的準確率,對比GPT-4的差距在可接受范圍內,而延遲問題通過預加載和流式輸出基本解決。更重要的是,文件解析全程不出本機,連路由器都不必過。
當然,本地方案有代價。設置時間:從零到跑通花了兩個周末。維護成本:模型更新、依賴沖突、偶爾的手動排錯。硬件上限:32GB內存卡死了能加載的模型規模。但這些代價換的是確定性——你知道數據在哪,知道什么時候會被刪除,知道沒人能在你不知情的情況下調閱。
云端AI不會消失,我也不會完全棄用。但我的默認設置已經變了:先問本地,再問云端。這個順序的調換,本質上是對"方便"和"可控"的重新權衡。當文件解析能力在兩端差距縮小時,這個選擇變得越來越容易。
如果你也在用AI處理工作文檔,可以問問自己:上次上傳的文件里,有多少是你愿意被任意員工、任意備份策略、任意法律程序接觸的?答案可能會影響你的下一個默認動作。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.