網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Anthropic的"神話"安全模型，正在改寫AI漏洞挖掘規(guī)則

2026-05-07 17:25:08　來源: 像素與芯片

北京舉報(bào)

分享至

周三下午，一位安全研究員在Hacker News上貼出了一張截圖：Anthropic內(nèi)部文檔里，一個(gè)名為"Mythos"的安全框架被標(biāo)上了"僅限內(nèi)部"的紅色標(biāo)簽。這個(gè)原本只在小圈子里流傳的項(xiàng)目，正在掀起關(guān)于AI安全研究邊界的新爭論。

這是SED News最新一期播客的開場(chǎng)話題。主持人Gregor Vand和Sean Falconer用了一個(gè)小時(shí)，拆解了這個(gè)月硅谷最值得關(guān)注的技術(shù)動(dòng)向。從Anthropic的安全哲學(xué)，到Meta、Snap的裁員潮，再到四大科技巨頭數(shù)千億美元的AI基建狂飆——這些看似獨(dú)立的事件，正在編織成一張關(guān)于AI時(shí)代工程師生存狀態(tài)的新圖景。

一、Mythos：當(dāng)"負(fù)責(zé)任披露"遇上規(guī)模化AI

Sean Falconer在播客中花了相當(dāng)篇幅解釋Mythos的特殊之處。這不是傳統(tǒng)意義上的漏洞賞金計(jì)劃，而是一套嵌入在模型開發(fā)流程中的安全評(píng)估體系。核心矛盾在于：隨著AI能力邊界快速擴(kuò)張，傳統(tǒng)的"發(fā)現(xiàn)漏洞→提交報(bào)告→等待修復(fù)"模式，已經(jīng)跟不上模型迭代的速度。

Anthropic的做法是前置安全審查。Mythos要求安全團(tuán)隊(duì)在模型訓(xùn)練早期就介入，而不是等到產(chǎn)品化階段。Gregor Vand提到一個(gè)細(xì)節(jié)：這套系統(tǒng)會(huì)主動(dòng)模擬攻擊場(chǎng)景，測(cè)試模型在邊緣情況下的行為邊界。這與OpenAI、Google的做法形成對(duì)比——后兩者更多依賴外部紅隊(duì)測(cè)試和事后補(bǔ)丁。

爭議點(diǎn)在于研究權(quán)限的分配。播客中引用了Hacker News上的討論：部分安全研究者認(rèn)為，Mythos將漏洞發(fā)現(xiàn)的主動(dòng)權(quán)收歸內(nèi)部，實(shí)際上限制了獨(dú)立研究者的發(fā)揮空間。Sean的回應(yīng)很直接：規(guī)模化AI的安全問題，不能指望零散的個(gè)體研究者來兜底。"當(dāng)你面對(duì)一個(gè)可能在幾小時(shí)內(nèi)被數(shù)百萬人調(diào)用的系統(tǒng)，'負(fù)責(zé)任披露'的時(shí)間窗口根本不存在。"

這里存在一個(gè)未被明說的張力。Anthropic一邊強(qiáng)調(diào)AI安全的公共品屬性，一邊構(gòu)建起越來越封閉的內(nèi)部評(píng)估體系。播客沒有給出結(jié)論，但提出了一個(gè)值得追蹤的問題：當(dāng)模型能力超越人類專家的評(píng)估能力時(shí)，誰來定義"安全"的標(biāo)準(zhǔn)？

二、裁員潮背后的AI投資算術(shù)

播客中段，話題轉(zhuǎn)向Snap和Meta的最新裁員。Sean Falconer分享了一個(gè)觀察：這兩家公司的裁員邏輯截然不同，卻指向同一個(gè)結(jié)構(gòu)性變化。

Snap的裁員集中在內(nèi)容審核和廣告運(yùn)營團(tuán)隊(duì)。Gregor Vand指出，這是AI自動(dòng)化替代的典型場(chǎng)景——推薦算法和生成式工具正在吞噬原本需要大量人力的中間環(huán)節(jié)。更值得關(guān)注的是組織架構(gòu)的調(diào)整：Snap將剩余資源向"AI優(yōu)先"項(xiàng)目傾斜，傳統(tǒng)產(chǎn)品線的維護(hù)團(tuán)隊(duì)被大幅壓縮。

Meta的情況更復(fù)雜。播客提到，Meta的裁員同時(shí)涉及 Reality Labs 和核心廣告業(yè)務(wù)。Sean的解釋是"投資組合再平衡"：扎克伯格正在將籌碼從元宇宙的長期賭注，部分轉(zhuǎn)移到生成式AI的即時(shí)競(jìng)爭。一個(gè)細(xì)節(jié)被反復(fù)強(qiáng)調(diào)：Meta 2024年的AI相關(guān)資本開支預(yù)計(jì)超過350億美元，這個(gè)數(shù)字需要從哪里擠出來。

兩位主持人在這里做了一個(gè)計(jì)算演示（播客中口頭完成，未展示具體數(shù)字）：如果將四大科技巨頭的AI基建投資加總，2024年的規(guī)模可能接近2000億美元。作為參照，這個(gè)數(shù)字超過了全球半導(dǎo)體行業(yè)年度研發(fā)支出的總和。

投資壓力的傳導(dǎo)鏈條清晰可見：資本開支激增→運(yùn)營成本壓縮→人力結(jié)構(gòu)重組→工程師角色重新定義。播客中Sean用了"擠壓效應(yīng)"這個(gè)詞——AI投資不是增量擴(kuò)張，而是對(duì)現(xiàn)有資源池的重新分配。

三、云廠商與模型實(shí)驗(yàn)室的"糾纏"

播客的后半段進(jìn)入更宏觀的產(chǎn)業(yè)結(jié)構(gòu)分析。Gregor Vand畫了一張簡圖（口頭描述）：云服務(wù)商（AWS、Azure、GCP）與模型實(shí)驗(yàn)室（OpenAI、Anthropic、Cohere等）正在形成復(fù)雜的股權(quán)+算力+客戶的三重綁定。

具體案例包括：微軟與OpenAI的獨(dú)家云服務(wù)協(xié)議，Amazon對(duì)Anthropic的40億美元投資，Google既自建Gemini又投資Anthropic的矛盾姿態(tài)。Sean Falconer的觀察是，這種"糾纏"正在模糊傳統(tǒng)的上下游邊界。云廠商不再只是基礎(chǔ)設(shè)施提供者，而是通過股權(quán)投資深度介入模型開發(fā)；模型實(shí)驗(yàn)室則被迫在算力自主與成本效率之間尋找平衡點(diǎn)。

對(duì)工程師的影響被低估了。播客中有一段關(guān)于"平臺(tái)鎖定"的討論：當(dāng)AI應(yīng)用越來越依賴特定模型-云的組合（如Azure+OpenAI），開發(fā)者的遷移成本急劇上升。Gregor提到一個(gè)Hacker News上的帖子，開發(fā)者試圖將基于GPT-4的應(yīng)用遷移到Claude，發(fā)現(xiàn)不僅需要重寫提示詞工程，連嵌入模型的維度都不兼容。

更深遠(yuǎn)的影響在于技能結(jié)構(gòu)的變遷。Sean在Confluent的工作讓他接觸到大量企業(yè)客戶，他的觀察是：傳統(tǒng)軟件工程師正在分化為兩個(gè)群體——一類是"AI應(yīng)用工程師"，專注于模型調(diào)用、提示優(yōu)化和RAG管道搭建；另一類是"基礎(chǔ)設(shè)施工程師"，負(fù)責(zé)訓(xùn)練和推理的規(guī)模化部署。兩者的技能交集正在縮小，職業(yè)路徑的分化比預(yù)期更快。

四、安全就緒度與采用速度的裂縫

播客接近尾聲時(shí)，話題回到安全，但視角從模型安全轉(zhuǎn)向企業(yè)應(yīng)用安全。Sean Falconer引用了一項(xiàng)內(nèi)部調(diào)研（未公開具體數(shù)字）：在已部署生成式AI的企業(yè)中，超過半數(shù)沒有建立相應(yīng)的數(shù)據(jù)泄露風(fēng)險(xiǎn)評(píng)估流程。

裂縫體現(xiàn)在三個(gè)層面。技術(shù)層面，模型輸出的不可預(yù)測(cè)性使得傳統(tǒng)測(cè)試覆蓋方法失效；流程層面，AI應(yīng)用的迭代速度壓縮了安全審查的周期；組織層面，業(yè)務(wù)壓力往往壓倒安全顧慮。Gregor Vand提到一個(gè)典型案例：某金融科技公司為了趕在一個(gè)季度末上線客服機(jī)器人，將安全評(píng)估從四周壓縮到四天。

播客沒有給出解決方案，但指出了一個(gè)反直覺的現(xiàn)象：AI安全工具的創(chuàng)業(yè)熱度，與實(shí)際企業(yè)采用率之間存在明顯落差。大量資金涌入AI安全初創(chuàng)公司，但企業(yè)采購決策仍然滯后。Sean的解釋是預(yù)算歸屬問題——AI安全支出應(yīng)該算在IT安全預(yù)算還是AI創(chuàng)新預(yù)算？這個(gè)簡單的分類問題，在大型組織中可能卡住數(shù)月。

五、Hacker News精選：被AI復(fù)活的項(xiàng)目與Tetris數(shù)學(xué)

每期SED News的固定欄目是Hacker News熱點(diǎn)回顧。本期的技術(shù)趣味案例包括：

一個(gè)開發(fā)者用Claude 3.5 Sonnet重構(gòu)了自己三年前放棄的 side project——一個(gè)基于WebRTC的協(xié)作白板工具。原項(xiàng)目因WebRTC的信令服務(wù)器復(fù)雜度而擱置，AI輔助編碼讓他在一個(gè)周末完成了核心模塊。播客中展示了重構(gòu)前后的代碼量對(duì)比：從約8000行手動(dòng)代碼減少到2000行，其中60%由AI生成。

另一篇熱帖討論"小模型"的訓(xùn)練策略。研究者發(fā)現(xiàn)，在特定領(lǐng)域任務(wù)上，7B參數(shù)的模型通過精心設(shè)計(jì)的課程學(xué)習(xí)，可以達(dá)到70B參數(shù)通用模型的性能。關(guān)鍵技巧包括：數(shù)據(jù)重采樣策略、中間檢查點(diǎn)的知識(shí)蒸餾、以及針對(duì)特定推理模式的微調(diào)。Sean的評(píng)價(jià)是："這是對(duì)'規(guī)模即一切'敘事的有力修正，但適用范圍有限——通用能力仍然隨規(guī)模增長。"

最出人意料的帖子是關(guān)于Tetris的數(shù)學(xué)分析。研究者證明了在特定條件下，Tetris存在"必然失敗"的初始狀態(tài)——即無論玩家如何操作，游戲最終一定會(huì)結(jié)束。這個(gè)結(jié)論本身不算新，但帖子的貢獻(xiàn)在于給出了可計(jì)算的邊界條件，并討論了"作弊"（即修改隨機(jī)數(shù)生成器）能否改變這一結(jié)論。Gregor Vand笑稱這是"最無用的有用知識(shí)"。

結(jié)語

播客在收尾時(shí)回到一個(gè)核心問題：當(dāng)AI基礎(chǔ)設(shè)施的投資規(guī)模達(dá)到歷史級(jí)水平，誰來確保這些投入轉(zhuǎn)化為真正的社會(huì)價(jià)值？Sean Falconer的回應(yīng)帶著學(xué)術(shù)背景的審慎："我們現(xiàn)在看到的更像是軍備競(jìng)賽的邏輯，而不是市場(chǎng)效率的邏輯。最終結(jié)算可能需要五年、十年，但工程師的職業(yè)生涯決策不能等那么久。"

Gregor Vand的補(bǔ)充更直接："關(guān)注那些正在用AI工具解決具體問題的人，而不是追逐最大模型的公告。Hacker News上的side project復(fù)活故事，可能比任何財(cái)報(bào)電話會(huì)議更能說明技術(shù)的真實(shí)進(jìn)展。"

這期播客的完整 transcript 可在 Software Engineering Daily 網(wǎng)站獲取。Sean Falconer 目前擔(dān)任 Confluent 的 AI Entrepreneur in Residence，專注于AI戰(zhàn)略與思想領(lǐng)導(dǎo)力內(nèi)容。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.