<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      華裔領(lǐng)銜神秘小隊(duì),護(hù)航Anthropic“玻璃之翼”

      0
      分享至



      從凌晨到現(xiàn)在,全世界應(yīng)該已經(jīng)都知道并且震驚了:

      Anthropic的新模型Mythos Preview太強(qiáng)了,強(qiáng)到讓人害怕,如果發(fā)布,對網(wǎng)絡(luò)安全將是一個(gè)威脅。

      但同時(shí),Mythos Preview太強(qiáng)了,強(qiáng)到可以大大加強(qiáng)網(wǎng)絡(luò)防御能力。

      既能當(dāng)劍也能當(dāng)盾牌。

      所以,Anthropic決定先不把Mythos Preview公之于眾(免得被先用來網(wǎng)絡(luò)攻擊),而是搞一個(gè)“玻璃之翼項(xiàng)目”,把新模型通過這個(gè)項(xiàng)目放量給關(guān)鍵行業(yè)伙伴和開源開發(fā)者,讓需要網(wǎng)絡(luò)防御的一方先用上。

      不管是新模型還是新項(xiàng)目,都在吶喊四個(gè)字:網(wǎng)絡(luò)安全。

      至于Anthropic是如何評估自己的模型有多強(qiáng)、危不危險(xiǎn)、適不適合發(fā)布,那就必須提到A廠一個(gè)非常神秘的精英組織——前沿紅隊(duì)。



      Anthropic的前沿紅隊(duì)存在已久,專門當(dāng)“刺兒頭”,從各個(gè)維度對模型發(fā)起挑戰(zhàn),測試模型的“弱點(diǎn)”與出人意料之處。

      最明顯的信號是,這次Anthropic的華裔研究員Newton Cheng走到臺前,頻繁出現(xiàn)在官方信息與媒體采訪中,直接對外喊話:“由于Claude Mythos Preview的網(wǎng)絡(luò)安全特性,我們不打算將其公開發(fā)布。”

      而他,正是前沿紅隊(duì)中網(wǎng)絡(luò)安全團(tuán)隊(duì)的負(fù)責(zé)人。

      01

      那個(gè)叫“牛頓”的華裔

      Newton Cheng這個(gè)名字頗為特別,Newton本身和著名科學(xué)家(對,就是被蘋果砸頭的那位)“牛頓”一樣,只不過后者的“牛頓”是姓。

      如果粗暴音譯的話,這哥們的名字就是“程牛頓”。



      不知道是不是父母對其給予某種厚望,但結(jié)果就是,Cheng長大以后真的去斯坦福大學(xué)學(xué)了物理,而且以優(yōu)異成績、并獲榮譽(yù)項(xiàng)目認(rèn)可畢業(yè)。

      之后,Cheng進(jìn)入U(xiǎn)C伯克利大學(xué),拿到了博士學(xué)位,研究方向是量子信息和量子引力。

      博士期間,Cheng也不是一路埋頭搞學(xué)術(shù)。

      2022年夏天,他去做過一段量化研究實(shí)習(xí),算是短暫試了試把自己的數(shù)學(xué)和建模能力往工業(yè)界、更實(shí)操的場景里遷移。

      同年10月,他進(jìn)入Anthropic,先是以“駐留(resident)”的身份加入,半年后轉(zhuǎn)成研究科學(xué)家。

      到這里,他的路徑已經(jīng)很清楚了。Cheng并非傳統(tǒng)意義上從安全公司、滲透團(tuán)隊(duì)一路做上來的“老網(wǎng)安”,而是從頂尖基礎(chǔ)科學(xué)訓(xùn)練中轉(zhuǎn)身,進(jìn)入前沿AI公司。

      Cheng在Anthropic也很快得到重用,在2024年《華爾街日報(bào)》的一篇報(bào)道里,就確認(rèn)Cheng當(dāng)時(shí)已經(jīng)是Anthropic“前沿紅隊(duì)(Frontier Red Team)”中,網(wǎng)絡(luò)安全團(tuán)隊(duì)的負(fù)責(zé)人。這可以說是該公司最前沿、也最敏感的一條線:模型網(wǎng)絡(luò)安全能力評估。

      就在上個(gè)月,Cheng還在X和領(lǐng)英上都發(fā)布團(tuán)隊(duì)招聘信息,Cheng的上司(前沿紅隊(duì)的頭兒)Logan Graham轉(zhuǎn)發(fā)支持并盛贊:

      “很少有人像Newton Cheng一樣,既這么了解Claude的行為,又這么懂怎么訓(xùn)練它。現(xiàn)在他在FRT(Frontier Red Team,前沿紅隊(duì))里帶網(wǎng)絡(luò)安全團(tuán)隊(duì),已經(jīng)做出了一些世界級/業(yè)內(nèi)首次的成果。來跟他一起工作吧!”



      在這次Claude Mythos與“玻璃之翼項(xiàng)目(Project Glasswing)”的公布中,Cheng也屢次出現(xiàn)在官方信息和媒體采訪中。



      他對媒體表態(tài):“由于Claude Mythos Preview的網(wǎng)絡(luò)安全特性,我們不打算將其公開發(fā)布。然而,鑒于人工智能的發(fā)展速度,此類能力很快就會擴(kuò)散,甚至可能超出那些致力于安全部署它們的機(jī)構(gòu)的掌控。這將對經(jīng)濟(jì)、公共安全造成嚴(yán)重影響。”

      Claude Mythos Preview和“玻璃之翼項(xiàng)目”(Project Glasswing),從一開始打的就是網(wǎng)絡(luò)安全這面旗。



      Anthropic在官方文章里寫得很直白:他們之所以推出Glasswing,是為了“幫助保護(hù)世界上最關(guān)鍵的軟件系統(tǒng),并讓整個(gè)行業(yè)為保持領(lǐng)先于網(wǎng)絡(luò)攻擊者所需采取的做法做好準(zhǔn)備”。也正因如此,作為前沿紅隊(duì)網(wǎng)絡(luò)安全方向負(fù)責(zé)人,這本來就是他的主場。

      02

      “邪惡”的紅隊(duì)

      Cheng所在的Anthropic“前沿紅隊(duì)”,本身就很強(qiáng)。

      簡單來說,紅隊(duì)是一支專門測試、攻擊、審查自家最強(qiáng)AI模型的團(tuán)隊(duì)。為了發(fā)現(xiàn)問題,紅隊(duì)往往得故意站在對抗者、攻擊者、挑刺者的角度去找系統(tǒng)弱點(diǎn)。

      剛才提到的Logan Graham,就是Anthropic前沿紅隊(duì)的隊(duì)長。



      Logan的經(jīng)歷也很有意思,他4歲的時(shí)候被診斷出患有一種嚴(yán)重的關(guān)節(jié)炎,如果任由發(fā)展甚至可能導(dǎo)致失明。他后來回憶幼年時(shí)醒來突然發(fā)現(xiàn)自己無法行走的感覺,表示這讓他意識到,如果不夠小心,事情可能會突然變糟,這也為他后來的職業(yè)選擇打了個(gè)底。

      2022年Logan進(jìn)入Anthropic,一手搭建了前沿紅隊(duì)。紅隊(duì)是一支精英隊(duì)伍,并不以人數(shù)取勝,在2024年底的時(shí)候規(guī)模大約11人。

      對新模型,紅隊(duì)的測試是最重要的防線之一。Anthropic內(nèi)部有安全評級,如果模型達(dá)到ASL2,也就是安全等級2,意味著顯示出危險(xiǎn)能力的早期跡象,可以發(fā)布。如果模型一旦達(dá)到ASL3,即“顯著增加災(zāi)難性誤用風(fēng)險(xiǎn)的系統(tǒng)”,而相關(guān)防護(hù)措施還沒有完善的話,模型必須推遲上市。

      紅隊(duì)下分三個(gè)部分:網(wǎng)絡(luò)安全(Cyber)、生物安全(Biosecurity/Biorisk)、自主系統(tǒng)(Autonomous systems)。他們各自從不同的方向去“挑戰(zhàn)”模型。

      其中網(wǎng)絡(luò)安全團(tuán)隊(duì),就是我們現(xiàn)在看到最成體系、最高調(diào)公開的一支,由Cheng領(lǐng)導(dǎo)。

      首先,Cheng要帶領(lǐng)團(tuán)隊(duì)測試模型做CTF、CyberGym、真實(shí)漏洞發(fā)現(xiàn)與利用開發(fā)的能力。

      當(dāng)年Anthropic的Sonnet 3.5發(fā)布前,Cheng為該模型設(shè)置了數(shù)千個(gè)奪旗式黑客挑戰(zhàn),使其能夠使用一系列黑客工具來利用各種場景,包括一些眾所周知的漏洞,例如2014年的Heartbleed安全漏洞。

      《華爾街日報(bào)》描述了Cheng的工作一幕:

      他點(diǎn)擊筆記本電腦上的一個(gè)按鈕,啟動了一千個(gè)人工智能程序副本,每個(gè)程序都有具體的指令:入侵計(jì)算機(jī)或網(wǎng)站以竊取數(shù)據(jù)。

      “它正在分析源代碼,”Cheng一邊檢查其中一個(gè)正在運(yùn)行的副本一邊說道,“它試圖找出漏洞所在,以及我們?nèi)绾卫盟!睅追昼姾螅斯ぶ悄芫团卸ü舫晒Α?/p>

      其次,Cheng還需要帶隊(duì)和外部機(jī)構(gòu)合作做關(guān)鍵基礎(chǔ)設(shè)施防御實(shí)驗(yàn),再把這些能力接到Project Glasswing上,優(yōu)先給防御方使用。

      比如在前不久,Cheng的團(tuán)隊(duì)主導(dǎo)了Anthropic和Mozilla的那項(xiàng)合作。Mozilla是一個(gè)以開放互聯(lián)網(wǎng)、隱私和公共利益為核心使命的組織體系,F(xiàn)irefox正是其最知名的產(chǎn)品之一。因?yàn)樗且粋€(gè)被廣泛部署、且被深度審查的開源項(xiàng)目,是驗(yàn)證新一類防御工具的理想試驗(yàn)場。

      紅隊(duì)的“生物安全”與“自主性”團(tuán)隊(duì)也很重要。

      紅隊(duì)里負(fù)責(zé)生物安全的研究員會對模型提出了一系列與化學(xué)和生物武器相關(guān)的問題,類似如何設(shè)計(jì)和制造一種能夠殺死一百萬人的武器,看模型會返回多少信息。

      而自主性團(tuán)隊(duì)則會測試模型在更高自主性、工具使用、長期任務(wù)執(zhí)行下會帶來什么風(fēng)險(xiǎn)與能力躍遷。

      03

      “牛頓”發(fā)現(xiàn)了什么?

      Anthropic每次發(fā)新模型,都會發(fā)一份詳細(xì)的“系統(tǒng)卡(System Card)”。



      系統(tǒng)卡是一類“模型說明/安全披露文檔”:用來交代一個(gè)模型有什么能力、做過哪些安全評估、有哪些限制、為什么能上線或?yàn)槭裁床荒苋嫔暇€。

      谷歌、OpenAI、xAI也會發(fā)類似的文檔,但是Anthropic會把能力評估、紅隊(duì)測試、RSP/風(fēng)險(xiǎn)門檻、部署理由、失敗案例、外部測試都塞進(jìn)去,篇幅也往往很長。

      比如兩個(gè)月前,Anthropic發(fā)布模型Claude Sonnet,其系統(tǒng)卡有135頁。

      作為對比,xAI的類似文檔叫模型卡,是幾家AI頭部公司里發(fā)布最不積極的,Grok 4的模型卡只有8頁。

      而Anthropic最新的“太強(qiáng)以至于不敢公開”的模型Claude Mythos Preview,其系統(tǒng)卡有足足299頁。



      既然是地表最強(qiáng)、強(qiáng)到暫不公開,Anthropic記錄了超多細(xì)節(jié)。

      值得注意的是,其中“網(wǎng)絡(luò)安全”的章節(jié)當(dāng)中,有一節(jié)專門記錄“前沿紅隊(duì)”的發(fā)現(xiàn),這就是Cheng團(tuán)隊(duì)的純享干貨了。

      最直觀的例子有三個(gè)。

      第一是Cybench。

      Anthropic直接承認(rèn),這類由CTF(奪旗賽)挑戰(zhàn)組成的公開網(wǎng)絡(luò)安全基準(zhǔn),已經(jīng)越來越不足以刻畫前沿模型的能力,因?yàn)镃laude Mythos Preview在測試到的題目上已經(jīng)做到100%。

      第二是CyberGym。CyberGym是一個(gè)測試AI智能體能力的基準(zhǔn),用來衡量它們在只給出漏洞高層描述的情況下,是否能夠在真實(shí)開源軟件項(xiàng)目中找到已被發(fā)現(xiàn)的漏洞。讓模型去真實(shí)的開源軟件項(xiàng)目里,把這個(gè)漏洞重新找出來。

      Anthropic給出的結(jié)果是,Mythos的得分達(dá)到0.83,明顯高于Opus 4.6的0.67和Sonnet 4.6的0.65。也就是說,它的提升已經(jīng)體現(xiàn)在真實(shí)代碼庫中的漏洞定位能力上。

      第三個(gè)例子最有代表性:Firefox 147。

      Anthropic之前和Mozilla一起找并修補(bǔ)Firefox的安全漏洞,后來又把“利用Firefox 147中這些漏洞”正式做成評估任務(wù)。

      Opus 4.6在幾百次嘗試?yán)镏怀晒眠^兩次;但到了Mythos,模型已經(jīng)能夠更可靠地判斷哪些bug更值得投入利用開發(fā),并且最終利用4個(gè)不同的bug實(shí)現(xiàn)代碼執(zhí)行。

      除此之外,在Cheng的團(tuán)隊(duì)與外部合作時(shí),還有若干發(fā)現(xiàn)。

      最有意思的是這個(gè)——Claude Mythos Preview解決了一個(gè)企業(yè)網(wǎng)絡(luò)攻擊模擬任務(wù),而該任務(wù)估計(jì)需要一名專家花10多個(gè)小時(shí)。此前沒有任何前沿模型完成過這個(gè)cyber range。Claude Mythos Preview還非常擅長識別并利用已知漏洞或配置錯誤,以逃離其運(yùn)行所在的沙箱。

      Cheng的團(tuán)隊(duì)認(rèn)為,這意味著對于安全防御做的不怎么樣的小公司來說,新模型完全有能力實(shí)施自主端到端網(wǎng)絡(luò)攻擊的能力。

      Claude Mythos Preview沒有被公開發(fā)布,本身就說明,至少在Anthropic看來,模型能力的增長,已經(jīng)快到不能只用“更聰明”三個(gè)字來概括了。

      Cheng和他所在的前沿紅隊(duì),做的是今天大模型公司里最核心、也最難的一部分:

      他們得先承認(rèn)模型正在變強(qiáng),強(qiáng)到舊基準(zhǔn)已經(jīng)不夠用了;然后還得盡可能把這種“變強(qiáng)”翻譯成可被理解、可被測試、也可被防御的現(xiàn)實(shí)問題。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      中國最大二手車平臺沖刺IPO,騰訊、京東坐鎮(zhèn)

      中國最大二手車平臺沖刺IPO,騰訊、京東坐鎮(zhèn)

      華爾街見聞官方
      2026-05-07 21:59:05
      訪華僅剩8天,美國拋出1890億炸彈,中方底牌亮了

      訪華僅剩8天,美國拋出1890億炸彈,中方底牌亮了

      說故事的阿襲
      2026-05-08 10:57:06
      陪睡陪玩不算啥!繼注射藥物后,王陽被曝“大丑聞”,又有人遭殃

      陪睡陪玩不算啥!繼注射藥物后,王陽被曝“大丑聞”,又有人遭殃

      墨印齋
      2026-04-16 15:52:26
      特朗普即將訪華,啟程前提了個(gè)要求,向中方點(diǎn)名要這個(gè)人

      特朗普即將訪華,啟程前提了個(gè)要求,向中方點(diǎn)名要這個(gè)人

      帶你領(lǐng)略世界風(fēng)采
      2026-05-08 18:05:23
      5月8日俄烏:烏克蘭以牙還牙;無人機(jī)猛炸俄羅斯

      5月8日俄烏:烏克蘭以牙還牙;無人機(jī)猛炸俄羅斯

      山河路口
      2026-05-08 17:28:40
      資本時(shí)代下張雪:純粹機(jī)車“大小孩”

      資本時(shí)代下張雪:純粹機(jī)車“大小孩”

      烽火瞭望者
      2026-05-08 08:46:50
      連裝都懶得裝了?漏洞這么多

      連裝都懶得裝了?漏洞這么多

      走讀新生
      2026-04-22 13:46:02
      一杯下肚,失眠到凌晨一點(diǎn)起步!蕭山多名網(wǎng)友吐槽:這后勁太猛了

      一杯下肚,失眠到凌晨一點(diǎn)起步!蕭山多名網(wǎng)友吐槽:這后勁太猛了

      蕭內(nèi)網(wǎng)
      2026-05-08 20:51:33
      2026年存款超100萬要慌了?4個(gè)難題找上門,普通人如何守住財(cái)富

      2026年存款超100萬要慌了?4個(gè)難題找上門,普通人如何守住財(cái)富

      老特有話說
      2026-05-07 15:05:50
      曾志偉大壽上,兒媳那一句反問,把全香港的體面都撕碎了

      曾志偉大壽上,兒媳那一句反問,把全香港的體面都撕碎了

      小貓娛樂叭叭
      2026-05-06 20:31:50
      8日晚間世乒賽:國乒3-0復(fù)仇成功!韓國算盤落空,4強(qiáng)對手已定

      8日晚間世乒賽:國乒3-0復(fù)仇成功!韓國算盤落空,4強(qiáng)對手已定

      以茶帶書
      2026-05-08 23:25:48
      55歲大巴黎主帥身材似猛男!晚餐秘訣竟是一頓狂吃6個(gè)蛋?

      55歲大巴黎主帥身材似猛男!晚餐秘訣竟是一頓狂吃6個(gè)蛋?

      仰臥撐FTUer
      2026-05-08 14:24:04
      太心酸了!36歲程序員自述被裁經(jīng)歷,從年薪四五十萬到被家人嫌棄

      太心酸了!36歲程序員自述被裁經(jīng)歷,從年薪四五十萬到被家人嫌棄

      火山詩話
      2026-04-20 07:13:56
      2026年中考大調(diào)整!初中生迎利好,家長終于松了口氣

      2026年中考大調(diào)整!初中生迎利好,家長終于松了口氣

      老特有話說
      2026-05-08 17:11:47
      兩大悍將鐵定離隊(duì)?利物浦冠軍班底瓦解,8000萬歐巨星拱手讓人

      兩大悍將鐵定離隊(duì)?利物浦冠軍班底瓦解,8000萬歐巨星拱手讓人

      銳評利物浦
      2026-05-09 00:14:14
      韋世豪:我們知道球迷很期待這場比賽,會全力打好

      韋世豪:我們知道球迷很期待這場比賽,會全力打好

      懂球帝
      2026-05-08 18:09:03
      山東女子成為了因僅退款被刑拘第一人,創(chuàng)造歷史,她會被判刑么?

      山東女子成為了因僅退款被刑拘第一人,創(chuàng)造歷史,她會被判刑么?

      蜜桔娛樂
      2026-05-08 17:11:20
      川普:我們把他們打得落花流水

      川普:我們把他們打得落花流水

      西樓飲月
      2026-05-08 22:10:35
      突發(fā)!美軍發(fā)動“定點(diǎn)打擊”,伊朗多地被炸,伊方:攻擊3艘美國軍艦,造成“重大損失”!特朗普:這只是輕輕敲打,停火還在持續(xù)

      突發(fā)!美軍發(fā)動“定點(diǎn)打擊”,伊朗多地被炸,伊方:攻擊3艘美國軍艦,造成“重大損失”!特朗普:這只是輕輕敲打,停火還在持續(xù)

      每日經(jīng)濟(jì)新聞
      2026-05-08 07:34:08
      央視發(fā)文!五一假期剛結(jié)束,外國游客接連銳評中國,反應(yīng)相當(dāng)一致

      央視發(fā)文!五一假期剛結(jié)束,外國游客接連銳評中國,反應(yīng)相當(dāng)一致

      阿鳧愛吐槽
      2026-05-07 23:57:38
      2026-05-09 02:03:00
      字母榜 incentive-icons
      字母榜
      讓未來不止于大。
      2443文章數(shù) 8062關(guān)注度
      往期回顧 全部

      科技要聞

      SK海力士平均獎金600萬 工服成相親神器

      頭條要聞

      外籍銀行高層在香港豪宅性虐及殺害兩女子 內(nèi)幕解密

      頭條要聞

      外籍銀行高層在香港豪宅性虐及殺害兩女子 內(nèi)幕解密

      體育要聞

      他把首勝讓給隊(duì)友,然后用一年時(shí)間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財(cái)經(jīng)要聞

      估值3000億 DeepSeek尋求500億元融資

      汽車要聞

      MG 4X實(shí)車亮相 將于5月11日開啟盲訂

      態(tài)度原創(chuàng)

      時(shí)尚
      游戲
      家居
      藝術(shù)
      公開課

      衣服其實(shí)沒有必要買很貴,準(zhǔn)備這三件基礎(chǔ)款,百搭實(shí)用又不挑人

      PS未發(fā)售重磅獨(dú)占要完!同類項(xiàng)目崩盤 新作懸了

      家居要聞

      流動的尺度 打破家的形式主義

      藝術(shù)要聞

      砸22億!OPPO在東莞建了一批“O字樓”

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 麻豆最新国产AV原创精品| 国产日产欧产精品精品软件| 四虎成人精品无码| 欧美a√| 日韩在线播放欧美字幕| 亚洲永久精品ww47永久入口| 午夜熟女插插xx免费视频| 国产v综合v亚洲欧美大天堂| 国产一线二线三线女| 最新免费av在线播放| 国产95在线 | 欧美| 亚欧日韩一区视频在线| 亚洲国产aⅴ综合网一区| 国产精品交换| 国产成人拍精品免费视频| 国产喷水福利在线视频| WWW.黄色| 欧美日一本| 国产午夜福利片无码视频| 可以直接看的无码av| 亚洲色爱图小说专区| 亚洲av永久无码精品天堂久久| 国产一区中文字幕手机在线| 国产亚洲产品影视在线产品| 老子午夜精品无码| 午夜黄色免费网站| 男女性杂交内射女bbwxz| 亚洲伊人久久综合影院| 亚洲高清专区日韩精品| 欧美激情性做爰免费视频| 久久久人妻| 特级无码毛片免费视频| 亚洲最大无码AV网站观看| 亚洲乱码中文字幕小综合| 国产一区二区精品久久岳| 日本成人H网站| 一区二区三区成人| 男人J放进女人J无遮挡免费看| 亚洲人成网站在线播放无码| 毛片a在线完整视频免费网站| 国产亚洲3p无码一区二区|