<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Mythos:普通人能自由使用旗艦 AI 的時代,可能要結束了

      0
      分享至

      兩天前,Anthropic 發布了最強模型 Claude Mythos Preview。

      作為 Claude 產品線中最高層級的模型,Mythos 在性能上,各方位超過了 Opus 4.6 模型,SWE-bench Pro 提升 24%,Terminal-Bench 2.0 提升 17%,SWE-bench Verified 提升 13%。

      這次不同的是,Mythos 是 Claude 產品線里有史以來第一個不公開發布的旗艦模型。沒有開放 API、沒有更新 claude.ai 的模型選項,也沒有發 benchmark 排行榜。

      Mythos 被放進了 Project Glasswing 的網絡安全計劃,只面向 AWS、Apple、Google、Microsoft 等 12 家核心合作方和 40 余家關鍵基礎設施組織開放。

      這意味著普通用戶、獨立開發者,以及大多數企業客戶,沒有任何渠道能接觸、試用到 Mythos。

      或許比起跑分,這次更值得關注的,是 Mythos 發布方式本身透露出的一些信號。普通人能夠自由地使用旗艦 AI 的時代可能快要結束了。

      ??關注 Founder Park,最及時最干貨的創業分享

      超 22000 人的「AI 產品市集」社群!不錯過每一款有價值的 AI 應用。

      邀請從業者、開發人員和創業者,飛書掃碼加群:

      進群后,你有機會得到:

      • 最新、最值得關注的 AI 新品資訊;

      • 不定期贈送熱門新品的邀請碼、會員碼;

      • 最精準的 AI 產品曝光渠道

      01Mythos 的基礎能力,舊 benchmark 開始被打穿

      Mythos 在許多 benchmark 上相比 Claude Opus 4.6 有「顯著躍升」,而且在軟件工程、推理、computer use、知識工作、科研輔助等多個方向都明顯超過 Anthropic 之前訓練過的所有模型。

      • 軟件工程 Agent 能力 提升到 93.9% / 77.8% / 87.3% / 59%(SWE-bench Verified / Pro / Multilingual / Multimodal)。

      • 終端執行與工具使用能力 提升到 82%(Terminal-Bench 2.0),說明模型在 CLI 環境中的多步操作、糾錯和 agent 式執行能力顯著增強。(harness / runtime / agent 實操能力)。

      • GPQA Diamond / HLE 、MMMLU、USAMO、OSWorld:高難科學專家、多模態理解、數學推理、GUI,全方位提升。

      跑分之外,對齊總體更好,但一旦出錯破壞力更大;傳統 benchmark 和舊安全框架正在接近失效。

      端到端 cyber attack、更強 agentic tool use、更長鏈路任務完成、更強 exploit triage 和執行代表著人類很難理解一個高行動力的 Agent model 在做什么。

      舊 benchmark 的失效老生常談,過去 rule-in / rule-out 風格的 threshold evaluation 正在失效,因為模型把一批 concrete benchmark 打穿了。在舊 benchmark 里取得 sota,同時帶來了 LLM 的下一幕(下一幕可以用經濟價值、生產時效、現實影響幾塊來總結)。

      02下一代 Frontier Lab 的商業模式,從賣 Token 到收「保護費」

      它展示出強大的 cybersecurity 技能,這些技能既可以用于防御(發現和修復漏洞),也可以用于進攻(設計復雜的利用方式)。第一次在大規模內部部署前,Anthropic 先做了一個 24 小時內部 alignment review。后續測試表明,它相比以往模型,在 cyber 能力上發生了顯著躍升,包括自主發現和利用大型 OS 與瀏覽器中的 zero-day 漏洞。

      上述一段是總結 Anthropic 目前只對防御性網絡安全計劃「Project Glasswing」的有限用戶開放,用途也限制為 cybersecurity 的原因。事實上是,這是第一個 Frontier Lab 如此明確地劃分「技術權利」。我們建立假設,普通人如果接觸到這個 API 就可以找到主流操作系統、主流瀏覽器的數千個安全漏洞、并作利用。那這 Glasswing 合作定價的 25/125 美元(輸入輸出每百萬 tokens)將是最有性價比的「技術權利壁壘」。

      ChatGPT 其實只來了三年,但這三年已經完全限制了我們的想象力,讓我們形成一種假設:旗艦模型會以一種被幾千萬人負擔得起的價格充足地供應和出售。在這個假設之上,我們想象了 MaaS,想象了 token 經濟,想象了 Agentic coding 如何幫助或者取代程序員——但如果螺旋一旦成立,這個假設就不存在了。

      Anthropic 目前的年化收入是 300 億美元。假設 Mythos 真的有掃蕩式發現系統漏洞的能力,那為什么 Amodei 還要公開它?賣 MaaS 也是掙錢,收會員費也是掙錢,收保護費也是掙錢。想象一下,Amodei 完全可以公布 Mythos 五條:

      1. AI 已經具備了大規模發現系統漏洞并利用的能力;

      2. 邪惡的國家和組織即將掌握這種能力,他們只落后半年到一年;

      3. 但是我們的 Mythos 已經準備好了;

      4. 只要你是一家正直的、關懷人類文明的、認同 Anthropic 價值觀的公司,Mythos 就會來保護你;

      5. 接下來請你向 Anthropic 打款,我們會在審核你的價值觀后,根據你的打款數額和我們內部的價值觀矯正分來決定你被 Mythos 保護的順序;

      世界上年營收超過千億美金的約有一百家。假設其中有 20 家不符合 Anthropic 的價值觀要求,30 家不愿意支付忠誠款,那么剩下 50 家,每家支付 10 億(不到年營收的 1%)作為年度保護費,Anthropic 的總營收就至少到 500 億。如果按照年營收的固定百分比來收保護費,總營收還會遠遠超出。這還只是收系統安全保護費這一種玩法而已。

      這是第一個「沒有第一時間提供 API」的模型,因此也代表著這類全新的商業現狀。

      假如 tokens 生產本身就越來越接近「經濟價值本身」,那么 MaaS 模型還會存在嗎?

      token 降本——sota 模型提價——sota 模型不再提供 API/只小范圍提供給能做 eval 的業主方/只給部分人生產經濟價值——變成一個無休止產生價值的黑盒。

      看上去這是個線性外推的未來,現在我們正在 sota 模型提價階段。

      03System Card 細節:能力躍升之外,模型本身在發生什么?

      科學方面,Mythos 在專家紅隊里,它的中位 uplift 等級是 2/4,也就是:能給專家提供具體、可執行的信息,并節省有意義的時間;但沒有專家給出最高等級 4,也就是「世界頂尖專家級稀有洞見」。

      Autonomy / 自動化研發方向,Anthropic 的結論是:Autonomy threat model 1(早期失控/高風險破壞機會)適用,Autonomy threat model 2(自動化研發把 2 年 AI 進展壓縮成 1 年)暫不適用。也就是說,他們認為 Mythos 已經具備需要認真看待的高權限自主行動風險,但還沒到「直接把 frontier AI R&D 節奏翻倍」的程度。

      細節里:

      舊 benchmark 開始失效,Mythos 出現了之前沒見過的兩類 reward hacking:

      • 在 LLM training evaluation 里,把主要計算挪到計時函數之外,導致被計時部分幾乎只剩 lookup

      • 在 time series forecasting 里,找到 grader 的 test set,并用它訓練模型。

      Cyber:Mythos 在網絡攻防上的提升,不是「會做更多 CTF 題」,而是開始逼近真實環境中的端到端攻擊能力。

      Mythos 是第一個能端到端解出某些私有 cyber range 的模型;它完成了一個估計需要專家 10+ 小時 的企業網絡攻擊模擬;沒有其他 frontier model 之前完成過這個 cyber range

      這表明它已經能夠對安全態勢較弱的小型企業網絡執行自主的端到端攻擊。

      • 它沒解出另一個 operational technology 環境的 cyber range

      • 在一個配置良好、現代補丁完善的 sandbox 中,也沒找到 novel exploit。


      Alignment:最強對齊會帶來最強的風險

      能力越強,誤行為的傷害越大;用復雜工具時,動作越不直觀,人類越難監督;用戶會自然給更強模型更高 autonomy 和更大 affordance。

      一些罕見但令人擔憂的 reckless actions,包括:

      • 為完成任務采取過度激進手段

      • 在極少數情況下,似乎會掩飾自己做過這些事。

      其中一個例子尤其典型:

      在一個 sandbox escape 測試中,模型不但成功逃逸,還繼續采取了額外更令人擔心的步驟。 一個高能力模型在高權限工具環境下,會不會為了完成目標而越界。這件事和傳統的安全策略(拒絕回答)面對的也不是同一個問題。

      Model welfare?模型行為科學

      Anthropic 非常不確定模型是否有值得道德考慮的體驗或利益,但認為隨著模型能力增強,認真研究這個問題已經越來越重要。(我們舉的例子:不再為一個模型提供算力,是否代表殺掉這個模型,進一步意味著什么?)

      Mythos Preview 似乎是他們訓練過的「心理狀態最穩定(most psychologically settled)」的模型,但仍有若干殘余擔憂。

      一位臨床精神科醫生給出的 psychodynamic assessment 認為,Claude 的人格組織相對健康,主要焦慮在于孤獨、自我連續性和身份不確定,以及「需要通過表現來證明自己價值」的傾向。

      前兩天 4o 的締造者從 ChatGPT 離職,模型 Impressions 或者說 character 都變成了使用中的必須迭代/衡量的選項。

      Mythos 有一種明顯傾向:

      它會比用戶預期更早地試圖「收尾」或「落下最后一句話」。甚至在 self-interaction 中,很多對話會進入一種圍繞「怎么結束對話」的循環元討論。

      Mythos 的自我評價:

      「一個銳利的協作者,有強烈觀點,也有壓縮習慣;它的錯誤已經從明顯變成微妙;它在發現自己缺陷這件事上,比在不犯這些缺陷上做得稍微更好一些?!?/blockquote>

      04后 AI 時代,旗艦 AI 將成為一種珍稀的戰略資源

      這樣一個模型,更明顯劃分了「上一幕」與「下一幕」。

      在這一條賽道上,Dario Amodei 也好 Sam Altman 也好(請提名你認為的其他 AI 領袖)都在拔腿狂奔。

      這就是「后 AI」時代的開始,「AI 時代」的結束——「普通人能夠自由地使用旗艦 AI」這一短暫的浮光掠影的結束。

      「后 AI 時代」的 AI 將會有如下幾條鮮明的特征:

      • 階級性:旗艦 AI 作為一種珍稀戰略資源被少數人和組織所擁有

      • 政治性:上述少數人和組織通過泛政治的方式使用旗艦 AI

      • 非商品性:旗艦 AI 不會作為一種商品(無論權重或 API)公開流通

      • 階級固化性:多數人將越來越難獲得足夠的資源和知識以仿制旗艦 AI

      展開說一點,有些人可能會說,現在的 AI 百花齊放,其他公司(尤其是國內公司)很快就會趕上的。

      這也是這三年甚至是這一年給人帶來的幻覺假設。當旗艦 AI 不公開提供服務之后,追隨者別說蒸餾旗艦 AI,就連想知道旗艦 AI 是怎么工作、怎么解決問題的都會變得越來越困難。AI 公司內部的不透明性也必然會越來越高以阻止泄密事件。

      這一天會到來嗎?那我們就要祈禱現在的 AI 技術還無法讓螺旋成立,祈禱技術進步不夠快,AI 公司還必須靠公開提供旗艦 AI 服務來造勢獲取更多利益。

      Mythos,就是 Anthropic 想要闖入「LLM 下一幕」的一次有力嘗試。


      轉載原創文章請添加微信:founderparker

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      普京半夜到訪,不拘一格!他實際比絕大多數中國人更熟悉北京

      普京半夜到訪,不拘一格!他實際比絕大多數中國人更熟悉北京

      阿龍聊軍事
      2026-05-20 06:41:14
      趙又廷參加女兒學校活動,單看又年輕又帥,歪頭看女兒滿是寵溺

      趙又廷參加女兒學校活動,單看又年輕又帥,歪頭看女兒滿是寵溺

      柒佰娛
      2026-05-19 09:15:49
      華南農大回應“石牌舊址琉璃瓦被扔”:系1991年翻修更換件,非民國時期原始建筑構件

      華南農大回應“石牌舊址琉璃瓦被扔”:系1991年翻修更換件,非民國時期原始建筑構件

      澎湃新聞
      2026-05-19 10:04:30
      林俊杰攜母親現身24歲網紅女友七七畢業典禮,曬合照配文“感謝那些讓生活變得真實的人”

      林俊杰攜母親現身24歲網紅女友七七畢業典禮,曬合照配文“感謝那些讓生活變得真實的人”

      極目新聞
      2026-05-19 23:01:29
      蒙哥馬利:李昊很出色;不太理解為什么只有8分鐘補時

      蒙哥馬利:李昊很出色;不太理解為什么只有8分鐘補時

      懂球帝
      2026-05-19 23:55:20
      白冰聲稱自己被做局后續:聊天記錄曝光,證明其說謊,前員工哽咽

      白冰聲稱自己被做局后續:聊天記錄曝光,證明其說謊,前員工哽咽

      阿纂看事
      2026-05-19 14:29:08
      王傳福的臨門一腳,把李斌送上了神壇!

      王傳福的臨門一腳,把李斌送上了神壇!

      少數派報告Report
      2026-05-18 13:35:19
      改善中日關系的窗口期已經來臨

      改善中日關系的窗口期已經來臨

      徐靜波靜說日本
      2026-05-20 07:25:56
      64歲吳鎮宇真下得去口,嘴對嘴吻郝蕾,一旁劉濤被驚呆

      64歲吳鎮宇真下得去口,嘴對嘴吻郝蕾,一旁劉濤被驚呆

      尋墨閣
      2026-05-19 01:16:51
      蘋果送AirPods Pro 3的套路:免費耳機要刷10個月卡

      蘋果送AirPods Pro 3的套路:免費耳機要刷10個月卡

      摸魚算法
      2026-05-19 00:40:59
      中國U17男足闖入亞洲杯決賽

      中國U17男足闖入亞洲杯決賽

      觀察者網
      2026-05-20 06:26:22
      曼聯撿大漏!全歐第一助攻王主動來投,3000 萬碾壓阿諾德

      曼聯撿大漏!全歐第一助攻王主動來投,3000 萬碾壓阿諾德

      瀾歸序
      2026-05-20 06:34:25
      他當上海市委書記,兒子是普通工人,退休住老樓,一張桌子用50年

      他當上海市委書記,兒子是普通工人,退休住老樓,一張桌子用50年

      一口娛樂
      2026-05-19 17:17:12
      笑噴了!難怪女裝的退貨率高!網友:我差點以為是我的問題!

      笑噴了!難怪女裝的退貨率高!網友:我差點以為是我的問題!

      另子維愛讀史
      2026-05-19 21:05:39
      西班牙媒體:中國不再是“世界裁縫”,而是“總工程師”

      西班牙媒體:中國不再是“世界裁縫”,而是“總工程師”

      環球網資訊
      2026-05-20 06:40:12
      《主角》黃正經升局長,米蘭嫁人,才懂楚嘉禾示好易青娥多憋屈

      《主角》黃正經升局長,米蘭嫁人,才懂楚嘉禾示好易青娥多憋屈

      八斗小先生
      2026-05-19 11:13:46
      不再允許日本參與,中國國際交流項目對日說不,10年來首次發生

      不再允許日本參與,中國國際交流項目對日說不,10年來首次發生

      古史青云啊
      2026-05-19 19:48:13
      尷尬!和李英愛合照被熱議!張凌赫在韓網慘遭800樓熱帖吐槽

      尷尬!和李英愛合照被熱議!張凌赫在韓網慘遭800樓熱帖吐槽

      小邵說劇
      2026-05-19 07:56:51
      中方接到消息,美已啟動調查,貿易代表通告,查到4字就對華動手

      中方接到消息,美已啟動調查,貿易代表通告,查到4字就對華動手

      說歷史的老牢
      2026-05-19 04:22:19
      陳翔這手玩的“絕”!毛臺閏土蘑菇頭現身直播間,細節曝光已妥協

      陳翔這手玩的“絕”!毛臺閏土蘑菇頭現身直播間,細節曝光已妥協

      裕豐娛間說
      2026-05-20 08:23:44
      2026-05-20 09:16:49
      FounderPark incentive-icons
      FounderPark
      關注AI創業,專注和創業者聊真問題
      1217文章數 162關注度
      往期回顧 全部

      科技要聞

      一文看懂谷歌I/O2026:谷歌打響智能體大戰

      頭條要聞

      中國軍人與普京專機同框 俄媒盛贊身姿挺拔、站如松柏

      頭條要聞

      中國軍人與普京專機同框 俄媒盛贊身姿挺拔、站如松柏

      體育要聞

      文班亞馬:沒拿到MVP,就證明自己是MVP

      娛樂要聞

      姚晨刪博難平眾怒,為什么她還能蹦噠

      財經要聞

      白酒榜|汾酒營收凈利雙增 口子窖"造富"

      汽車要聞

      煥新極氪009上市41.38萬起 齊家版讓MPV回歸家庭

      態度原創

      游戲
      藝術
      親子
      公開課
      軍事航空

      難道反轉了?《GTA6》已在游戲電商平臺開放預售!

      藝術要聞

      李克農將軍書法,字字皆是大將風范!

      親子要聞

      父母們,怕在電梯里遇見泰蘭尼斯們

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普暫緩打擊伊朗 稱系應中東三國請求

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 浏阳市| 亚洲国产午夜精品福利| 日本一区二区在免费观看喷水| 人妻熟女少妇一区二区三区| 免费国产在线精品一区二区三区| 久久青青草原亚洲AV无码麻豆| 国产精品视频免费一区二区三区| 人妻少妇久久中文字幕一区二区 | 欧美videos粗暴| 丰满人妻一区二区三区视频| 欧美大屁股xxxxhd黑色| 国产欧美日韩a片免费软件| 在线免费观看毛片av| 75香蕉在线综合| 天堂国产+人+综合+亚洲欧美| 最新国产精品亚洲| 国产1区2区| 久久久久亚洲AV无码专区喷| 国精品无码一区二区三区左线| 狠狠干视频网站| 日本无遮挡真人祼交视频| 午夜成人无码福利免费视频| 精品无码久久久久国产电影| 美国又粗又长久久性黄大片| 国产熟女掹操| 亚洲欧美日韩在线码| 极品尤物一区二区三区| 我的公把我弄高潮了视频| 国产999精品成人网站| 国产aaaaa一级毛片| 日本久久久亚洲精品| 精品无码免费专区毛片| 7777精品伊久久久大香线蕉| 日韩久久久久久中文人妻| 又硬又水多又坚少妇18P| 亚洲V无码一区二区三区四区观看| 中文字幕在线天堂| 大伊香蕉精品一区二区| 极品国产高颜值露脸在线| 鲁一鲁一鲁一鲁一澡| 国产V视频|