<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      剛剛,小扎的千億閉源AI終于交卷!當場被痛批「圖表犯罪」,28歲話事人火速道歉

      0
      分享至

      九個月前,如果你問 AI 圈里誰最焦慮,答案大概率是 Meta CEO 扎克伯格。

      Llama 4 的發布堪稱教科書級翻車。核心研究員陸續出走,技術社區的口碑幾乎在一夜之間崩掉,于是扎克伯格選擇推倒重來。

      Meta Superintelligence Labs 掛牌成立,接著小扎開出堪比 NBA 職業球星的簽約金,從 OpenAI、Google、Anthropic 撬走七十多名頂尖研究員,并在六個月內完成了四次組織架構調整。


      就在剛剛,這場 AI 豪賭終于亮出了它的第一張牌:Muse Spark。

      近千億美元的支出給了扎克伯格一張 AI 頂級玩家的入場券,但入場從來只是開始,能不能在這張桌子上贏下去,還要看今天這張牌打得怎么樣。


      扎克伯格的最新發文

      號稱「個人超級智能」第一步,Muse Spark 登場

      作為 Meta Superintelligence Labs 推出的 Muse 系列首款模型,Muse Spark 從架構層面原生支持圖像、音頻、視頻與文本的聯合理解,內置工具調用、可視化思維鏈與多智能體協調能力。

      Meta 將其定位為邁向「個人超級智能」的第一步。

      從評測數據看,Muse Spark 的能力分布相當不均勻。多模態方向上,它在 CharXiv Reasoning 圖表理解項目上得分 86.4,超過 GPT 5.4 的 82.8 和 Gemini 3.1 Pro 的 80.2,SimpleVQA 視覺事實題同樣領先競爭對手。


      但在 MMMU Pro 多模態理解項目上,Muse Spark 得分 80.4,低于 Gemini 3.1 Pro 的 83.9。文本推理方向,它在 GPQA Diamond 博士級推理題上得分 89.5,LiveCodeBench Pro 競爭編程測試得分 80.0,后者超過 Opus 4.6。

      然而 ARC AGI 2 抽象推理謎題上僅得 42.5,遠落后于 Gemini 3.1 Pro 的 76.5 和 GPT 5.4 的 76.1,差距頗為明顯。

      健康領域是這份成績單上比較大的亮點。

      HealthBench Hard 開放式健康問答中,Muse Spark 得分 42.8,遠超 GPT 5.4 的 40.1、Gemini 3.1 Pro 的 20.6 和 Opus 4.6 的 14.8。MedXpertQA 多模態醫療題得分 78.4,Meta 與超過 1000 名醫生合作標注訓練數據,這一投入在評測榜單上得到了直接回報,也是少見的、錢花到了刀刃上的地方。

      編碼與智能體任務則是另一面。Muse Spark 在 DeepSearchQA 智能體搜索項目上得分 74.8,優于 Gemini 3.1 Pro 的 69.7,但在 Terminal-Bench 2.0 終端編碼任務上僅得 59.0,落后于 GPT 5.4 的 75.1 和 Gemini 3.1 Pro 的 68.5。


      基準測試之外,社區的實戰對比更為直觀:有用戶同時讓 Muse Spark 和 GPT-5.4 完成「制作一個 Flappy Bird 克隆版」的任務,從游戲邏輯到交互細節,GPT-5.4 輕松勝出。在經典的六邊形小球測試中,對比昨天 DeepSeek 專家模式的表現,Muse Spark 再次敗下陣來。


      只能說,編碼與長鏈路智能體任務,仍是 Meta 明確承認、尚在補強的方向。

      與標準推理模式并行,Meta 同步推出了 Contemplating 模式,通過并行調度多個 AI 智能體協作處理復雜問題。

      該模式在「人類最后的考試」(Humanity’s Last Exam)無工具版本中得分 50.2,超過 Gemini 3.1 Deep Think 的 48.4 和 GPT 5.4 Pro 的 43.9,FrontierScience Research 科學研究任務中得分 38.3。但在物理奧賽 IPhO 2025 理論題上得分 82.6,仍落后于 GPT 5.4 Pro 的 93.5。


      支撐上述能力的,是 MSL 過去九個月徹底重建的技術棧。

      Codebase Perplexity 測試圖表顯示,Muse Spark 在相同性能水平下,比 Llama 4 Maverick Base 節省 10.3 倍算力,比 DeepSeek-V3.1 Base 節省 8.2 倍,比 Kimi-K2 Base 節省 3.3 倍。


      強化學習階段同樣表現穩定,pass@1 從約 46% 持續爬升至超 60%,pass@16 從 近 68% 升至近 80%,在未見過的評測集上泛化趨勢同樣平穩。


      博主 Yuchen Jin 評價稱,基礎設施才是 AI 實驗室真正的護城河,好的基礎設施讓研究人員能以更快速度訓練模型、用更短周期驗證更多想法。


      AI 評測機構 Artificial Analysis 在早期測試后表示,Muse Spark 在其綜合智能指數中得分 52,位列全球前五。


      Muse Spark 現已上線 meta.ai 及 Meta AI 應用,并向部分用戶開放 API 內測,用戶須以 Facebook 或 Instagram 賬號登錄方可使用。與此前開源 Llama 系列的路線不同,Meta 這次選擇閉源發布。

      Meta 未明確說明是否會使用社交賬號中的個人信息訓練模型,但鑒于 Meta 的一貫做法,這一可能性不低,其中健康數據的采集更是值得特別關注。

      Meta 重組后的首份 AI 答卷,及格了嗎?

      2025 年 4 月,Llama 4 以令人失望的表現觸發了 Meta 的人事地震。

      下定決心從頭來過的扎克伯格,成立了 Meta Superintelligence Labs,以 143 億美元將 Scale AI 創始人 Alexandr Wang 引入擔任首席 AI 官,前 GitHub CEO Nat Friedman 負責產品,前 OpenAI 研究員 Shengjia Zhao(趙晟佳)出任首席科學家。


      緊接著是四大團隊的重組、以及從 OpenAI、DeepMind、Anthropic 等對手處累計引進逾 70 名頂尖研究人員,單人簽約獎金最高達 1 億美元。

      代價是沉重的,圖靈獎得主 Yann LeCun 離職、600 個崗位被裁、內部薪酬不公引發大規模士氣危機,六個月內四次架構調整更是讓團隊方向感嚴重缺失。


      結果顯而易見,九個月重建、數百億投入,Muse Spark 交出的這份答卷,稱得上合格,卻還遠遠談不上亮眼。

      有一個有趣的細節是,Meta 在評測圖表中,通過給自家模型基準測試成績高亮的操作,試圖制造出全面領先的視覺觀感,隨即引發外界批評。


      網友 Armen Aghajanyan 直接定性為「圖表犯罪」,Alexandr Wang 隨后公開致歉,承認大多數評估恰恰顯示模型有很多需要改進的地方。



      事實上,Meta 新模型在健康領域的垂直優勢足夠亮眼,算力效率的提升也確有真實價值,但 ARC AGI 2 上的斷崖式落差、編碼任務上被 GPT-5.4 輕松超越,以及「圖表犯罪」風波所折射出的敘事焦慮,共同勾勒出一個仍在追趕、而非遙遙領先的 Meta AI。

      更關鍵的是,這是一份閉源答卷。Meta 曾以開源 Llama 系列樹立起差異化形象,如今轉向閉源商業化路線,意味著它放棄了社區生態這張最重要的底牌,卻尚未證明自己能在閉源賽道上與 OpenAI 和 Anthropic 正面掰手腕。


      如官方博客和 Alex 回應所說,別問,問就是「大的要來了」

      甚至就在 Muse Spark 發布的同一天,馬斯克在社交媒體上曬出 xAI Colossus 2 的訓練進度,七個模型同時在訓,參數規模從 1T 橫跨至 10T,并附上一句意味深長的「還有些追趕要做」。


      同期,Claude Mythos 預覽版、DeepSeek 新一輪更新也已經發布,包括阿里即將推出 Qwen-3.6 系列旗艦 Qwen-3.6-Max,騰訊混元 3.0 同樣蓄勢待發。

      對手們不會等 Meta 考完再出題,并且投資者的耐心本來就是有限度的。四月,依舊是最殘酷的一個月。名為 AGI 的這場考試,目前還看不到閱卷結束的那一天。

      我們正在招募伙伴

      簡歷投遞郵箱hr@ifanr.com

      ?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      手機突然收到陌生驗證碼千萬別慌!內行忠告:立刻打開飛行模式

      手機突然收到陌生驗證碼千萬別慌!內行忠告:立刻打開飛行模式

      Thurman在昆明
      2026-05-09 05:11:35
      沒想到,世乒賽還沒結束,乒協主席王勵勤竟傳來另一大好消息

      沒想到,世乒賽還沒結束,乒協主席王勵勤竟傳來另一大好消息

      劉笤說體壇
      2026-05-09 19:03:50
      排油入海,攻擊扣押不相關國家商船,革命衛隊瘋狗戰術為自保

      排油入海,攻擊扣押不相關國家商船,革命衛隊瘋狗戰術為自保

      移光幻影
      2026-05-10 07:43:17
      含董量高!U17國足將出局?這題熟悉,球迷:別慌,卡塔爾會做人

      含董量高!U17國足將出局?這題熟悉,球迷:別慌,卡塔爾會做人

      足球大腕
      2026-05-10 11:48:48
      張本智和父親:請中國人不要罵我兒子,他比你們99%的人都優秀!

      張本智和父親:請中國人不要罵我兒子,他比你們99%的人都優秀!

      拳擊時空
      2026-05-10 07:42:20
      徐帆回應離婚9個月,馮小剛攜80后女星亮相,養女徐朵開心

      徐帆回應離婚9個月,馮小剛攜80后女星亮相,養女徐朵開心

      老沮系戲精北鼻
      2026-05-10 10:33:57
      整治了20年,網游工作室為何屢禁不止?

      整治了20年,網游工作室為何屢禁不止?

      17173游戲網
      2026-05-09 16:06:29
      果不其然,特朗普訪華行程又生變故?美國拒絕了中方一個正常安排

      果不其然,特朗普訪華行程又生變故?美國拒絕了中方一個正常安排

      愛情的滋味我也想嘗嘗
      2026-05-10 06:59:34
      伊朗給普京上了一課,俄或不再是世界大國,中國絕非“第二強”

      伊朗給普京上了一課,俄或不再是世界大國,中國絕非“第二強”

      一個有靈魂的作者
      2026-05-10 13:18:32
      公然反水!中國兩鄰國聯手,搶在美國前,掐斷中國“經濟命脈”?

      公然反水!中國兩鄰國聯手,搶在美國前,掐斷中國“經濟命脈”?

      冷峻視角下的世界
      2026-05-09 21:49:20
      張皓嘉絕殺北京!聽聽劉曉宇李克怎么說,為何能反敗為勝?

      張皓嘉絕殺北京!聽聽劉曉宇李克怎么說,為何能反敗為勝?

      南海浪花
      2026-05-09 22:39:08
      20多年前陳紅在陳凱歌家拍照,她躺在沙發上的樣子,堪稱人間尤物!

      20多年前陳紅在陳凱歌家拍照,她躺在沙發上的樣子,堪稱人間尤物!

      感覺會火
      2026-04-28 21:18:46
      湖人G3生死戰慘敗雷霆!詹姆斯19投19分力竭,0:3西決無望

      湖人G3生死戰慘敗雷霆!詹姆斯19投19分力竭,0:3西決無望

      阿晞體育
      2026-05-10 13:00:27
      高鐵上大媽占我軟臥,還稱乘務長是她外甥,我直接撥通父親電話

      高鐵上大媽占我軟臥,還稱乘務長是她外甥,我直接撥通父親電話

      糖逗在娛樂
      2026-05-10 09:05:20
      鬧大了!法國隊賽前放狠話失敗,F·勒布倫當場痛哭,哥哥情緒失控

      鬧大了!法國隊賽前放狠話失敗,F·勒布倫當場痛哭,哥哥情緒失控

      郝小小看體育
      2026-05-10 09:30:13
      廣東女子花32萬買下大爺的海景房,重新裝修后就走了,2年后回來一看,新房子竟被大爺占了回去,大爺還說:就不給你,能把我咋滴

      廣東女子花32萬買下大爺的海景房,重新裝修后就走了,2年后回來一看,新房子竟被大爺占了回去,大爺還說:就不給你,能把我咋滴

      大愛三湘
      2026-05-09 19:57:37
      新規落地!手機不用再交月租,聯通率先實行,移動電信全都跟上

      新規落地!手機不用再交月租,聯通率先實行,移動電信全都跟上

      笑熬漿糊111
      2026-05-09 04:47:09
      熱蘇斯:我們確實有奪冠期望和壓力,但心態上比過去兩年成熟

      熱蘇斯:我們確實有奪冠期望和壓力,但心態上比過去兩年成熟

      懂球帝
      2026-05-10 13:45:08
      上官云珠女兒姚姚,活到31歲,校方的悼詞:她是個沒貢獻的人

      上官云珠女兒姚姚,活到31歲,校方的悼詞:她是個沒貢獻的人

      品點歷史
      2026-05-09 08:10:21
      全場破防!袁泉當眾擁抱辛柏青,一個擁抱藏盡同門溫情與心疼

      全場破防!袁泉當眾擁抱辛柏青,一個擁抱藏盡同門溫情與心疼

      一盅情懷
      2026-05-09 12:55:01
      2026-05-10 14:19:00
      AppSo incentive-icons
      AppSo
      讓智能手機更好用的秘密
      6364文章數 26832關注度
      往期回顧 全部

      科技要聞

      DeepSeek融資,改寫所有人的估值

      頭條要聞

      美貿易代表:中國在很大程度上限制大量美商品對華出口

      頭條要聞

      美貿易代表:中國在很大程度上限制大量美商品對華出口

      體育要聞

      詹姆斯生涯第6次0-3困境:今年會被橫掃嗎

      娛樂要聞

      大S女兒玥兒開通賬號,用煙花緬懷母親

      財經要聞

      白酒大逃殺

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態度原創

      健康
      本地
      旅游
      藝術
      親子

      干細胞能讓人“返老還童”嗎

      本地新聞

      用蘇繡的方式,打開江西婺源

      旅游要聞

      京西又開了一座新博物館,展現永定河畔的農耕文化

      藝術要聞

      毛主席83歲時寫給華國鋒的6字真相令人震驚!

      親子要聞

      小叔子比老公小28歲,整天就知道粘著我

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: av高清| 亚洲国产精品日韩av专区| 曰韩高清砖码一二区视频| 精品人妻V| 大伊香蕉精品二区视频在线| 999re5这里只有精品w| 高清欧美性猛交XXXX黑人猛交 | 91n在线观看| 国产乱子伦精品视频| 国产精品一区二区韩国AV | 日韩在线精品视频观看| 国产国语毛片在线看国产| 激情在线一区二区三区视频| 精品无码专区毛片| 国产精品爆乳在线播放| 鲁丝无码一区二区三区| 中文字幕日产av| 亚洲黄色性视频| 国产伊人色噜噜综合网 | 无码人妻丰满熟妇啪啪网不卡 | 色AV专区无码影音先锋| 国产精品极品美女高潮视频播放| 国产亚洲av手机在线观看| 亚洲天堂av一区二区| 国产成人无码精品一区二区三区 | 免费国产99久久久香蕉| 久久久人妻| 91精品国产丝袜在线国语| 巨大黑人极品videos精品| 国产亚洲色欲色一色www| 狠狠五月深爱婷婷网| 成人午夜视频福利| 狼人亚洲国内精品自在线| 四虎影视永久地址www成人| 女人的精水喷出来视频| 爱啪啪精品一区二区三区| 久久精品www人人做人人爽| 国产成人免费高清直播| 中国少妇无码专区| 亚洲国产精品久久久久久无码| 国产乱人无码伦av在线a|