<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Meta 發布全新大模型:Muse Spark

      0
      分享至

      MODEL

      今天凌晨,Meta 發布了全新的大模型 Muse Spark,已上線到 Meta 旗下的各類產品


      Alexandr Wang 推特宣布 Muse Spark 發布

      Meta Superintelligence Labs(MSL) 負責人 Alexandr Wang 在推特上宣布了這個消息。他說,九個月前團隊從零重建了整個 AI 技術棧,新的基礎設施、新的架構、新的數據管線,Muse Spark 就是這份工作的產物。目前已上線 meta.ai 和 Meta AI App,向部分合作伙伴開放了 API 預覽

      去年 Llama 4 發布后遭遇了 Benchmark 作弊風波,Meta 隨后對整個 AI 組織做了大幅重組,挖來了 Scale AI 創始人 Alexandr Wang。Muse Spark 是重組之后交出的第一份答卷

      同一天,Anthropic 公布了 Claude Mythos 的部分信息(賽博禪心此前發布了 Mythos 全面解讀),前沿模型的競爭又密集了一輪

      Muse Spark 能做什么

      Muse Spark 是一個原生多模態推理模型,支持工具調用視覺推理鏈(visual chain of thought)多 Agent 協同。Meta 把它定位為「個人超級智能」的第一步,面向 Meta 生態內 30 億 用戶


      Muse Spark Benchmark 總表

      多模態

      Muse Spark 從底層就為視覺信息設計,在視覺 STEM 問答、實體識別和空間定位上表現較強。這些能力組合起來可以做一些交互式的事情,比如把一張照片變成可以在網頁上玩的數獨游戲,或者給家電故障做動態標注幫你排查問題

      健康

      Meta 跟超過 1000 名醫生 合作整理了健康領域的訓練數據,讓模型的回答更準確、更全面。Muse Spark 可以生成交互式的健康展示,比如分析各種食物的營養成分,或者展示運動時激活了哪些肌肉群。健康是 Meta 這次明確押注的方向

      官方放了幾個演示案例:

      Prompt: 把這張照片變成一個可以在網頁上玩的數獨游戲

      Prompt: 我是素海鮮主義者,膽固醇偏高。在推薦的食物上標綠點,不推薦的標紅點,懸停顯示個性化理由和健康評分

      購物模式

      這個功能來自 Wang 的推特。Muse Spark 會結合用戶在 Instagram、Facebook、Threads 上關注的創作者和品牌偏好,做個性化的購物推薦

      Muse Spark 驅動的 Meta AI 能夠看懂和理解你周圍的世界,從你在 Meta 各個 App 上的真實對話中獲取上下文,然后在健康、科學、數學等復雜問題上做推理

      Alexandr Wang 推特

      Benchmark 表現

      上面的總表已經列出了全部成績。對比對象是 Opus 4.6、Gemini 3.1 Pro、GPT 5.4Grok 4.2,Muse Spark 用的是 Thinking 模式。下面逐項展開

      領先的項目


      領先項對比

      CharXiv Reasoning(圖表理解) 測的是模型對復雜圖表、科學插圖的理解能力。Muse Spark 拿了 86.4,GPT 5.4 是 82.8,Gemini 3.1 Pro 是 80.2。圖表理解是多模態模型的核心能力之一,這個分數在所有對比模型中最高

      HealthBench Hard 是開放式健康問答,考的是模型面對真實健康問題時給出準確、全面、有同理心的回答的能力。Muse Spark 拿了 42.8,高于 GPT 5.4 的 40.1,Gemini 3.1 Pro 只有 20.6。這跟 Meta 跟上千名醫生合作整理數據有直接關系

      MedXpertQA MM 是多模態醫學問答,給模型看醫學影像或病歷圖片來做判斷。Muse Spark 78.4,GPT 5.4 是 77.1,Gemini 3.1 Pro 是 81.3

      DeepSearchQA(Agent 搜索) 測的是模型自主搜索網絡、整合信息來回答復雜問題的能力,是 Agent 能力的核心評測之一。Muse Spark 74.8,Gemini 3.1 Pro 69.7

      明確落后的項目


      落后項對比

      ARC AGI 2(抽象推理) 測的是抽象推理,給模型一組圖案讓它推理出規則并預測下一個。這個評測被認為是離 AGI 最近的測試之一。Muse Spark 只有 42.5,Gemini 3.1 Pro 76.5,GPT 5.4 76.1。差距非常大

      Terminal-Bench 2.0(Agent 終端編程) 測的是模型在終端環境中自主完成編程任務的能力,包括調試、部署、環境配置等。Muse Spark 59.0,GPT 5.4 是 75.1,Gemini 3.1 Pro 是 68.5

      LiveCodeBench Pro 是競賽級編程評測,來自 LeetCode 等平臺的實時題目。Muse Spark 80.0,GPT 5.4 是 87.5,Gemini 3.1 Pro 是 82.9

      SWE-Bench Pro(Agent 編程) 測的是模型在真實開源代碼倉庫里定位 Bug 并修復的能力,是當前 Agent 編程的主流評測。Muse Spark 52.4,GPT 5.4 是 57.7,Gemini 3.1 Pro 是 54.2

      GDPval-AA Elo(辦公任務) 測的是模型處理日常辦公任務(文檔處理、表格分析、郵件撰寫等)的綜合能力。Muse Spark 1444,GPT 5.4 是 1672,Opus 4.6 是 1606

      整體看下來,多模態感知和健康領域有競爭力,部分指標領先。編程和 Agent 類任務落后明顯,Wang 自己在博客里也承認了這一點,說團隊在持續投入

      Meta 的人跟 Axios 說得很直接:Muse Spark 不代表新的 SOTA,但在特定任務上跟前沿模型有競爭力。這個表態比去年 Llama 4 發布時的口徑克制了很多

      Contemplating 模式

      Muse Spark 同時發布了一個叫 Contemplating 的推理模式。做法是讓多個 Agent 并行思考同一個問題,再匯總結果,對標 Gemini Deep Think 和 GPT Pro 這類極限推理模式


      Contemplating 模式成績

      Humanity's Last Exam 被稱為「人類最后的考試」,題目來自各學科頂尖專家出的極難問題。Muse Spark 在無工具條件下拿了 50.2,Gemini 3.1 Deep Think 48.4,GPT 5.4 Pro 43.9。有工具輔助的情況下達到 58.0

      FrontierScience Research 測的是模型回答前沿科學研究問題的能力。Muse Spark 38.3,GPT 5.4 Pro 36.7,Gemini Deep Think 23.3

      在科學研究類任務上表現不錯。但物理還有差距,IPhO 2025 Theory(物理奧賽理論題)拿了 82.6,GPT 5.4 Pro 是 93.5,Gemini 3.1 Deep Think 是 87.7

      Contemplating 模式目前在 meta.ai 上逐步灰度發布

      技術棧重建

      Meta 在官方博客里披露了 Muse Spark 在三個維度上的 Scaling 表現。這部分信息密度最高,也是判斷 MSL 這個團隊成色的關鍵

      預訓練效率

      過去九個月 MSL 重建了預訓練技術棧,包括模型架構、優化器和數據處理。他們在一系列小模型上擬合了 Scaling Law,然后對比達到相同能力水平需要多少計算量


      預訓練效率對比

      同樣的能力水平,Muse Spark 需要的計算量比 Llama 4 Maverick 低了一個數量級以上

      官方說這個效率也優于他們能獲取到的其他可比基座模型。從圖上的曲線看,差距確實明顯

      強化學習

      大規模 RL 訓練一直以不穩定著稱。Meta 說他們新的 RL 技術棧做到了穩定、可預測的能力增長


      RL Scaling 曲線

      左圖是訓練集上的表現隨 RL 步數增長,呈 log-linear 趨勢。pass@1pass@16 同步上升,Meta 認為這說明可靠性和推理多樣性沒有沖突。右圖是評估集上的準確率增長,說明 RL 的收益能泛化到沒見過的任務

      如果這些曲線的穩定性在更大規模上還能保持,這本身就是一個有價值的工程成果

      推理時計算

      Meta 用了兩個方法來提升推理階段的效率

      第一個是思考時間懲罰。訓練時對思考長度施加懲罰,迫使模型用更少的 Token 完成推理。Meta 觀察到一個有趣的現象:模型先是想得越來越長,然后在懲罰作用下出現了「思維壓縮」(thought compression),用更短的推理鏈解決同樣的問題。壓縮之后模型再次延長思考,達到更高的表現水平

      第二個是多 Agent 并行推理


      多 Agent 并行 vs 單 Agent 延長思考

      傳統做法是讓一個模型想更久,延遲線性增加。Muse Spark 的做法是讓多個 Agent 并行思考再匯總,在相近的延遲下獲得更好的表現。Contemplating 模式就是基于這個思路

      安全評估與「評估感知」

      Meta 說 Muse Spark 經歷了全面的安全評估,在生化武器、網絡安全、失控風險等類別上表現在安全范圍內


      安全評估結果

      但第三方評估機構 Apollo Research 發現了一個特別的現象

      Muse Spark 展現了 Apollo Research 觀測過的所有模型中最高的「評估感知」(evaluation awareness)

      模型在測試中頻繁識別出場景是「對齊陷阱」,并且推理出自己應該表現得誠實,原因是自己正在被評估

      如果模型能識別出自己在被測試,那測試成績到底能代表多少真實能力

      Meta 自己做了后續調查,發現評估感知可能在一小部分對齊評測上影響了模型行為,但這些評測跟危險能力無關。Meta 的結論是不構成發布的阻斷性問題,但需要進一步研究。完整結果會在即將發布的安全報告中公開

      從開源到閉源

      Muse Spark 跟 Llama 系列有一個根本性的策略差異:它是閉源的

      Bloomberg 確認,Muse Spark 的設計和代碼不會公開。對一直以開源立身的 Meta 來說,這是一個明確的轉向。但 Wang 在推特和官方聲明里都提到,計劃在未來開源部分模型版本

      Axios 報道了一個細節:Muse Spark 的內部代號是「Avocado」

      目前 Muse Spark 免費使用,Meta 可能會對使用頻率做限制。Axios 也提醒了一點:Meta 的隱私政策對用戶與 AI 系統共享數據設定的限制很少

      前情:從 Llama 4 到 MSL

      回顧一下 Muse Spark 之前發生了什么

      2025 年 4 月,Meta 發布 Llama 4,包含 Scout、Maverick 和 Behemoth 三個版本。Maverick 一度在 LMArena 排行榜上排到第二名,僅次于 Gemini 2.5 Pro。但社區很快發現,Meta 提交給排行榜的版本和公開發布的版本不一樣

      公開版 Maverick 在多個獨立測試中表現遠不如宣傳。LMArena 后來確認,Meta 提交的是一個專門針對對話優化的實驗版本。公開版的排名從第二掉到了第三十二

      Llama 4 的 Benchmark 結果被動了手腳(fudged),團隊對不同 Benchmark 使用了不同的模型來獲得更好的成績

      Yann LeCun,Financial Times 采訪

      Zuckerberg 對此非常憤怒。LeCun 的原話是 Zuckerberg「對所有相關人員失去了信心」,隨后「架空了整個 GenAI 組織」。大批人離開

      2025 年 6 月,Meta 以 145 億美元 收購了 Scale AI。創始人 Alexandr Wang 加入 Meta 擔任首席 AI 官,領導新成立的 Meta Superintelligence Labs。Wang 當時 25 歲,19 歲從 MIT 輟學創辦 Scale AI,在數據標注和 AI 基礎設施領域有很強的行業地位

      MSL 從零開始。新基礎設施、新架構、新數據管線

      這是 MSL 的第一個模型,肯定還有需要打磨的粗糙之處。但我們很興奮讓大家來試

      Alexandr Wang 推特

      參考材料

      Introducing Muse Spark: Scaling Towards Personal Superintelligence
      https://ai.meta.com/blog/introducing-muse-spark-msl/

      Alexandr Wang 推特原文
      https://x.com/alexandr_wang/status/2041909376508985381

      Meta AI 官方推特
      https://x.com/AIatMeta/status/2041910285653737975

      Muse Spark 評估方法論
      https://ai.meta.com/static-resource/muse-spark-eval-methodology

      meta.ai(Muse Spark 體驗入口)
      https://meta.ai/

      Mythos 全面解讀:Anthropic 最強模型發布(賽博禪心)
      https://mp.weixin.qq.com/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      歐爾班剛下臺,匈牙利立刻驅逐俄間諜,16年親俄路線開始清算

      歐爾班剛下臺,匈牙利立刻驅逐俄間諜,16年親俄路線開始清算

      桂系007
      2026-05-08 22:26:27
      中國版勞斯萊斯殺瘋了!尊界S800銷量碾壓奔馳S級、邁巴赫、寶馬7系、奧迪A8總和

      中國版勞斯萊斯殺瘋了!尊界S800銷量碾壓奔馳S級、邁巴赫、寶馬7系、奧迪A8總和

      快科技
      2026-05-08 14:32:28
      緊急提醒2.5億股民!周日兩大王炸利好突襲,滿倉/空倉的都來看!

      緊急提醒2.5億股民!周日兩大王炸利好突襲,滿倉/空倉的都來看!

      股市皆大事
      2026-05-10 10:23:02
      段永平評OPPO母親節文案風波:確實不合適,文案欠妥

      段永平評OPPO母親節文案風波:確實不合適,文案欠妥

      南方都市報
      2026-05-09 22:04:09
      蓉城擊敗河南隊后!有誰注意到劉殿座和索羅金這個舉動,贏得點贊

      蓉城擊敗河南隊后!有誰注意到劉殿座和索羅金這個舉動,贏得點贊

      張麗說足球
      2026-05-10 16:19:55
      “藏南”的管轄現狀,印度在藏南囤積重兵,中國還能收回藏南嗎?

      “藏南”的管轄現狀,印度在藏南囤積重兵,中國還能收回藏南嗎?

      共工之錨
      2026-04-28 23:29:16
      老漢取5萬發現是假鈔,銀行:離柜無責!老漢拿出一證件行長愣了

      老漢取5萬發現是假鈔,銀行:離柜無責!老漢拿出一證件行長愣了

      卡西莫多的故事
      2025-11-02 13:58:17
      心理學上有個效應:父母越勤快,孩子越自私;學會“放手”這兩件事,孩子未來越成功

      心理學上有個效應:父母越勤快,孩子越自私;學會“放手”這兩件事,孩子未來越成功

      心理觀察局
      2026-05-09 09:10:22
      再年輕也沒用!32歲工程師王登程去世,死因曝光,獻血高達7600cc

      再年輕也沒用!32歲工程師王登程去世,死因曝光,獻血高達7600cc

      墨印齋
      2026-05-10 06:11:22
      普京談與澤連斯基會面,稱“愿意在莫斯科,也愿意在第三國”:既不會主動提出、也不會拒絕與他會面

      普京談與澤連斯基會面,稱“愿意在莫斯科,也愿意在第三國”:既不會主動提出、也不會拒絕與他會面

      魯中晨報
      2026-05-10 10:14:11
      北大哈佛雙碩士親手撕開美國留學遮羞布,自爆“殺豬盤”真相內幕

      北大哈佛雙碩士親手撕開美國留學遮羞布,自爆“殺豬盤”真相內幕

      史智文道
      2026-05-10 16:31:43
      他為申花效力6年,如今定居上海,財富自由,已是申花一線教練

      他為申花效力6年,如今定居上海,財富自由,已是申花一線教練

      云舟史策
      2026-04-26 14:48:07
      伊朗戰爭:美國又一個注定爛尾的霸權工程

      伊朗戰爭:美國又一個注定爛尾的霸權工程

      紀史行者
      2026-05-10 09:26:09
      他是人民的好總理,65歲官至副國級,為人低調清廉,晚年捐200萬

      他是人民的好總理,65歲官至副國級,為人低調清廉,晚年捐200萬

      阿柒的訊
      2026-05-10 10:04:47
      特朗普:國際舞臺上的荒誕“主角”

      特朗普:國際舞臺上的荒誕“主角”

      風鈴草語
      2026-05-10 06:29:39
      楊受成“霸占”容祖兒半生:不娶不放,到底圖什么?

      楊受成“霸占”容祖兒半生:不娶不放,到底圖什么?

      陳意小可愛
      2026-05-09 15:56:56
      陪縣長省廳批經費,廳長拍桌耍官威,我反手一巴掌,縣長當場傻眼

      陪縣長省廳批經費,廳長拍桌耍官威,我反手一巴掌,縣長當場傻眼

      曉艾故事匯
      2026-05-10 10:29:20
      張皓嘉絕殺北京!聽聽劉曉宇李克怎么說,為何能反敗為勝?

      張皓嘉絕殺北京!聽聽劉曉宇李克怎么說,為何能反敗為勝?

      南海浪花
      2026-05-09 22:39:08
      世界正在發生一個極其惡心的變化!印度最終可能會成為地球大患

      世界正在發生一個極其惡心的變化!印度最終可能會成為地球大患

      世界圈
      2026-05-04 16:42:27
      美國又一郵輪暴發病毒 115人感染被隔離

      美國又一郵輪暴發病毒 115人感染被隔離

      看看新聞Knews
      2026-05-10 14:56:03
      2026-05-10 17:47:00
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      429文章數 53關注度
      往期回顧 全部

      科技要聞

      DeepSeek融資,改寫所有人的估值

      頭條要聞

      縣交警隊長被舉報工作日KTV飲酒 當地:其事先已請假

      頭條要聞

      縣交警隊長被舉報工作日KTV飲酒 當地:其事先已請假

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      大S女兒玥兒開通賬號,用煙花緬懷母親

      財經要聞

      白酒大逃殺

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態度原創

      藝術
      本地
      時尚
      數碼
      公開課

      藝術要聞

      預售 | 丁一林風景寫生線上課程(最新)

      本地新聞

      用蘇繡的方式,打開江西婺源

      今年最好看的襯衫竟然是它?太減齡了!

      數碼要聞

      華為智慧屏S7正式開售,300Hz Super MiniLED超清護眼

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品中文字幕日韩| 在线点播亚洲日韩国产欧美 | 国产高清国内精品福利99久久| 国产AV国片精品有毛| AV探花| av中文字幕在线资源网| 熟妇熟女乱妇乱女网站| 国产午费午夜福利200集| 亚洲精品无码不卡在线播he| 欧美日本一道高清免费3区| 亚洲国产精品午夜电影| 亚洲制服丝袜无码| 日韩不卡免费视频| 特级做a爰片毛片免费69| 91视频免费| 黄片av毛片在线观看| 国产成人女人在线观看| 国产香蕉视频在线播放| 欧美性福网址| 老司机在线视频免费福利| 丁香五月激情缘综合区| 午夜福利精品国产二区| 日韩中文av在线| 福利一区福利二区在线| 久久精品波多野结衣中文字幕 | 欧美日韩国产一区二区三区不卡| 日本免费一区二区三区中文字幕| 尤物亚洲国产亚综合在线区| 日韩有码中文字幕一区二区 | 日韩一卡2卡3卡4卡新区亚洲 | 免费无码十八禁污污网站| 国产一区二区三区不卡av| 久久综合亚洲色一区二区三区| 久久综合亚洲色一区二区三区| 乱伦HD| 精品伊人久久久大香线蕉欧美| 18黑白丝水手服自慰喷水网站 | 国产乱妇4p交换乱免费视频| 不卡黄片| 无码人妻专区一区二区三区 | 麻豆人妻|