<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      我被羅福莉打臉了

      0
      分享至



      壞了,我寫的文章被羅福莉打臉了,結結實實。

      事情是這樣的,小米發布MiMo-V2-Pro的時候,我曾寫過一篇文章,叫《在大模型這件事上,雷軍居然給馬斯克打樣了》,在該文的最后一部分對小米提出質疑。

      我說“MiMo-V2-Pro只公布了SWE-bench Verified這個公認有水分的評分結果,卻沒有公布SWE-bench Pro這個真正抗污染的測試成績。”

      結果小米在V2.5-Pro的宣傳中,直接把SWE-bench Pro放在了宣傳榜第一的位置,還特地在OpenRouter的模型描述中標注“top rankings on benchmarks such as ClawEval,GDPVal,and SWE-bench Pro”。



      從結果來看,MiMo-V2.5-Pro的成績,已經和Claude Opus 4.6以及GPT-5.4這兩個全球最頂尖的模型相當。

      雖然對于一般人來說,被打臉是一件很難堪的事情,但我不一樣,我覺得這是好事,因此我也樂意被打臉。

      我被打臉,說明小米的模型進步了,性能更好了。

      MiMo-V2-Pro的發布時間是3月下旬,相當于小米只用了1個月的時間,就開發出了下一代的模型。

      至少在態度上,小米已經不再回避更“硬核”的測試集了。

      那么小米這次的新模型V2.5和V2.5-Pro到底如何呢?

      01

      把agent能力當產品中心

      小米這次最值得看的,是把它“Agent能力、長上下文、多模態、token效率、第三方框架適配”打包到了同一代產品里,榜單成績反倒不是重點。

      MiMo的這次新模型發布,整體敘事非常“工程化”,反復都在講harness和Claude Code以及OpenClaw這類開發者工作流語境,基本上除了開頭那張圖以外,就沒怎么再提過模型性能。

      這事本身就非常小米。

      MiMo-V2.5-Pro的重點是“長程agent”,聊天只是附帶功能。它在合適harness下可以持續完成超過1000次工具調用的長任務。

      小米給了三個很復雜的demo。

      第一個是4.3小時、672次工具調用完整寫出SysY編譯器。



      這個任務來自北京大學編譯原理課程項目,要求從零實現一個完整的SysY編譯器,包含詞法分析器、語法分析器、抽象語法樹、Koopa IR代碼生成、RISC-V匯編后端,以及性能優化。

      參考項目通常需要北大計算機專業學生花費數周時間。MiMo-V2.5-Pro在隱藏測試集上拿到了233/233的滿分。

      模型一層一層地構建編譯器,沒有反復試錯。先搭建完整管道,完善Koopa IR部分拿到110/110,然后是RISC-V后端103/103,最后是性能優化20/20。

      第一次編譯就通過了137/233個測試,59% 的冷啟動通過率說明架構在運行任何測試之前就已經設計正確。在第512輪時,一次重構導致lv9/riscv退步了兩個測試,模型診斷出問題,恢復,然后繼續執行任務。

      長程工作需要的正是這種結構化、自我糾錯的能力。

      第二個是11.5小時、1868次工具調用做出可用的視頻編輯器桌面應用。



      只需要幾個簡單的提示,MiMo-V2.5-Pro就交付了一個完整的桌面應用。最終構建的代碼有8192行。

      第三個是接入ngspice仿真閉環做模擬電路FVF-LDO設計優化。



      這是一個研究生級別的模擬電路EDA任務,在TSMC 180nm CMOS工藝下從零設計和優化一個完整的FVF-LDO(翻轉電壓跟隨器低壓差穩壓器)。

      模型需要確定功率晶體管尺寸、調整補償網絡、選擇偏置電壓,使6個指標同時滿足規格要求,包括相位裕度、線性調整率、負載調整率、靜態電流、PSRR和瞬態響應。一個訓練有素的模擬設計師通常需要花幾天時間完成這個規模的項目。

      小米把MiMo-V2.5-Pro接入ngspice仿真循環,使用Claude Code作為harness。

      在大約1小時的閉環迭代中,模型反復調用模擬器、讀取波形、調整參數,最終產生了一個每個目標指標都滿足的設計,其中四個指標比自己的初始嘗試改進了一個數量級。

      上面3個demo有點難看懂是吧?沒關系,其實簡單來講,就是小米想要展示MiMo-V2.5-Pro它能連續干幾小時、調用上千次工具、最后還真地把產品給你做出來。

      重點不是“聰不聰明”,是它“能不能把活干完”。

      在這些實驗中,V2.5-Pro展現出了一種“harness awareness”。它充分利用harness環境提供的能力,管理自己的記憶,并塑造自己的上下文如何被填充以達成最終目標。

      小米還把多模態和agent能力合到一起。原生視覺和音頻理解,Video-MME達87.7分,接近Gemini 3 Pro的88.4分。Claw-Eval多模態子集23.8分,與Claude Sonnet 4.6持平。

      最長支持100萬token上下文,agent性能超過上一代MiMo-V2-Pro。在自家MiMo Coding Bench上,MiMo-V2.5達到接近Pro級體驗,但成本只要一半。

      一般AI廠商,往往是“代碼強的一個模型、多模態強的另一個模型、長上下文再單獨區分一個版本”。

      MiMo-V2.5把“看、聽、推理、調用工具”全都放到一個統一模型里,可以理解更多的需求,也可以執行更復雜的任務,這比單純刷分要有意義。

      MiMo還把“token效率”當成了賣點,說白了,就是省錢。

      在ClawEval上,MiMo-V2.5-Pro以約7萬token/trajectory達到64% Pass^3,相較Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4,在相近能力下少用約40%到60%token。

      為什么能省這么多呢?因為agent的真實成本來自長鏈條工具調用、反復讀寫上下文、持續推理,單輪問答只是小頭。誰在這件事上更省token,誰在生產環境里就更可能被用。

      很多模型雖然宣稱支持超長上下文,但真跑起來很貴。

      小米這次直接取消1M上下文的額外倍率,本質上是在降低Agent試錯門檻。

      小米應該是想要瞄準那些,跑長期、復雜任務的用戶,因為這種任務反而會更省錢,對于一般用戶來說,其實很難感受到MiMo省錢的地方。

      02

      雷軍要“賣算力”了?

      隨著V2.5的發布,小米完善了他們4月3號發布的Token Plan訂閱體系,從Lite ¥39/月到Max ¥659/月一共4檔,新增夜間8折、包年88折等運營商式定價策略,并對老用戶全量重置已用Credits。

      這套打法相當于是告訴你,小米現在是一個正經賣token的公司了。

      MiMo的Token Plan本質上是在構建一個非硬件依賴的經常性收入模型,這點非常“不小米”。

      而且小米特地選在夜間發布,就是為了對準美國的時間,以拓展國際化市場。

      當小米自建算力集群達到一定規模后,每增加一個付費用戶的成本極低,但ARPU(每用戶平均收入)可以通過差異化定價持續提升。

      這是典型的SaaS商業模式,毛利率可以達到70% 以上,比汽車手機家電都要高。

      Token Plan適配Claude Code、OpenClaw等主流AI開發框架,實際上也是在爭奪AI原生應用的底層基礎設施入口。

      更深一層,如果小米汽車、小米IoT設備的第三方應用都基于MiMo開發,雷軍就掌握了整個生態的“算力稅收權”。每一次API調用都是一次變現機會。

      不過,我認為小米Token Plan能否起飛的核心,在于能否兌現V2.5系列的開源承諾。

      小米從手機時代開始,走的就是開源路線。雖然說開源意味著社區開發者可以免費部署和微調模型,表面上會蠶食Token Plan的付費用戶。

      但真正的商業邏輯在于,開源吸引長尾開發者,他們貢獻代碼、優化模型、構建應用,形成生態繁榮。

      閉源API服務高頻高價值場景,企業客戶為了穩定性、SLA保障和技術支持,依然會選擇付費Token Plan。

      開源社區反哺模型迭代,小米可以低成本獲取海量真實場景的微調數據和bug反饋。

      這個邏輯在行業里已經被驗證過。

      Meta的Llama系列開源后,社區貢獻了大量微調版本和應用案例,反過來鞏固了Meta在AI基礎設施層的話語權。小米如果能走通這條路,Token Plan就會成為連接開發者、企業客戶和小米生態的樞紐,訂閱服務只是它的一個側面。

      從產品定位看,MiMo-V2.5和V2.5-Pro形成了明確的分層。

      V2.5是“原生全模態+強agent能力”,適合需要多模態輸入的日常開發任務。V2.5-Pro是“長程agent”,適合需要持續數小時、上千次工具調用的復雜工程任務。這種分層的邏輯是場景適配,性能高低只是表象。

      對小米來說,Token Plan的意義不只是多一條收入來源。它是小米從“硬件公司”到“AI公司”敘事轉型中最重要的一塊拼圖。



      小米過去的商業模式是“硬件+IoT生態”,用性價比硬件獲取用戶,用IoT設備構建生態。這個模式的天花板在于硬件銷量和IoT設備滲透率。

      Token Plan是雷軍的新嘗試。用AI能力獲取開發者,用開發者構建應用生態,用API調用持續變現。這個模式的天花板在于AI能力的強度和生態的活躍度。

      至少比從北京到上海全程直播要更賺錢一些。

      如果MiMo能在開發者社區站穩腳跟,小米就有機會從“賣手機的公司”變成“提供AI基礎設施的公司”。這個轉變的商業價值,遠遠超過Token Plan本身的訂閱收入。

      03

      MiMo-V2.5挑刺

      那么既然小米喜歡打我的臉,那我也樂意再給他們挑挑刺。

      目前SWE-bench Pro最高分是Claude Mythos Preview的77.8%,MiMo-V2.5-Pro在SWE-bench Pro上拿到57.2%,距離這個新巔峰還有些遙遠。

      此外,MiMo-v2.5在通用高階推理天花板的關鍵測試集中表現一般。MiMo-V2.5-Pro在Humanity's Last Exam上是48.0%,而GPT-5.4是58.7%。

      在“高階知識密度+跨學科抽象推理”上,和最頂級模型還有一段距離。

      更重要的是,目前小米還缺乏可復現的硬證據。

      小米自家的MiMo Coding Bench、SysY編譯器233/233、11.5小時做視頻編輯器、模擬電路EDA閉環優化、“harness awareness”,它們都是“高光demo”或“實驗室showcase”,作為“開源”(雖然暫時還沒開源)的模型,它沒有完全可復現、可橫向對比的公開標準。

      這件事其實“不太開源”。

      這是最好的一次,還是平均水平?prompt、工具、權限、上下文注入方式是什么?成功率是多少?成本是多少?換一批任務還穩不穩?

      1868次工具調用、672次工具調用,這些超長鏈路中,有多少次是無效調用、重復調用、錯誤調用?如果這些細節不公開,demo的說服力就會打折。

      “harness awareness”這個說法很抓眼,但不夠有說服力。

      這個詞聽起來很高級,那它到底是模型真的學會了如何管理agent runtime?還是說只是因為這個任務的harness寫得好、任務設計得順,還是評測環境對它比較友好?

      我現在很難判斷。

      小米強調V2.5-Pro具備“harness awareness”,但這也意味著模型高度依賴特定harness(Claude Code、OpenClaw等),小米沒有自己的harness工具。

      如果某天別人平臺策略變了,那么小米能做的事情,只能是重新調整模型去適應別人。

      還有一點也非常重要,那就是小米啥時候才能開源。

      羅福莉曾經說過“MiMo-V2系列模型會在技術足夠穩定、真正配得上開源的時候,開源”。現在2.5都出來了,開源的也只有V2 Flash這一款,其他V系列模型,尤其是V2 Pro,并沒有開放權重。

      “即將開源”和“已經開源”之間還是不太一樣的。

      V2.5系列同樣聲稱“即將全球開源”,但“即將”是一周、一個月還是半年?

      這個問題的答案,決定了Token Plan到底是真正的商業化起點,還只是一次營銷噱頭。

      現在它看起來已經很能打,但離“讓大企業放心上生產”還差一層更硬的工程披露,比如說更完整的公開benchmark表,或者更透明的失敗案例之類的。

      MiMo-V2.5和V2.5-Pro的發布,對小米來說是一次重要的技術證明。

      它證明了小米只需要1個月可以從一個被質疑“回避硬核測試”的狀態,迭代到一個敢于正面公布SWE-bench Pro成績、并且成績接近全球頂尖模型的狀態。

      這個速度本身就說明了小米在AI上的投入強度和團隊執行力。

      Token Plan是一個好的開始,但它能否真正吸引到足夠多的開發者,取決于開源承諾能否兌現、服務穩定性能否保證、以及生態能否真正繁榮起來。

      小米現在站在一個關鍵的十字路口。往前走,它有機會成為一家真正的AI基礎設施公司。往后退,它可能只是又多了一個營銷故事。

      時間會給出答案。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      不飲任它酒價高!與其在轉播權價上較勁,不如我們直接拒看世界杯

      不飲任它酒價高!與其在轉播權價上較勁,不如我們直接拒看世界杯

      英雄稚氣
      2026-05-07 22:48:08
      伊朗海軍扣押一艘違規油輪

      伊朗海軍扣押一艘違規油輪

      國際在線
      2026-05-08 18:44:03
      哈利伯頓:亞歷山大騙犯規的討論被夸大了 本身就是籃球的一部分

      哈利伯頓:亞歷山大騙犯規的討論被夸大了 本身就是籃球的一部分

      北青網-北京青年報
      2026-05-08 20:26:08
      CBA消息!廣東大將開啟康復訓練,楊鳴收到執教邀請,孫銘徽復出

      CBA消息!廣東大將開啟康復訓練,楊鳴收到執教邀請,孫銘徽復出

      中國籃壇快訊
      2026-05-08 20:38:03
      中日關系正在發生改變:日本表面動作不斷,實則開始另眼看中國

      中日關系正在發生改變:日本表面動作不斷,實則開始另眼看中國

      戀人視角
      2026-05-07 21:51:44
      情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

      情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

      新歐洲
      2026-04-21 19:37:05
      記者:首次參加世界杯的球員將穿印有首秀徽章的球衣

      記者:首次參加世界杯的球員將穿印有首秀徽章的球衣

      懂球帝
      2026-05-08 02:45:06
      震驚!員工85天套取2萬住宿費差價,被開除訴至法院,評論區炸鍋

      震驚!員工85天套取2萬住宿費差價,被開除訴至法院,評論區炸鍋

      火山詩話
      2026-05-08 06:18:04
      沈眉莊為什么拍完《甄嬛傳》后,仍是18線演員,鄭曉龍評:自己作

      沈眉莊為什么拍完《甄嬛傳》后,仍是18線演員,鄭曉龍評:自己作

      美芽
      2026-05-07 12:12:22
      不再掛小米車標!小米首款增程SUV將定名尋天:下半年發布

      不再掛小米車標!小米首款增程SUV將定名尋天:下半年發布

      快科技
      2026-05-07 11:48:06
      小寶與王某雷,誰探訪花的數量更多?

      小寶與王某雷,誰探訪花的數量更多?

      挪威森林
      2026-01-31 12:15:26
      一粒減肥神藥掀翻7個行業!百事麥當勞股價大跌,保險養老竟也被迫重大調整

      一粒減肥神藥掀翻7個行業!百事麥當勞股價大跌,保險養老竟也被迫重大調整

      爆角追蹤
      2026-05-05 20:01:26
      PJ·塔克個人社媒宣布退役 結束14年NBA生涯

      PJ·塔克個人社媒宣布退役 結束14年NBA生涯

      北青網-北京青年報
      2026-05-08 20:22:12
      妻子出差3年回來,我帶她去體檢,醫生告訴我:你妻子剛墮過胎

      妻子出差3年回來,我帶她去體檢,醫生告訴我:你妻子剛墮過胎

      千秋文化
      2026-05-06 20:09:54
      外媒:美民主黨議員呼吁政府勿對以核武計劃保持沉默

      外媒:美民主黨議員呼吁政府勿對以核武計劃保持沉默

      參考消息
      2026-05-08 15:25:06
      老板娘問我她屁股大不大?我該怎么回答?

      老板娘問我她屁股大不大?我該怎么回答?

      太急張三瘋
      2026-05-08 14:35:08
      坐高鐵01C座被過往乘客腿腳、行李箱磕碰,“8小時被踢了10次”!網友:很憋屈很無語!12306回應

      坐高鐵01C座被過往乘客腿腳、行李箱磕碰,“8小時被踢了10次”!網友:很憋屈很無語!12306回應

      揚子晚報
      2026-05-08 20:44:19
      Apple Watch加入教育優惠范圍 學生與教職工可享優惠

      Apple Watch加入教育優惠范圍 學生與教職工可享優惠

      CNMO科技
      2026-05-08 09:25:56
      破大防!荷蘭大臣曾向全世界承認:沒想到中方真的叫停芯片出口

      破大防!荷蘭大臣曾向全世界承認:沒想到中方真的叫停芯片出口

      混沌錄
      2026-05-08 22:50:08
      美股三大指數集體高開 存儲概念股上漲

      美股三大指數集體高開 存儲概念股上漲

      證券時報
      2026-05-08 21:52:06
      2026-05-09 01:27:00
      字母榜 incentive-icons
      字母榜
      讓未來不止于大。
      2443文章數 8062關注度
      往期回顧 全部

      數碼要聞

      聯力推出DK-07木紋版升降電腦桌:整合PC支架 可安裝雙E-ATX系統

      頭條要聞

      外籍銀行高層在香港豪宅性虐及殺害兩女子 內幕解密

      頭條要聞

      外籍銀行高層在香港豪宅性虐及殺害兩女子 內幕解密

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經要聞

      估值3000億 DeepSeek尋求500億元融資

      科技要聞

      SK海力士平均獎金600萬 工服成相親神器

      汽車要聞

      MG 4X實車亮相 將于5月11日開啟盲訂

      態度原創

      時尚
      藝術
      家居
      數碼
      公開課

      衣服其實沒有必要買很貴,準備這三件基礎款,百搭實用又不挑人

      藝術要聞

      驚艷私房攝影:感受真情與絕美畫面!

      家居要聞

      流動的尺度 打破家的形式主義

      數碼要聞

      華碩京東重磅新品日,華碩天選7系列游戲本開啟預約

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲天堂男人天堂女人天堂| 93乱子伦国产乱子伦海的味道| 成人午夜福利视频| av无码免费在线观看| 精品免费一区二区在线| 国产真人无码作爱视频免费| 欧美人与动人物牲交免费观看| 91福利社| 狠狠婷婷一本久久| 国产精品三级在线不卡| 国产在线不卡精品网站| 6699无码精品| 男人的天堂av一二区| 日韩无码乱了www亚洲无码视频| 99欧美日本一区二区留学生| 亚洲aⅴ电影| 国产又色又刺激高潮视频| 亚洲一级毛片免费观看| 国产AV无码专区亚洲AV潘金链| 人妻综合网| 精品人伦一二三区| 无码天堂亚洲国产av麻豆| 久久久国产精品免费无卡顿| 毛片A级成人片| 中文字幕热久久久久久久| 能看的网站中文字幕不卡av| 国产欧美va天堂在线观看视频| 熟女荡漾在线| 人妻一区二区三区| 欧美人禽交zozozo视频| 亚洲国产一区在线观看| 日本精品中文字幕在线观看| 久久精品免视看国产盗摄| 国产成人福利av一区二区三区| 国产91丝袜| 国语自产精品视频在线第100页| 国产成人a人亚洲精v品无码| 日韩精品一区二区三区中文| 免费观看四虎精品国产地址| 挺进邻居丰满少妇的身体| 91导航|