網易首頁 > 網易號 > 正文申請入駐

大模型越做越大，面壁智能反手做了個小100倍還能看圖的

2026-05-13 12:04:54　來源: 卡爾的AI沃茨

北京舉報

分享至

面壁好軸啊，

大家做模型都在比誰更大。

參數更大，上下文窗口更大，反正什么都往天花板往上頂，

問題是，Agent如果真的要進入現實世界，它還得變成一種更像水電煤的東西。

便宜，穩定，到處能跑。

說實話，要是沒有Coding Plan和五小時額度刷新，10塊百萬token我都嫌貴。

畢竟，如果像Hermes或者OpenClaw這種重型開發任務只能跑一兩個對話，如果是多個Skill混合使用的話，也只能跑20-50個回合。

所以我看到面壁這次發MiniCPM-V4.6的時候，第一反應其實是又撈著了。

1.3B，

能看圖，

還能跑得很快，

huggingface.co/openbmb/MiniCPM-V-4.6

隔壁隨便找一個都是500B往上甚至1T的。

面壁的MiniCPM-V一直是一個很有代表性的端側模型系列。從2024年4月發布以來，

它打的就不是巨無霸路線，而是小尺寸，高效率，端側可用。

這次V4.6小到什么程度呢，你可以把它理解成一個能理解圖文，還能被消費級顯卡隨便拿去再訓練成適用于各種垂直限時任務的腳手架模型。

在公開評測里，MiniCPM-V 4.6的多模態綜合能力超過了Qwen3.5-0.8B和Gemma4-E2B-it。

在AA評測里的token消耗非常低，1.3B非推理版本運行只消耗5.4Mtoken，只有Qwen3.5-0.8B非推理版101M的1/19，也只有Qwen3.5-0.8B推理版本233M的1/43。

如果只是跑一次demo，

模型慢點貴點都還能忍。

但真實業務里延遲就是體驗，吞吐就是成本，

顯存就是預算，功耗就是影響落地。

手機不會因為模型很聰明就多出一塊GPU。

一個線上系統也不會因為你榜單分數好看，就允許每個請求都燒掉一大把算力。

所以MiniCPM-V 4.6要講的不是，端側模型也能做多模態。

而是大模型多模態能力終于開始變得更像一個可以四通八達到處有用的熱插拔基礎組件了。

說到這里，干脆來看看它背后的技術創新吧。

技術文檔我打包好了也，回復面壁就好

多模態模型看圖，最麻煩的一步是它要先把圖片拆成一堆視覺token。

圖片越大，越清楚，里面的信息越多，視覺token就越多。

視覺token一多，后面的成本就上去了。

你可以把它想成搬家。

如果一開始把所有東西都原封不動搬上車，后面再說我要節省空間就沒啥空隙了，

很多多模態模型的做法，就是在ViT（Vision Transformer 視覺模型）之后再壓縮token。

這樣確實可以減輕后面語言模型的負擔，但前面的視覺編碼器已經吃過一遍大圖的計算開銷了。

MiniCPM-V 4.6背后的LLaVA-UHD v4優化的點，是把視覺token壓縮提前到ViT內部。

更早壓，更省空間。

讓后面大部分ViT層一開始就少處理很多token。視覺編碼階段的FLOPs（浮點運算次數）降低55.8%。

當然，做起來沒那么容易。

因為不能粗暴地把視覺token砍掉，砍猛了，圖像表征就壞了，模型可能省了算力，但也看不清了。

LLaVA-UHD v4里面用了早期ViT內壓縮模塊，配合窗口注意力，讓鄰近token先做上下文交互，再通過復用相鄰預訓練ViT層參數，盡量減少對原有視覺表征的擾動。

翻譯成人話就是，它不是一口氣把所有部分都壓縮。

它是在盡量不傷筋動骨的情況下，把最費算力的部分提前瘦掉。

這就是MiniCPM-V 4.6能又小又快的關鍵之一。

順著這個再聊，就到了另一個很重要的點，4倍和16倍混合視覺token壓縮。

我覺得這個點挺適合拿普通相機來理解。

4倍壓縮更像高清模式，保留更多細節，適合追求識別精度的時候用。

16倍壓縮更像高速省電模式，畫面信息壓得更狠，但推理速度會更快，成本也更低。

過去很多模型的技術路線是二選一，要么偏精度，要么偏速度。

到了MiniCPM-V 4.6，

它開始把兩種壓縮率混在一起用，能切換兩類完全不同的場景。

MiniCPM-V 4.6已經可以在手機上用了

一類是端側，

手機，電腦，車機，智能家具，這些設備對算力功耗很敏感，我不指望它們像云端機房一樣隨便燒。

另一類是云端高并發。

很多業務不是一個人問模型一次，而是幾萬個請求同時涌進來。

每個請求還要求對很多候選結果做理解，打分，召回，排序。

MiniCPM-V 4.6要解決的是兩個問題。

普通設備上怎么運行AI，

以及高并發怎么省錢。

隔壁快手OneRec推薦大模型在處理視頻輸入里的字幕，標簽，ASR（語音識別），OCR（字符識別），封面圖這些多模態表征時，就用到了MiniCPM-V-8B，OneRec承接了短視頻推薦主場景25%的請求。

在這種地方，模型不能像GPT 5.5一樣想個5分鐘，然后憋一句穩穩接住你。

它只需要提供一點點更好的信號。

比如這個封面圖到底是什么內容。

這段視頻更像美食教程還是探店吐槽。

這個字幕里有沒有關鍵品牌名。

這個用戶當下更可能想看什么。

單看每一次判斷，好像都不復雜。

但它會被放大到幾千萬，幾億次請求里。

所以這種模型要的不是單次表演有多好。

它要的是夠快，夠輕，夠穩，夠便宜。

光是能讓整體系統效果往上抬一點點，

它就已經很值錢了。

這也是我這三年越來越強烈的一個感受。

很多人聊AI，還是喜歡盯著最強模型。

誰超過了GPT，誰逼近了Claude，

這些當然重要。

但真正能讓AI滲入現實世界的，

往往不是一兩個最強大腦，而是一堆穩定不需要煩惱token數的端側模型。

它們不一定會都被用戶看見。

但它們會讓一個系統變得更聰明一點，更快一點，更省錢一點。

這就是小模型最容易被低估的地方。

這次面壁還做整套從微調到部署的工具鏈。

微調端支持ms-swift和LLaMA-Factory，部署端適配vLLM、SGLang、llama.cpp、Ollama。

甚至消費級顯卡，RTX4090，也可以跑通微調流程。

小尺寸模型的生命力，本來就在于被改造。

我們不需要把MiniCPM-V 4.6當成一個萬能助手。

它更適合去做一個垂直文檔解析模型，一個OCR整理模型，一個本地相冊理解模型，一個攝像頭畫面異常識別模塊。

它在這些場景里，不需要什么都會。

它只要把一件事做得夠穩快便宜就好了。

從這個角度看，

MiniCPM-V 4.6最值得看的地方，

確實不是它又刷了哪個榜。

而是它把多模態往基礎設施的方向，

又推進了一小步。

@ 作者 / 卡爾

最后，感謝你看到這里如果喜歡這篇文章，不妨順手給我們點贊｜在看｜轉發｜評論

如果想要第一時間收到推送，不妨給我個星標

如果你有更有趣的玩法，歡迎在評論區聊聊

更多的內容正在不斷填坑中……

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

北舞運動會開幕式跳李小冉心愿便利貼，李小冉：連母校都沒放過我

露珠聊影視

2026-05-15 18:27:03

定了！央視宣布拿下兩屆世界杯版權

界面新聞

2026-05-15 18:36:59

馬斯克轉發與雷軍合影內容，小兒子帶火了虎頭包和中式馬甲

超角度

2026-05-15 10:55:16

大量上市！夏天里的“腎黃金”，生吃補脾腎，熟吃健脾還養骨骼！

今日養生之道

2026-05-15 14:50:29

特朗普剛走，中國就開門迎接下個客人，首次掏出壓箱底的殺手锏？

南宗歷史

2026-05-16 02:19:03

連裝都懶得裝了？漏洞這么多

走讀新生

2026-04-22 13:46:02

男人搞定50歲女人最好方法，喂飽了她兩個需求，她就會主動依你

心理觀察局

2026-05-04 08:20:08

樊振東拒絕回歸原因曝光！王勵勤不是沒面子，而是小胖太想休息了

寶哥精彩賽事

2026-05-15 00:54:29

妻子出軌后，對方妻子主動聯系我，提議搭伙過日子每月給我五萬塊

千秋文化

2026-05-05 20:25:29

西方突然發現，中國人對世界大戰的理解與他們不一樣

明天見灌裝冰塊

2026-05-15 03:16:47

“窮養女真可憐”，買10分鐘商務坐拍了9分鐘，鞋子讓人無語

蝴蝶花雨話教育

2026-04-10 12:52:50

二十年Linux輪回：我為何逃回Windows

摸魚算法

2026-05-16 00:56:28

全球最毒的十大垃圾食品榜單，泡面未上榜，“真兇”很多人喜歡吃

小談食刻美食

2026-05-14 08:01:03

CBA最新消息！廣東隊拒絕買斷王少杰，北控男籃要價逼退朱芳雨！

緋雨兒

2026-05-15 08:28:40

文班亞馬微笑警告愛德華茲：別碰我

快樂加載中21

2026-05-16 02:03:56

成吉思汗為何要橫掃亞歐大陸？專家：原因很簡單，只為追殺一個人

飛云如水

2024-07-07 11:30:04

美聯儲換"狠人"上臺：沃什正式接棒，開場白竟是"可能加息"！

狠人搞錢

2026-05-15 08:02:57

明明都知道，為什么就是動不了

時光慢郵啊

2026-05-14 10:30:15

心梗 “源頭” 已發現？肥豬肉排第 5，第 1 名大家可能天天都在吃

寶哥精彩賽事

2026-05-15 17:42:43

5月14日，中國大國地位真正確立的分水嶺。

娛樂的宅急便

2026-05-15 17:44:13

卡爾的AI沃茨

前大廠算法工程師，3家科技公司技術總監｜致力打造最系統的Al學習體系，讓1萬人通過Al提高生產力

263文章數 134關注度

往期回顧全部

科技要聞

直降千元起步！蘋果華為率先開啟618讓利

頭條要聞

黃仁勛在北京喝豆汁痛苦皺眉問“這是什么東西”

頭條要聞

黃仁勛在北京喝豆汁痛苦皺眉問“這是什么東西”

體育要聞

德約科維奇買的球隊，從第6級聯賽升入法甲

娛樂要聞

方媛為何要來《桃花塢6》沒苦硬吃？

財經要聞

騰訊掉隊，馬化騰戳破真相

汽車要聞

高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

親子

時尚

手機

軍事航空

手機 / 數碼

房產 / 家居

大模型越做越大，面壁智能反手做了個小100倍還能看圖的

直降千元起步！蘋果華為率先開啟618讓利

黃仁勛在北京喝豆汁痛苦皺眉 問“這是什么東西”

黃仁勛在北京喝豆汁痛苦皺眉 問“這是什么東西”

德約科維奇買的球隊，從第6級聯賽升入法甲

方媛為何要來《桃花塢6》沒苦硬吃？

騰訊掉隊，馬化騰戳破真相

高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

態度原創

兒子不讓用水刷鞋，無知家長被嘲：非要孩子考不上大學，你才高興

孕婦補鈣怕刺激怎么選？液體鈣無添加配方實測，藍帽認證更靠譜

頂級團隊拍出來的作品不如素人，問題出在哪兒了？

iPhone 17系列全系跳水，最高立減2500！

烏克蘭首都基輔遭空襲 死亡人數增至12人

黃仁勛在北京喝豆汁痛苦皺眉問“這是什么東西”

黃仁勛在北京喝豆汁痛苦皺眉問“這是什么東西”

烏克蘭首都基輔遭空襲死亡人數增至12人