面壁好軸啊,
大家做模型都在比誰更大。
參數更大,上下文窗口更大,反正什么都往天花板往上頂,
問題是,Agent如果真的要進入現實世界,它還得變成一種更像水電煤的東西。
便宜,穩定,到處能跑。
說實話,要是沒有Coding Plan和五小時額度刷新,10塊百萬token我都嫌貴。
畢竟,如果像Hermes或者OpenClaw這種重型開發任務只能跑一兩個對話,如果是多個Skill混合使用的話,也只能跑20-50個回合。
所以我看到面壁這次發MiniCPM-V4.6的時候,第一反應其實是又撈著了。
1.3B,
能看圖,
還能跑得很快,
![]()
huggingface.co/openbmb/MiniCPM-V-4.6
隔壁隨便找一個都是500B往上甚至1T的。
面壁的MiniCPM-V一直是一個很有代表性的端側模型系列。從2024年4月發布以來,
它打的就不是巨無霸路線,而是小尺寸,高效率,端側可用。
這次V4.6小到什么程度呢,你可以把它理解成一個能理解圖文,還能被消費級顯卡隨便拿去再訓練成適用于各種垂直限時任務的腳手架模型。
在公開評測里,MiniCPM-V 4.6的多模態綜合能力超過了Qwen3.5-0.8B和Gemma4-E2B-it。
![]()
在AA評測里的token消耗非常低,1.3B非推理版本運行只消耗5.4Mtoken,只有Qwen3.5-0.8B非推理版101M的1/19,也只有Qwen3.5-0.8B推理版本233M的1/43。
![]()
如果只是跑一次demo,
模型慢點貴點都還能忍。
但真實業務里延遲就是體驗,吞吐就是成本,
顯存就是預算,功耗就是影響落地。
手機不會因為模型很聰明就多出一塊GPU。
一個線上系統也不會因為你榜單分數好看,就允許每個請求都燒掉一大把算力。
所以MiniCPM-V 4.6要講的不是,端側模型也能做多模態。
而是大模型多模態能力終于開始變得更像一個可以四通八達到處有用的熱插拔基礎組件了。
說到這里,干脆來看看它背后的技術創新吧。
![]()
技術文檔我打包好了也,回復面壁就好
多模態模型看圖,最麻煩的一步是它要先把圖片拆成一堆視覺token。
圖片越大,越清楚,里面的信息越多,視覺token就越多。
視覺token一多,后面的成本就上去了。
你可以把它想成搬家。
如果一開始把所有東西都原封不動搬上車,后面再說我要節省空間就沒啥空隙了,
很多多模態模型的做法,就是在ViT(Vision Transformer 視覺模型)之后再壓縮token。
這樣確實可以減輕后面語言模型的負擔,但前面的視覺編碼器已經吃過一遍大圖的計算開銷了。
MiniCPM-V 4.6背后的LLaVA-UHD v4優化的點,是把視覺token壓縮提前到ViT內部。
更早壓,更省空間。
![]()
讓后面大部分ViT層一開始就少處理很多token。視覺編碼階段的FLOPs(浮點運算次數)降低55.8%。
當然,做起來沒那么容易。
因為不能粗暴地把視覺token砍掉,砍猛了,圖像表征就壞了,模型可能省了算力,但也看不清了。
LLaVA-UHD v4里面用了早期ViT內壓縮模塊,配合窗口注意力,讓鄰近token先做上下文交互,再通過復用相鄰預訓練ViT層參數,盡量減少對原有視覺表征的擾動。
翻譯成人話就是,它不是一口氣把所有部分都壓縮。
![]()
它是在盡量不傷筋動骨的情況下,把最費算力的部分提前瘦掉。
這就是MiniCPM-V 4.6能又小又快的關鍵之一。
順著這個再聊,就到了另一個很重要的點,4倍和16倍混合視覺token壓縮。
我覺得這個點挺適合拿普通相機來理解。
4倍壓縮更像高清模式,保留更多細節,適合追求識別精度的時候用。
16倍壓縮更像高速省電模式,畫面信息壓得更狠,但推理速度會更快,成本也更低。
過去很多模型的技術路線是二選一,要么偏精度,要么偏速度。
到了MiniCPM-V 4.6,
它開始把兩種壓縮率混在一起用,能切換兩類完全不同的場景。
![]()
MiniCPM-V 4.6已經可以在手機上用了
一類是端側,
手機,電腦,車機,智能家具,這些設備對算力功耗很敏感,我不指望它們像云端機房一樣隨便燒。
另一類是云端高并發。
很多業務不是一個人問模型一次,而是幾萬個請求同時涌進來。
每個請求還要求對很多候選結果做理解,打分,召回,排序。
MiniCPM-V 4.6要解決的是兩個問題。
普通設備上怎么運行AI,
以及高并發怎么省錢。
隔壁快手OneRec推薦大模型在處理視頻輸入里的字幕,標簽,ASR(語音識別),OCR(字符識別),封面圖這些多模態表征時,就用到了MiniCPM-V-8B,OneRec承接了短視頻推薦主場景25%的請求。
![]()
在這種地方,模型不能像GPT 5.5一樣想個5分鐘,然后憋一句穩穩接住你。
它只需要提供一點點更好的信號。
比如這個封面圖到底是什么內容。
這段視頻更像美食教程還是探店吐槽。
這個字幕里有沒有關鍵品牌名。
這個用戶當下更可能想看什么。
單看每一次判斷,好像都不復雜。
但它會被放大到幾千萬,幾億次請求里。
所以這種模型要的不是單次表演有多好。
它要的是夠快,夠輕,夠穩,夠便宜。
光是能讓整體系統效果往上抬一點點,
它就已經很值錢了。
這也是我這三年越來越強烈的一個感受。
很多人聊AI,還是喜歡盯著最強模型。
誰超過了GPT,誰逼近了Claude,
這些當然重要。
但真正能讓AI滲入現實世界的,
往往不是一兩個最強大腦,而是一堆穩定不需要煩惱token數的端側模型。
它們不一定會都被用戶看見。
但它們會讓一個系統變得更聰明一點,更快一點,更省錢一點。
這就是小模型最容易被低估的地方。
這次面壁還做整套從微調到部署的工具鏈。
微調端支持ms-swift和LLaMA-Factory,部署端適配vLLM、SGLang、llama.cpp、Ollama。
甚至消費級顯卡,RTX4090,也可以跑通微調流程。
小尺寸模型的生命力,本來就在于被改造。
我們不需要把MiniCPM-V 4.6當成一個萬能助手。
它更適合去做一個垂直文檔解析模型,一個OCR整理模型,一個本地相冊理解模型,一個攝像頭畫面異常識別模塊。
它在這些場景里,不需要什么都會。
它只要把一件事做得夠穩快便宜就好了。
從這個角度看,
MiniCPM-V 4.6最值得看的地方,
確實不是它又刷了哪個榜。
而是它把多模態往基礎設施的方向,
又推進了一小步。
@ 作者 / 卡爾
最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉發|評論
如果想要第一時間收到推送,不妨給我個星標
如果你有更有趣的玩法,歡迎在評論區聊聊
更多的內容正在不斷填坑中……
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.