![]()
新智元報道
編輯:YHluck
【新智元導讀】MiniCPM-o 4.5技術報告發布,附深度解讀。MiniCPM-o 4.5是業界首個端到端全雙工全模態大模型,采用自研Omni-Flow流式全模態架構。同步發布官方在線Demo、全模態全雙工官方API和文檔、Windows/macOS一鍵安裝包地址,最低12GB顯存GPU即可運行。
你有沒有想過,不用聯網、僅用一張消費級顯卡,就能在個人電腦上擁有一個「邊看、邊聽、邊說、還能主動提醒」的類人AI助手?它既能實時感知環境變化、同步理解你的意圖,又能全程保護隱私。
這就是MiniCPM-o 4.5所能做到的。在技術創新下,它僅憑9B參數,實現了業界首個端到端全雙工全模態大模型,讓這種端側普惠成為現實。自2026年2月模型發布以來,在Hugging Face上的下載量已突破25萬+。
模型用例展示:https://openbmb.github.io/minicpm-o-4_5-omni/
在線體驗(無需注冊/下載):https://minicpmo45.modelbest.cn/
今天,面壁智能聯合OpenBMB開源社區、清華大學THUNLP實驗室和THUMAI 實驗室正式發布MiniCPM-o 4.5技術報告,首次公開面壁智能在全雙工全模態交互領域的核心技術——Omni-Flow流式全模態框架。
技術報告:
https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf
在技術報告發布的同時,MiniCPM-o 4.5同步推出在線體驗Demo、全模態全雙工API、端側安裝包Comni和Demo倉庫。
在線體驗Demo
在線Demo是MiniCPM-o 4.5的原型示例網頁應用,展現傳統輪次交互、語音雙工交互、視頻雙工交互三大類應用原型,并完整開放模型支持的全部配置,包括 prompt 和參考音頻設置。
Demo可在手機、電腦端直接訪問,并配套提供排隊、錄制、保存、分享、回看等功能,提升用戶體驗。
? 在線體驗(手機端推薦)
https://minicpmo45.modelbest.cn/mobile/
? 在線體驗(電腦端推薦)
https://minicpmo45.modelbest.cn/
全模態全雙工API
同步開放的MiniCPM-o 4.5 API支持全模態全雙工實時交互,全雙工下無需 VAD 機制控制對話輪次,便于開發者基于MiniCPM-o 4.5構建應用。
API使用https://api.modelbest.cn/minicpmo45/v1/端點,目前免費開放。詳細使用方式見 API 文檔。
? MiniCPM-o 4.5 API 文檔
https://api.modelbest.cn/minicpmo45/docs
Windows/macOS端側安裝包Comni
MiniCPM-o 4.5已基于 llama.cpp完成模型量化和推理性能優化,實測最低 12GB顯存的RTX 5070即可流暢運行全雙工模式(RTF0.4),極大降低了個人端側部署的準入門檻。
為進一步降低端側部署的操作門檻,桌面軟件Comni集成了模型下載、環境安裝和Demo運行能力,提供Windows/macOS版本。
軟件包下載鏈接如下:
Windows:
GitHub:
https://github.com/tc-mb/llama.cpp-omni/releases/latest/download/Comni-Setup-win64.exe;
ModelScope:
https://modelscope.cn/models/OpenBMB/MiniCPM-o-4_5-gguf/resolve/master/app/Comni-Windows-x64.exe
硬件要求:12GB+顯存GPU,如RTX 4080/RTX 4090/RTX 5070/RTX 5080/RTX 5090
macOS:
GitHub:
https://github.com/tc-mb/llama.cpp-omni/releases/latest/download/Comni-macOS-arm64.dmg;
ModelScope:
https://modelscope.cn/models/OpenBMB/MiniCPM-o-4_5-gguf/resolve/master/app/Comni-macOS-arm64.dmg
硬件要求:M1-M5 Max/M5 Pro 建議內存16G以上
上方視頻展示了 MiniCPM-o 4.5 在個人筆記本上的完整部署與運行過程,包括全雙工語音對話、實時視覺理解、主動提醒等能力演示。
Demo倉庫開源和Linux部署
上述Demo的全棧代碼已開源,Linux用戶可克隆代碼倉并部署完整的Demo服務。這也是首批可本地部署的全雙工全模態交互演示項目之一。
?Demo GitHub 倉庫:
https://github.com/OpenBMB/MiniCPM-o-Demo
為什么「全雙工」是AI交互的下一站?
人類交流是流暢、并行的。我們邊聽邊思考,甚至可以打斷對方。
但過去,AI 與人類的交互模式是半雙工的,像用對講機:你說完,它才能處理;它說的時候,又聽不見你的新指令。
AI與人類的不同頻,使得大多數用戶無法在與大模型產品的交互中獲得良好的體驗感,甚至由于交流的「時空割裂」逐漸失去耐心。長此以往,大模型在多模態場景的落地無疑大大受阻。
而MiniCPM-o 4.5在全球范圍內首創「全雙工全模態」,模型能在持續感知環境(看視頻、聽聲音)的同時進行思考和響應,這讓AI從一個被動的工具變成了一個可以主動幫助人類的真正助手。
這背后離不開面壁智能與清華大學共同研發的Omni-Flow流式全模態框架。本次技術報告也首次披露了Omni-Flow的技術核心:
簡單來說,它創造了一個共享的「時間軸」,把視覺、音頻、語言等所有信息流都對齊到毫秒級的時間片上。模型在每個極小的時間片內,完成一次「感知-思考-響應」的循環。
這套機制從底層賦予了模型持續感知和即時反應的能力,是MiniCPM-o實現全雙工的基石。
此外,MiniCPM-o 4.5 本次發布并堅持開源可本地部署的Web Demo,這對開發者與用戶意味著:
絕對的隱私安全:全天候陪伴式AI會接觸大量敏感信息。數據不出本地,是最好的隱私保護。
斷網也能跑的可靠性:沒有網絡也能用。即使在隧道、野外,你的AI助手也不會「掉線」。
開發者的游樂場:完整的Demo前后端代碼已開源。你可以基于此快速構建自己的全雙工多模態應用,無論是智能座艙、無障礙輔助還是具身智能,MiniCPM-o 4.5都能成為你將想象變成現實的助推器。
技術報告深度解讀
揭秘MiniCPM-o 4.5的實現之道
MiniCPM-o 4.5 采用端到端全模態架構,總參數量 9B。核心設計包括:
全模態端到端架構:多模態編碼器/語音解碼器與LLM通過隱藏狀態緊密連接,在高壓縮率下實現通用視覺、聽覺感知和語音對話。
時分復用機制:將并行多模態流劃分為周期性時間片內的順序信息組,實現高效的流式處理。
可配置語音建模:支持文本+音頻雙系統提示,通過參考音頻和角色提示詞即可實現聲音克隆角色扮演。
雙模式支持:同一模型支持傳統的輪次交互模式與Omni-Flow全模態全雙工模式。
實時交互
Omni-Flow流式全模態框架
傳統多模態模型將交互視為一系列孤立的回合,而Omni-Flow將其重塑為一個連續的過程。
![]()
圖1:交互范式的演進,MiniCPM-o 4.5 實現了最右側的全雙工流式交互
如圖所示,Omni-Flow 將視覺、音頻輸入流和模型的文本、語音輸出流,在時間上進行精確切片和對齊。
模型不再是被動地等待用戶輸入完成,而是以極高的頻率(例如每秒一次)持續刷新自己的「世界觀」,并自主決定在哪個時間點介入(說話或提醒)。
這套機制原生支持了打斷、插話等高級交互行為,徹底擺脫了對外部VAD(語音活動檢測) 等輔助工具的依賴。
端到端架構:
9B模型如何協同工作?
為了實現Omni-Flow,面壁智能團隊設計了一套高效的端到端全模態架構,總參數量9B。
![]()
圖2:MiniCPM-o 4.5 的端到端全模態架構
其核心組件包括:
視覺編碼器(0.4B):SigLIP-ViT,負責「看」。
音頻編碼器(0.3B):Whisper-Medium,負責「聽」。
LLM基座(8B):Qwen3-8B,負責「思考」和理解。
語音Token解碼器(~0.3B):輕量級 Llama 架構,負責將 LLM 的「想法」(文本)轉化為語音單元。
聲碼器: 將語音單元合成為最終的波形。
這個架構最巧妙的設計之一是:LLM 基座只生成文本 Token,而專業的語音合成任務「外包」給了一個更小、更專業的語音解碼器。
這避免了讓大模型直接處理復雜的聲學任務,從而保證了其核心的語言和推理能力不受損害。同時通過各模塊的token級稠密連接,保證了模型能力的高上限。
為實時而生:
TAIL語音生成方案
流式語音的一大難題是延遲。為了讓語音聽起來自然,模型通常需要「預讀」一大段文本,但這會導致輸出的語音遠遠滯后于用戶的輸入。在需要「即時打斷」的全雙工場景里,這是致命的。
因此,面壁智能團隊提出了TAIL(Time-Aligned Interleaving)方案,可以讓每個語音塊的生成都緊緊跟隨其對應的文本塊,而不是讓文本「搶跑」太多。
同時,通過一個輕量級的「預讀」(pre-look) 機制,解決了跨詞發音的連貫性問題。最終,TAIL在保證音頻流暢悅耳的同時,將語音輸出與交互發生的延遲降到了最低。
性能表現
9B模型硬剛業界頂尖
參數規模小不等于模型性能弱。MiniCPM-o 4.5 在多個維度的評測中,展現了與 SOTA 大模型掰手腕的實力。
![]()
推理效率:在顯存方面,MiniCPM-o 4.5的INT4量化版僅需11GB顯存即可運行,幾乎是Qwen3-Omni INT4版本的一半,使得其在消費級顯卡上的本地部署成為可能。
在性能方面,MiniCPM-o 4.5的推理速度也更快,其INT4版本的解碼速度達到了212tokens/s,比Qwen3快了40%以上,響應延遲更低。
![]()
綜合視覺能力:在OpenCompass、MMBench等多個視覺基準上,9B的 MiniCPM-o 4.5與Gemini 2.5 Flash表現相當。
![]()
全模態與全雙工交互:在需要聯合音視頻理解的基準上,MiniCPM-o 4.5全面超越了Gemini 2.5 Flash和Qwen3-Omni。在全雙工視頻理解基準LiveSports-3K-CC上,其勝率(54.4%)更是大幅領先專用的流式視頻模型。
![]()
語音生成:無論是中文還是英文,MiniCPM-o 4.5的語音生成質量(字符/單詞錯誤率更低)和情感表現力都優于Qwen3-Omni和業界領先的CosyVoice2。
![]()
真 · 全雙工,潛力無限
全雙工全模態大模型不是一個遙遠的概念,而是會催生一系列全新的應用,例如:
主動式伴侶:在你烹飪、修理或運動時,給你實時的指導和提醒。
無障礙輔助:成為視障人士的「眼睛」,為視障人士持續觀察環境,主動播報綠燈亮起、水杯將滿等關鍵環境信息,幫助他們安全生活。
智能座艙:持續監控路況和駕駛員狀態,主動提示「左側有可用車位」并引導泊車,提供更智能、更及時的安全預警和駕駛輔助。
具身智能:作為機器人的「大腦」,持續感知動態環境并自主決策交互時機。
這些場景的共同點是:需求并非一次性問答,而是需要AI作為「沉默的觀察者」和「及時的提醒者」融入動態生活流——這正是傳統輪次對話模型無法勝任的。
MiniCPM-o 4.5是原生全雙工模型,擺脫了對VAD的依賴。
這意味著:支持general聲音感知(環境噪音、音樂等,不僅是語音);畫面變化跟進更快(native全雙工,無需等上句說完);AI 說話時可被實時引導改變內容。
當然,MiniCPM-o 4.5目前還存在可提升空間,如長時間交互的穩定性、主動行為的豐富性等。
多模態智能的下一個前沿,不僅在于模型能力的擴展,更在于重新思考智能表達的交互范式。Omni-Flow和MiniCPM-o 4.5是面壁智能在這一方向上的關鍵探索。
開放與協作將持續推動人機交互演進。歡迎所有開發者試用模型、參與討論、貢獻代碼,共同探索人機交互的未來!
? 技術報告 PDF:
https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf
? 在線體驗:
https://minicpmo45.modelbest.cn/
?手機端體驗鏈接:
https://minicpmo45.modelbest.cn/mobile/
? GitHub Demo(含本地安裝包):
https://github.com/OpenBMB/MiniCPM-o-Demo
? Hugging Face 下載鏈接:
https://huggingface.co/openbmb/MiniCPM-o-4_5
? ModelScope 下載鏈接:
https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5
對于demo安裝、api調用或模型使用中您遇到任何問題、或者想分享交流,歡迎掃碼加入飛書群。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.