網易首頁 > 網易號 > 正文申請入駐

MiniCPM-o 4.5 技術報告發布：全雙工全模態 API 開放，RTX5070即可實時運行

2026-04-28 13:13:12　來源: AI科技評論

廣東舉報

分享至

附 Windows / macOS 一鍵安裝包，最低 12GB 顯存 GPU 即可運行。

你有沒有想過，不用聯網、僅用一張消費級顯卡，就能在個人電腦上擁有一個「邊看、邊聽、邊說、還能主動提醒」的類人 AI 助手？它既能實時感知環境變化、同步理解你的意圖，又能全程保護隱私。

這就是MiniCPM-o 4.5所能做到的。在技術創新下，它僅憑 9B 參數，實現了業界首個端到端全雙工全模態大模型，讓端側 AI 普惠成為現實。其自 2026 年 2 月模型發布以來，在 Hugging Face 上的下載量已突破 25 萬+。

? 模型用例展示：https://openbmb.github.io/minicpm-o-4_5-omni/

? 在線體驗（無需注冊/下載）：

https://minicpmo45.modelbest.cn/

今天，面壁智能聯合 OpenBMB 開源社區、清華大學 THUNLP 實驗室和 THUMAI 實驗室正式發布MiniCPM-o 4.5 技術報告，首次公開面壁智能在全雙工全模態交互領域的核心技術——Omni-Flow 流式全模態框架。

? 技術報告：https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf

在技術報告發布的同時，MiniCPM-o 4.5 同步推出在線體驗 Demo、全模態全雙工 API、端側安裝包 Comni 和 Demo 倉庫。

在線體驗 Demo

在線 Demo 是 MiniCPM-o 4.5 的原型示例網頁應用，展現傳統輪次交互、語音雙工交互、視頻雙工交互三大類應用原型，并完整開放模型支持的全部配置，包括 prompt 和參考音頻設置。

Demo 可在手機、電腦端直接訪問，并配套提供排隊、錄制、保存、分享、回看等功能，提升用戶體驗。

? 在線體驗（手機端推薦）

https://minicpmo45.modelbest.cn/mobile/

? 在線體驗（電腦端推薦）

https://minicpmo45.modelbest.cn/

全模態全雙工 API

同步開放的 MiniCPM-o 4.5 API 支持全模態全雙工實時交互，全雙工下無需 VAD 機制控制對話輪次，便于開發者基于 MiniCPM-o 4.5 構建應用。

API 使用 https://api.modelbest.cn/minicpmo45/v1/ 端點，目前免費開放。詳細使用方式見 API 文檔。

? MiniCPM-o 4.5 API 文檔

https://api.modelbest.cn/minicpmo45/docs

Windows / macOS 端側安裝包 Comni

MiniCPM-o 4.5 已基于 llama.cpp 完成模型量化和推理性能優化，實測最低 12GB 顯存的 RTX 5070 即可流暢運行全雙工模式（RTF0.4)，極大降低了個人端側部署的準入門檻。

為進一步降低端側部署的操作門檻，桌面軟件Comni集成了模型下載、環境安裝和 Demo 運行能力，提供 Windows / macOS 版本。軟件包下載鏈接如下：

?平臺: Windows

下載鏈接：GitHub：https://github.com/tc-mb/llama.cpp-omni/releases/latest/download/Comni-Setup-win64.exe；

ModelScope：https://modelscope.cn/models/OpenBMB/MiniCPM-o-4_5-gguf/resolve/master/app/Comni-Windows-x64.exe

硬件要求：12GB+ 顯存 GPU，如 RTX 5070 / RTX 5080 / RTX 5090

?平臺: macOS

下載鏈接：GitHub：https://github.com/tc-mb/llama.cpp-omni/releases/latest/download/Comni-macOS-arm64.dmg；

ModelScope：https://modelscope.cn/models/OpenBMB/MiniCPM-o-4_5-gguf/resolve/master/app/Comni-macOS-arm64.dmg

硬件要求：M1-M5 Max / M5 Pro

(上方視頻展示了 MiniCPM-o 4.5 在個人筆記本上的完整部署與運行過程，包括全雙工語音對話、實時視覺理解、主動提醒等能力演示。)

Demo 倉庫開源和 Linux 部署

上述 Demo 的全棧代碼已開源，Linux 用戶可克隆代碼倉并部署完整的 Demo 服務。這也是首批可本地部署的全雙工全模態交互演示項目之一。

?Demo GitHub 倉庫：

https://github.com/OpenBMB/MiniCPM-o-Demo

為什么「全雙工」是 AI 交互的下一站？

人類交流是流暢、并行的。我們邊聽邊思考，甚至可以打斷對方。

但過去，AI 與人類的交互模式是半雙工的，像用對講機：你說完，它才能處理；它說的時候，又聽不見你的新指令。

AI 與人類的不同頻，使得大多數用戶無法在與大模型產品的交互中獲得良好的體驗感，甚至由于交流的「時空割裂」逐漸失去耐心。長此以往，大模型在多模態場景的落地無疑大大受阻。

而 MiniCPM-o 4.5 在全球范圍內首創「全雙工全模態」，模型能在持續感知環境（看視頻、聽聲音）的同時進行思考和響應，這讓 AI 從一個被動的工具變成了一個可以主動幫助人類的真正助手。

這背后離不開面壁智能與清華大學共同研發的Omni-Flow 流式全模態框架。本次技術報告也首次披露了 Omni-Flow 的技術核心：

簡單來說，它創造了一個共享的「時間軸」，把視覺、音頻、語言等所有信息流都對齊到毫秒級的時間片上。模型在每個極小的時間片內，完成一次「感知-思考-響應」的循環。

這套機制從底層賦予了模型持續感知和即時反應的能力，是 MiniCPM-o 實現全雙工的基石。

此外，MiniCPM-o 4.5 本次發布并堅持開源可本地部署的 Web Demo，這對開發者與用戶意味著：

?絕對的隱私安全：全天候陪伴式 AI 會接觸大量敏感信息。數據不出本地，是最好的隱私保護。

?斷網也能跑的可靠性：沒有網絡也能用。即使在隧道、野外，你的 AI 助手也不會「掉線」。

?開發者的游樂場：完整的 Demo 前后端代碼已開源。你可以基于此快速構建自己的全雙工多模態應用，無論是智能座艙、無障礙輔助還是具身智能，MiniCPM-o 4.5 都能成為你將想象變成現實的助推器。

技術報告深度解讀：

揭秘 MiniCPM-o 4.5 的實現之道

MiniCPM-o 4.5 采用端到端全模態架構，總參數量 9B。核心設計包括：

?全模態端到端架構：多模態編碼器/語音解碼器與 LLM 通過隱藏狀態緊密連接，在高壓縮率下實現通用視覺、聽覺感知和語音對話。

?時分復用機制：將并行多模態流劃分為周期性時間片內的順序信息組，實現高效的流式處理。

?可配置語音建模：支持文本+音頻雙系統提示，通過參考音頻和角色提示詞即可實現聲音克隆角色扮演。

?雙模式支持：同一模型支持傳統的輪次交互模式與Omni-Flow全模態全雙工模式。

▎實時交互：Omni-Flow 流式全模態框架

傳統多模態模型將交互視為一系列孤立的回合，而 Omni-Flow 將其重塑為一個連續的過程。

圖1：交互范式的演進，MiniCPM-o 4.5 實現了最右側的全雙工流式交互

如圖所示，Omni-Flow 將視覺、音頻輸入流和模型的文本、語音輸出流，在時間上進行精確切片和對齊。模型不再是被動地等待用戶輸入完成，而是以極高的頻率（例如每秒一次）持續刷新自己的“世界觀”，并自主決定在哪個時間點介入（說話或提醒）。

這套機制原生支持了打斷、插話等高級交互行為，徹底擺脫了對外部 VAD (語音活動檢測) 等輔助工具的依賴。

▎端到端架構：9B 模型如何協同工作？

為了實現 Omni-Flow，面壁智能團隊設計了一套高效的端到端全模態架構，總參數量 9B。

圖2：MiniCPM-o 4.5 的端到端全模態架構

其核心組件包括：

?視覺編碼器（0.4B）：SigLIP-ViT，負責「看」。

?音頻編碼器（0.3B）：Whisper-Medium，負責「聽」。

?LLM 基座（8B）：Qwen3-8B，負責「思考」和理解。

?語音 Token 解碼器（~0.3B）：輕量級 Llama 架構，負責將 LLM 的「想法」（文本）轉化為語音單元。

?聲碼器: 將語音單元合成為最終的波形。

這個架構最巧妙的設計之一是：LLM 基座只生成文本 Token，而專業的語音合成任務「外包」給了一個更小、更專業的語音解碼器。這避免了讓大模型直接處理復雜的聲學任務，從而保證了其核心的語言和推理能力不受損害。

▎為實時而生：TAIL 語音生成方案

流式語音的一大難題是延遲。為了讓語音聽起來自然，模型通常需要「預讀」一大段文本，但這會導致輸出的語音遠遠滯后于用戶的輸入。在需要「即時打斷」的全雙工場景里，這是致命的。

因此，面壁智能團隊提出了TAIL（Time-Aligned Interleaving）方案，可以讓每個語音塊的生成都緊緊跟隨其對應的文本塊，而不是讓文本「搶跑」太多。

同時，通過一個輕量級的「預讀」(pre-look) 機制，解決了跨詞發音的連貫性問題。最終，TAIL 在保證音頻流暢悅耳的同時，將語音輸出與交互發生的延遲降到了最低。

▎性能表現：9B 模型硬剛業界頂尖

參數規模小不等于模型性能弱。MiniCPM-o 4.5 在多個維度的評測中，展現了與 SOTA 大模型掰手腕的實力。

?推理效率：在顯存方面，MiniCPM-o 4.5 的 INT4 量化版僅需 11GB 顯存即可運行，幾乎是 Qwen3-Omni INT4 版本的一半，使得其在消費級顯卡上的本地部署成為可能。在性能方面，MiniCPM-o 4.5 的推理速度也更快，其 INT4 版本的解碼速度達到了 212 tokens/s，比 Qwen3 快了 40% 以上，響應延遲更低。

?綜合視覺能力：在 OpenCompass、MMBench 等多個視覺基準上，9B 的 MiniCPM-o 4.5與 Gemini 2.5 Flash 表現相當。

?全模態與全雙工交互：在需要聯合音視頻理解的基準上，MiniCPM-o 4.5全面超越了 Gemini 2.5 Flash 和 Qwen3-Omni。在全雙工視頻理解基準 LiveSports-3K-CC 上，其勝率（54.4%）更是大幅領先專用的流式視頻模型。

?語音生成：無論是中文還是英文，MiniCPM-o 4.5 的語音生成質量（字符/單詞錯誤率更低）和情感表現力都優于 Qwen3-Omni 和業界領先的 CosyVoice2。

真 · 全雙工，潛力無限

全雙工全模態大模型不是一個遙遠的概念，而是會催生一系列全新的應用，例如：

?主動式伴侶：在你烹飪、修理或運動時，給你實時的指導和提醒。

?無障礙輔助：成為視障人士的「眼睛」，為視障人士持續觀察環境，主動播報綠燈亮起、水杯將滿等關鍵環境信息，幫助他們安全生活。

?智能座艙：持續監控路況和駕駛員狀態，主動提示「左側有可用車位」并引導泊車，提供更智能、更及時的安全預警和駕駛輔助。

?具身智能：作為機器人的「大腦」，持續感知動態環境并自主決策交互時機。

這些場景的共同點是：需求并非一次性問答，而是需要 AI 作為「沉默的觀察者」和「及時的提醒者」融入動態生活流——這正是傳統輪次對話模型無法勝任的。

MiniCPM-o 4.5 是原生全雙工模型，擺脫了對VAD的依賴。這意味著：支持 general 聲音感知（環境噪音、音樂等，不僅是語音）；畫面變化跟進更快（native全雙工，無需等上句說完）；AI 說話時可被實時引導改變內容。

當然，MiniCPM-o 4.5 目前還存在可提升空間，如長時間交互的穩定性、主動行為的豐富性等。多模態智能的下一個前沿，不僅在于模型能力的擴展，更在于重新思考智能表達的交互范式。Omni-Flow 和 MiniCPM-o 4.5 是面壁智能在這一方向上的關鍵探索。

開放與協作將持續推動人機交互演進。歡迎所有開發者試用模型、參與討論、貢獻代碼，共同探索人機交互的未來！

? 技術報告 PDF：

https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf

? 在線體驗：

https://minicpmo45.modelbest.cn/

? GitHub Demo（含本地安裝包）：

https://github.com/OpenBMB/MiniCPM-o-Demo

? Hugging Face 下載鏈接：

https://huggingface.co/openbmb/MiniCPM-o-4_5

? ModelScope 下載鏈接：

https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5

對于demo安裝、api調用或模型使用中您遇到任何問題、或者想分享交流，歡迎掃碼加入飛書群。

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.