網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

英偉達(dá)最新開(kāi)源多模態(tài)大模型，本地部署，量化后消費(fèi)級(jí)顯卡輕松跑，缺點(diǎn)是：僅支持英文輸入

2026-05-01 16:55:42　來(lái)源: Ai學(xué)習(xí)的老章

北京舉報(bào)

分享至

英偉達(dá)又發(fā)新模型了——NVIDIA Nemotron 3 Nano Omni 30B-A3B-Reasoning

老黃這次很狠：30B 總參數(shù)、3B 激活的 MoE，視頻 + 音頻 + 圖像 + 文本全吃，256K 上下文，還自帶推理鏈

最關(guān)鍵的是——它的開(kāi)源協(xié)議是真·開(kāi)源（NVIDIA Open Model Agreement），允許商用，權(quán)重?cái)?shù)據(jù)集訓(xùn)練配方都開(kāi)放

Unsloth 一夜之間就把 GGUF 跑通了，4-bit 25GB 內(nèi)存就能跑

簡(jiǎn)介

先把家底亮一下

項(xiàng)目

參數(shù)

總參數(shù) / 激活參數(shù)

31B / 3B

架構(gòu)

Mamba2-Transformer 混合 MoE

視覺(jué)編碼器

C-RADIO v4-H

語(yǔ)音編碼器

Parakeet

LLM 主干

Nemotron-3-Nano-30B-A3B

上下文

最長(zhǎng) 256K tokens

輸入

視頻 (mp4, ≤2 分鐘)、音頻 (wav/mp3, ≤1 小時(shí))、圖像、文本

輸出

文本（支持 JSON、CoT 推理、tool calling、詞級(jí)時(shí)間戳）

量化

官方提供 BF16 / FP8 / NVFP4 三檔

License

NVIDIA Open Model Agreement（可商用）

這個(gè)組合最有意思的地方是Mamba2 + Transformer 混合，再疊 MoE，單次推理只激活 3B，所以同樣的卡能扛更高并發(fā)——官方給出的數(shù)據(jù)是比"另一家開(kāi)源 Omni 模型"（暗指 Qwen3-Omni-30B-A3B）在視頻任務(wù)上9.2 倍吞吐，多文檔任務(wù)上7.4 倍吞吐

Pareto 曲線：多文檔與視頻場(chǎng)景的系統(tǒng)吞吐對(duì)比

為什么能差這么多？官方給的解法叫Efficient Video Sampling (EVS)+ 3D 卷積時(shí)空感知，再加上視頻幀剪枝（--video-pruning-rate 0.5），讓一段 1080p 視頻可以以 1FPS / 128 幀采樣，720p 可以 2FPS / 256 幀——本質(zhì)上是用結(jié)構(gòu)化稀疏把"看視頻"的算力賬省下來(lái)了

定位：多模態(tài)感知子代理

vLLM 團(tuán)隊(duì)博客里的描述很到位：把它當(dāng)成 Agent 系統(tǒng)里的"眼睛和耳朵"，專門負(fù)責(zé)屏幕、文檔、音視頻流的感知，再把結(jié)構(gòu)化理解喂給下游的編排和執(zhí)行 Agent。它不是要替你寫(xiě)代碼、跑工具，它是要成為 Agent 系統(tǒng)里"那個(gè)看得到聽(tīng)得見(jiàn)的家伙"——這跟 Qwen3-Omni 想"全都干"的路線是不一樣的

典型場(chǎng)景官方也給了：

客服：Doordash 投遞地點(diǎn) OCR 驗(yàn)證、得來(lái)速點(diǎn)單確認(rèn)
M&E 媒體娛樂(lè)：視頻/語(yǔ)音密集字幕、檢索、摘要
文檔智能：合同、SOW/MSA、科研、財(cái)務(wù)文檔
GUI 自動(dòng)化：事件管理、Agentic 搜索、瀏覽器/郵件 Agent

測(cè)評(píng)數(shù)據(jù)

NVIDIA 給的口徑是"同尺寸里最強(qiáng)的 Omni 模型"，并且在六個(gè)公開(kāi)榜單上都拿了第一

Nemotron 3 Nano Omni 橫掃六大多模態(tài)榜單

六個(gè)榜單分別是：

MMlongbench-Doc（長(zhǎng)文檔理解）
OCRBenchV2（OCR 綜合）
WorldSense（視頻常識(shí)）
DailyOmni（日常多模態(tài)）
VoiceBench（語(yǔ)音理解）
MediaPerf（多模態(tài)吞吐 + 成本）

跟自家上一代 Nemotron Nano VL V2 對(duì)比，全面上漲，視覺(jué)、視頻、OCR、音頻四條線都有提升

相比 Nemotron Nano VL V2 的精度提升

Unsloth 那邊也跑了一份對(duì)比，他們的結(jié)論更直白——全面碾壓 Qwen3-Omni-30B-A3B

Unsloth 給出的橫向 benchmark

我個(gè)人的態(tài)度：榜單數(shù)據(jù)看看就行，真正決定你用不用的，是后面這套部署鏈路順不順手——這才是我重點(diǎn)寫(xiě)的部分

關(guān)于開(kāi)源協(xié)議（NVIDIA Open Model Agreement）

順便說(shuō)一下 License，因?yàn)檫@次老黃給的協(xié)議比 Llama 那一票"看似開(kāi)源"的協(xié)議清爽得多。我把官方原文核心點(diǎn)提煉了一下（原文鏈接）：

?可商用：永久、全球、免版稅、不可撤銷
?可改可分發(fā)：允許做衍生模型并以源/二進(jìn)制形式發(fā)布
?輸出歸你：NVIDIA 不主張你用模型生成內(nèi)容的所有權(quán)
?? 分發(fā)時(shí)要附帶 License 副本，保留版權(quán)和歸屬聲明
?? 如果你拿這個(gè)協(xié)議去告 NVIDIA 侵權(quán)，授權(quán)立刻終止
?? 不能用 NVIDIA 商標(biāo)做品牌背書(shū)（描述來(lái)源除外）

對(duì)中小團(tuán)隊(duì)和個(gè)人開(kāi)發(fā)者來(lái)說(shuō)，這就是**"拿來(lái)就能用"**級(jí)別的協(xié)議，比那些"7 億月活以上要單獨(dú)申請(qǐng)"的"偽開(kāi)源"友好太多

Unsloth GGUF 火速到位：本地部署詳細(xì)步驟

這次 Unsloth 真的快，Day Zero 就和 NVIDIA 聯(lián)動(dòng)出了 GGUF。模型倉(cāng)庫(kù)在這：

? https://huggingface.co/unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF

資源占用：消費(fèi)級(jí)顯卡很輕松！害得是 Unsloth！

? ?? 一個(gè)大坑：不要用 CUDA 13.2，會(huì)輸出亂碼，NVIDIA 在修。建議 12.9 或 13.0

方式一：Unsloth Studio（最省事）

Unsloth 自己出了一個(gè) Web UI，叫 Unsloth Studio，可以本地跑 GGUF、對(duì)比模型、聊天、傳圖傳音頻

Unsloth Studio 界面

MacOS / Linux / WSL 一鍵安裝：

curl -fsSL https://unsloth.ai/main/install.sh | sh
source unsloth_studio/bin/activate
unsloth studio -H 0.0.0.0 -p 8888

Windows PowerShell:

irm https://unsloth.ai/install.ps1 | iex
& .\unsloth_studio\Scripts\unsloth.exe studio -H 0.0.0.0 -p 8888

然后瀏覽器打開(kāi)http://localhost:8888，搜 Nemotron-3-Nano-Omni，選你要的量化版下載就行

在 Studio 中搜索并下載模型方式二：llama.cpp 命令行（更可控）

先編譯 llama.cpp（CUDA 版）：

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first \
    --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

? Apple Silicon 把 -DGGML_CUDA=ON 改成 OFF，Metal 默認(rèn)開(kāi)

純文本對(duì)話（NVIDIA 推薦temp=1.0, top-p=1.0）：

./llama.cpp/llama-cli \
    -hf unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF:UD-Q4_K_XL \
    --temp 1.0 --top-p 1.0

圖片 + 音頻混合輸入（需要llama-mtmd-cli）：

./llama.cpp/llama-mtmd-cli \
    -hf unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF:UD-Q4_K_XL \
    --image screenshot.png \
    --audio meeting.wav \
    -p "Summarize what is shown and said. Return key actions as bullet points." \
    --temp 1.0 --top-p 1.0

視頻按幀采樣（llama.cpp 暫不直吃視頻，曲線救國(guó)先抽幀）：

mkdir -p frames
ffmpeg -i demo.mp4 -vf "fps=1/2,scale=1280:-1" frames/frame_%04d.png

 FRAMES=$(python - <<'PY'
from pathlib import Path
frames = sorted(Path("frames").glob("*.png"))[:16]
print(",".join(str(x) for x in frames))
PY
)

 ./llama.cpp/llama-mtmd-cli \
    -hf unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF:UD-Q4_K_XL \
    --image "$FRAMES" \
    -p "Analyze these sampled video frames. Summarize the sequence of events." \
    --temp 1.0 --top-p 1.0

起 OpenAI 兼容服務(wù)（推薦這種，方便接業(yè)務(wù)）：

./llama.cpp/llama-server \
    -hf unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF:UD-Q4_K_XL \
    --alias "unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning" \
    --prio 3 --temp 1.0 --top-p 1.0 --port 8001

Python 客戶端調(diào)用：

from openai import OpenAI

 client = OpenAI(
    base_url="http://127.0.0.1:8001/v1",
    api_key="sk-no-key-required",
)

 completion = client.chat.completions.create(
    model="unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning",
    messages=[{"role": "user", "content": "What is 2+2?"}],
)
print(completion.choices[0].message.content)

? ?? Ollama 用戶注意：當(dāng)前 Ollama 還跑不了它的多模態(tài)部分，因?yàn)?mmproj 視覺(jué)文件是分開(kāi)的，Ollama 還沒(méi)適配。要玩多模態(tài)請(qǐng)走 llama.cpp 系

工具調(diào)用場(chǎng)景把temp=0.6, top-p=0.95即可

官方部署：vLLM 0.20.0（生產(chǎn)級(jí)）

官方推薦的生產(chǎn)部署是vLLM 0.20.0（必須這個(gè)版本，別上下浮動(dòng)）。兩個(gè)鏡像選一個(gè)：

CUDA 13.0：vllm/vllm-openai:v0.20.0
CUDA 12.9：vllm/vllm-openai:v0.20.0-cu129

裝：

pip install vllm[audio]==0.20.0
# 或
docker pull vllm/vllm-openai:v0.20.0

? 只要用到音頻（包括視頻里抽音頻 use_audio_in_video: true），就必須裝 vllm[audio]

起服務(wù)（單卡 B200/H200/H100，推薦配置）：

vllm serve nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16 \
  --served-model-name nemotron \
  --host 0.0.0.0 --port 5000 \
  --tensor-parallel-size 1 \
  --max-model-len 131072 \
  --trust-remote-code \
  --video-pruning-rate 0.5 \
  --media-io-kwargs '{"video": {"num_frames": 512, "fps": 1}}' \
  --reasoning-parser nemotron_v3 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder

跑 NVFP4 / FP8 時(shí)，加上--kv-cache-dtype fp8進(jìn)一步省顯存

幾個(gè)平臺(tái)坑（官方明示）：

平臺(tái)

需要追加的參數(shù)

原因

RTX Pro 6000

--moe-backend triton

FlashInfer + RTX Pro 當(dāng)前有 bug

NVFP4 + TP>1

--moe-backend flashinfer_cutlass

TRTLLM_GEN MoE 內(nèi)核 bug

DGX Spark (ARM64)

--gpu-memory-utilization 0.70--max-model-len 32768--max-num-seqs 8

統(tǒng)一 LPDDR5X 內(nèi)存（128GB CPU/GPU 共享），需讓出空間

調(diào)用示例（思考模式 + 視頻）：

from openai import OpenAI
from pathlib import Path

 client = OpenAI(base_url="http://localhost:5000/v1", api_key="")
video_url = Path("media/demo.mp4").resolve().as_uri()

 resp = client.chat.completions.create(
    model="nemotron",
    messages=[{
        "role": "user",
        "content": [
            {"type": "video_url", "video_url": {"url": video_url}},
            {"type": "text", "text": "Describe this video."},
        ],
    }],
    max_tokens=20480, temperature=0.6, top_p=0.95,
    extra_body={
        "thinking_token_budget": 16384 + 1024,
        "chat_template_kwargs": {
            "enable_thinking": True,
            "reasoning_budget": 16384,
        },
        "mm_processor_kwargs": {"use_audio_in_video": False},
    },
)
print(resp.choices[0].message.reasoning, "\n---\n", resp.choices[0].message.content)

采樣參數(shù)官方推薦：

模式

temperature

top_p

top_k

max_tokens

reasoning_budget

Thinking

0.6

0.95

Instruct

0.2

1024

支持的 GPU：

Blackwell：B200、RTX Pro 6000 SE、DGX Spark、Jetson Thor、RTX 5090
Hopper：H100、H200
Ampere：A100 80GB
Lovelace：L40S

除了 vLLM，SGLang也已經(jīng)支持（BF16 變體，F(xiàn)P8/NVFP4 待跟進(jìn)），TensorRT-LLM、TensorRT Edge-LLM（Jetson Thor）也都有 cookbook

一些個(gè)人觀察

聊聊我的態(tài)度，不全說(shuō)好話：

我看好的地方

協(xié)議是真開(kāi)放——商用零摩擦，對(duì)國(guó)內(nèi)中小廠、個(gè)人開(kāi)發(fā)者就是白嫖級(jí)別的福利
3B 激活的 MoE + 視頻幀剪枝這套組合，是把"持續(xù)感知"這個(gè) Agent 真痛點(diǎn)直接打中了，9 倍吞吐不是噱頭，是給永遠(yuǎn)在線的 Agent 準(zhǔn)備的
256K 上下文 + 詞級(jí)時(shí)間戳的轉(zhuǎn)寫(xiě) + tool calling，幾乎可以一個(gè)模型把會(huì)議助理、視頻檢索、屏幕代理三件事一起干
Unsloth Day Zero GGUF，25GB 內(nèi)存就能跑 4-bit，意味著一臺(tái)普通游戲本就能本地起 Agent，這是 Qwen3-Omni 沒(méi)做到的

我潑冷水的地方

只支持英文——中文能力官方明確沒(méi)承諾，國(guó)內(nèi)業(yè)務(wù)場(chǎng)景需要自己評(píng)估
vLLM 必須 0.20.0，版本鎖得很死，老鏡像別想直接升
CUDA 13.2 輸出亂碼，老黃家自己的 CUDA 還有這種 bug
Ollama 暫不支持多模態(tài)，想一鍵ollama run的朋友再等等
視頻 ≤2 分鐘，長(zhǎng)視頻還是得切片喂

適合誰(shuí)

想做 GUI Agent / 瀏覽器 Agent / 屏幕監(jiān)控類應(yīng)用 → 極力推薦
文檔智能（合同/財(cái)務(wù)/科研 OCR + 推理）→ MMlongbench-Doc 和 OCRBenchV2 第一，閉眼上
短視頻/會(huì)議紀(jì)要/語(yǔ)音轉(zhuǎn)寫(xiě) + 提煉 → 一把梭
中文為主的 toC 場(chǎng)景 → 再等等，或者拿這個(gè)做底座微調(diào)

我自己接下來(lái)會(huì)拿它做兩件事：一是接到本地的錄屏 → 操作回放分析流程里看看；二是把會(huì)議視頻丟進(jìn)去做"看完一段視頻自動(dòng)產(chǎn)出 todo + 時(shí)間戳"的工作流

制作不易，如果這篇文章覺(jué)得對(duì)你有用，可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊：點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè)，謝謝你看我的文章，我們下篇再見(jiàn)！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.