網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Kimi K2.6 開源，最強大Agent模型，部署教程

2026-04-21 00:00:32　來源: Ai學(xué)習(xí)的老章

北京舉報

分享至

月之暗面剛剛開源了Kimi K2.6，直接把 Agent 能力拉到了一個新高度

一句話總結(jié)

Kimi K2.6 是目前最強的開源原生多模態(tài) Agent 模型

1T 參數(shù) MoE 架構(gòu)，32B 激活參數(shù)，256K 上下文，原生支持圖片和視頻輸入，還能同時指揮 300 個子 Agent 協(xié)同執(zhí)行 4000 步任務(wù)

說白了，這次升級的核心不是"更聰明"，而是"更能干"——從一個會思考的模型，進化成了一個能自主執(zhí)行復(fù)雜任務(wù)的 Agent 引擎

模型架構(gòu)

K2.6 延續(xù)了 K2.5 的 MoE 架構(gòu)，參數(shù)規(guī)模沒變，但能力大幅躍升：

參數(shù)

規(guī)格

總參數(shù)量

激活參數(shù)

32B

層數(shù)

61（含 1 層 Dense）

專家數(shù)

384

每 Token 激活專家數(shù)

上下文長度

256K

注意力機制

MLA

激活函數(shù)

SwiGLU

視覺編碼器

MoonViT（400M）

詞表大小

160K

跟 K2.5 架構(gòu)完全一致，部署方法可以無縫復(fù)用

這對運維來說是好消息——換模型不用換部署流程

四大核心能力

K2.6 這次主打四個方向，每一個都指向"干活"：

1. 長程編程（Long-Horizon Coding）

不是寫個函數(shù)那種小活兒，是端到端的復(fù)雜編程任務(wù)——跨語言（Rust、Go、Python 都行）、跨領(lǐng)域（前端、DevOps、性能優(yōu)化全覆蓋）。看看 Terminal-Bench 2.0 的成績：K2.6 拿了 66.7 分，GPT-5.4 和 Claude Opus 4.6 都是 65.4。SWE-Bench Pro 更直接，K2.6 拿了 58.6，GPT-5.4 是 57.7，Claude 只有 53.4

2. 代碼驅(qū)動設(shè)計（Coding-Driven Design）

簡單一句話 prompt 甚至一張圖，K2.6 就能給你生成生產(chǎn)級的前端界面——結(jié)構(gòu)化布局、交互元素、動畫效果一步到位。這個能力對全棧開發(fā)者來說太香了。

下面是 Kimi Design Bench 的測試結(jié)果，在四大類設(shè)計任務(wù)上 K2.6 表現(xiàn)很強：

Kimi Design Bench 設(shè)計能力測試

3. Agent 集群（Elevated Agent Swarm）

這個是我最激動的

K2.6 能橫向擴展到300 個子 Agent，協(xié)同執(zhí)行 4000 步任務(wù)。它可以動態(tài)把一個大任務(wù)拆解成并行的專業(yè)化子任務(wù)，一次性輸出文檔、網(wǎng)站、電子表格等多種交付物

BrowseComp Agent Swarm 測試里，K2.6 拿了 86.3 分，GPT-5.4 只有 78.4——Agent 編排能力已經(jīng)是開源模型里的天花板了

4. 主動式編排（Proactive & Open Orchestration）

K2.6 能驅(qū)動 7×24 小時后臺運行的自主 Agent，主動管理日程、執(zhí)行代碼、跨平臺操作，不需要人盯著。月之暗面自家 RL 基礎(chǔ)設(shè)施團隊用 K2.6 驅(qū)動的 Agent連續(xù)自主運行了 5 天，負責監(jiān)控、故障響應(yīng)和系統(tǒng)運維。

Claw Bench 內(nèi)部評測顯示，K2.6 在持續(xù)自主運行場景下比 K2.5 有顯著提升：

Kimi Claw Bench 自主 Agent 能力評測

配合 Kimi Code CLI（https://www.kimi.com/code），體驗最佳

跑分解讀：和頂級閉源模型正面硬剛

K2.6 的對手是 GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro 這些頂級閉源模型。看看關(guān)鍵數(shù)據(jù)：

Agent 能力（最亮眼）：

測試項

K2.6

GPT-5.4

Claude Opus 4.6

K2.5

HLE-Full（帶工具）

54.0

52.1

53.0

50.2

DeepSearchQA（準確率）

83.0

63.7

80.6

77.1

BrowseComp（Agent Swarm）

86.3

78.4

MCPMark

55.9

62.5

56.7

29.5

Claw Eval（pass^3）

62.3

60.3

70.4

52.3

OSWorld-Verified

73.1

75.0

72.7

63.3

在 DeepSearchQA 上，K2.6 的準確率 83.0% 比 GPT-5.4 的 63.7% 高了接近 20 個點，這差距太大了

HLE-Full（帶工具）上也超過了所有閉源模型

編程能力：

測試項

K2.6

GPT-5.4

Claude Opus 4.6

K2.5

Terminal-Bench 2.0

66.7

65.4

50.8

SWE-Bench Pro

58.6

57.7

53.4

50.7

SWE-Bench Verified

80.2

80.8

76.8

LiveCodeBench v6

89.6

88.8

85.0

編程方面跟 GPT-5.4 和 Claude 基本持平甚至略有優(yōu)勢，作為開源模型，這個成績很炸裂

相比 K2.5 的躍升：

最能說明問題的是跟自家 K2.5 的對比：

MCPMark：29.5 → 55.9（近乎翻倍）
APEX-Agents：11.5 → 27.9（翻了 2.4 倍）
Terminal-Bench 2.0：50.8 → 66.7（**+15.9**）
BrowseComp：74.9 → 83.2
Claw Eval pass^3：52.3 → 62.3

MCPMark 的躍升最能說明問題——K2.5 對工具調(diào)用還比較生疏，K2.6 已經(jīng)輕車熟路了。

部署方式

K2.6 跟 K2.5 架構(gòu)相同，部署流程完全復(fù)用。官方推薦三個推理引擎：

vLLM 部署（推薦）：

# 安裝 vLLM（穩(wěn)定版推薦 0.19.1）
uv pip install -U vllm \
    --torch-backend=auto \
    --extra-index-url https://wheels.vllm.ai/nightly


 # 啟動服務(wù)（H200 單機 TP8）
vllm serve $MODEL_PATH -tp 8 \
    --mm-encoder-tp-mode data \
    --trust-remote-code \
    --tool-call-parser kimi_k2 \
    --reasoning-parser kimi_k2

注意兩個關(guān)鍵參數(shù)：--tool-call-parser kimi_k2開啟工具調(diào)用，--reasoning-parser kimi_k2開啟思考模式。

SGLang 部署：

# 安裝 SGLang
pip install "sglang @ git+https://github.com/sgl-project/sglang.git=python"
pip install nvidia-cudnn-cu12==9.16.0.29


 # 啟動服務(wù)
sglang serve --model-path $MODEL_PATH --tp 8 \
    --trust-remote-code \
    --tool-call-parser kimi_k2 \
    --reasoning-parser kimi_k2

KTransformers 部署（消費級顯卡也能跑！）：

這個是重點——KTransformers 支持 CPU+GPU 異構(gòu)推理，8 張 L20 + Intel CPU 就能跑起來，Prefill 640 tokens/s，Decode 24.5 tokens/s（48 并發(fā)）。更絕的是，配合 LLaMA-Factory 做 LoRA 微調(diào)，2 張 4090 就能搞定，訓(xùn)練吞吐 44.55 tokens/s。

# KTransformers + SGLang 異構(gòu)推理
python -m sglang.launch_server \
  --model /path/to/kimi-k2.6 \
  --kt-weight-path /path/to/kimi-k2.6 \
  --kt-cpuinfer 96 \
  --kt-num-gpu-experts 30 \
  --kt-method RAWINT4 \
  --tensor-parallel-size 4 \
  --trust-remote-code

transformers版本要求：>=4.57.1, <5.0.0

API 使用

K2.6 支持 Thinking 模式和 Instant 模式，API 兼容 OpenAI 和 Anthropic 格式：

import openai

 client = openai.OpenAI(
    base_url="https://platform.moonshot.ai/v1",
    api_key="YOUR_API_KEY"
)

 # Thinking 模式（默認，推薦 temperature=1.0）
response = client.chat.completions.create(
    model="kimi-k2.6",
    messages=[{"role": "user", "content": "解釋量子糾纏"}],
    max_tokens=4096
)
# response.choices[0].message.reasoning  ← 思考過程
# response.choices[0].message.content    ← 最終回答

 # Instant 模式（推薦 temperature=0.6）
response = client.chat.completions.create(
    model="kimi-k2.6",
    messages=[{"role": "user", "content": "解釋量子糾纏"}],
    max_tokens=4096,
    extra_body={"thinking": {"type": "disabled"}}
)

K2.6 還支持一個實用功能：Preserve Thinking——多輪對話中保留完整的推理鏈，對 Coding Agent 場景特別有用

另外，圖片和視頻輸入也都支持（視頻目前僅限官方 API）

我的觀點

說幾個讓我印象深刻的點：

1. Agent 集群能力是真正的差異化

GPT-5.4 和 Claude 在單步推理上依然強悍，但 K2.6 在 Agent 編排層面做出了差異化。300 個子 Agent 協(xié)同 4000 步，這個能力在開源世界里沒有對手。BrowseComp Agent Swarm 的 86.3 vs GPT-5.4 的 78.4，差距一目了然

2. 從 K2.5 到 K2.6 的進步幅度驚人

MCPMark 翻倍、APEX-Agents 翻 2.4 倍，這說明月之暗面在 Agent 能力上做了非常多針對性的優(yōu)化。K2.5 在工具調(diào)用上還有點笨拙，K2.6 已經(jīng)很絲滑了。

3. 部署門檻在降低

KTransformers 讓 L20 甚至 4090 用戶也有機會跑萬億參數(shù)模型，雖然速度不算快，但至少讓更多人能體驗到。LoRA 微調(diào)只要 2 張 4090，這個門檻對很多團隊來說已經(jīng)可以接受了。

不足之處也得說：

在純推理任務(wù)（AIME、HMMT、HLE-Full 無工具）上，跟 GPT-5.4 和 Gemini 3.1 Pro 還有差距
BabyVision 得分 39.8 遠低于 GPT-5.4 的 49.7，視覺理解還有提升空間
1T 參數(shù)的部署成本依然不低，H200 單機 TP8 才是推薦配置
Modified MIT License，商用需要注意許可條款

總結(jié)

Kimi K2.6 的定位非常清晰：開源世界的最強 Agent 模型

它不追求在所有維度碾壓閉源模型，而是在 Agent 編排、工具調(diào)用、長程編程這些"干活"場景上做到了最好

如果你在做 AI Agent 相關(guān)的產(chǎn)品，K2.6 值得認真評估

制作不易，如果這篇文章覺得對你有用，可否點個關(guān)注。給我個三連擊：點贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.