網易首頁 > 網易號 > 正文申請入駐

DeepSeek V4 之后又被刷屏，螞蟻集團 Ling-2.6-1T 來了：1T 參數 + 快思考 + Agent 工程級實力

2026-05-11 14:38:35　來源: Ai學習的老章

北京舉報

分享至

繼 DeepSeek V4 之后，又被螞蟻集團的新模型 Ling-2.6-1T 刷屏了

開源地址：huggingface.co/inclusionAI/Ling-2.6-1T

線上直接使用：ling.tbox.cn

官方畫像：Engineering-Task-Friendly

螞蟻這次給 Ling-2.6-1T 的定位很明確——為 "Agentic" 時代而生，在執行類基準上全面占位：

Elite Reasoning ：在 AIME26 上領跑非思考類模型，難題求解極致克制
First-Tier Agent Execution ：SWE-bench Verified、TAU2-Bench、BFCL-V4 拿到 SOTA 段位，寫代碼、調工具、跑多步工作流都頂得住
Precision at Scale ：指令遵循（IFBench）和長上下文理解（256K MRCR）雙雙拿滿，復雜環境下邏輯一致性穩得住

Artificial Analysis 上的 Intelligence Index 拿到 34，輸出 token 大概 16M——同等智能水平下，它確實"話少"

跑分上和那些會展開長 CoT 的同段位選手打平，但 token 省得多，工程化場景下這個差距會被放大

因為：Ling-2.6 是把 token 效率作為VIP來設計，靠"快思考"機制直接給答案

官方給了一個詞叫 Contextual Process Redundancy Suppression（上下文冗余抑制），后訓練階段專門針對"模型一上來就長篇 CoT"這種行為做了壓制

為什么要這么做？因為現在很多模型病了——

一句"今天周幾"它先 OOOO 思考 3000 token
一個改 bug 的指令它能給你寫一篇議論文
你工程線上跑，Token 燒了不少，結果還是不出彩

老章覺得：對 Agentic 工作流來說，會克制比會思考更值錢

vLLM 本地部署

vLLM 一條命令跑起來：

pip install uv
uv venv ~/my_ling_env
source ~/my_ling_env/bin/activate

 git clone https://github.com/vllm-project/vllm.git
cd vllm
VLLM_USE_PRECOMPILED=1 uv pip install --editable . --torch-backend=auto

 vllm serve $MODEL_PATH \
    --port $PORT \
    --served-model-name my_model \
    --trust-remote-code --tensor-parallel-size 8 \
    --gpu-memory-utilization 0.85

螞蟻官方更推薦 SGLang，且對 MTP（多 token 預測）做了專門的 patch：git clone -b ling_2_6 git@github.com:antgroup/sglang.git

pip install "sglang[all]>=0.5.10.post1" --prerelease=allow


 sglang serve \
  --model-path inclusionAI/Ling-2.6-1T \
  --tp-size 8 \
  --max-running-requests 32 \
  --mem-fraction-static 0.92 \
  --chunked-prefill-size 8192 \
  --context-length 262144 \
  --trust-remote-code \
  --tool-call-parser qwen25

量化版也很能打

inferencerlabs 直接出了 Ling-2.6-MLX-3.6bit-INF：

huggingface.co/inferencerlabs/Ling-2.6-MLX-3.6bit-INF

實測數據（M3 Ultra 512 GiB）：

文本推理 ~11.3 tokens/s @ 1000 tokens ，占用 431 GiB
Q3.6-INF 用 data-agnostic INF 量化方法，在 512 GiB 內存預算內追求最大通用準確率
Token Accuracy 接近 95%，且對比同體量模型（Kimi K2.6）絲毫不虛

API 使用并接入Claude Code

API調用每日有 50 萬 token 的額度

ling.tbox.cn/open

API 可以很方便地接入到 Claude Code

方法：

將以下內容添加至 ~/.bashrc 或 ~/.zshrc：

export ANTHROPIC_BASE_URL=https://api.ant-ling.com/anthropic
export ANTHROPIC_AUTH_TOKEN=

更新環境變量：

source ~/.zshrc # 或 source ~/.bashrc

通過 --model 參數指定要使用的百靈模型，例如：

# 使用 Ling-2.6-flash（通用對話，速度快）
claude --model Ling-2.6-flash 

 # 使用 Ling-2.6-1T（大型代碼庫理解、長上下文分析）
claude --model Ling-2.6-1T 

 # 使用 Ring-1T（復雜推理、代碼調試）
claude --model Ring-1T

官方 Demo

光看跑分太干，螞蟻官方放了幾個 Demo，節選2個我覺得最能講清楚定位的：

Demo 1：開源即 Agent-Ready

它對自己的核心承諾是 token efficiency：

Lower token overhead ：要 intelligence，不要長鏈條 CoT
Reliable multi-step execution ：指令、工具、上下文、工作流四條線都能穩住
Production-ready deployment ：從代碼生成到 bug 修復，主流 Agent 框架兼容到位

官方放了一段在 @opencode 上的 Agentic 能力演示：

我看完最大的感受，它接進 Agent 框架后，沒有那種"先思考五分鐘再動手"的慢熱感，工具調用、文件讀寫、任務拆解之間銜接很絲滑

Demo 2：Agent + 知識庫的硬實力

這個 Demo 主打信息蒸餾 + 復雜內容檢索：

官方拿《百年孤獨》前兩章做了一次知識庫實體抽取測試，演示連接長期記憶工具后，它如何作為一個高精度記憶層為 Agent 工作流服務

實際意義對應到工作里就是：會議紀要、群聊記錄、PRD 文檔，丟一堆雜亂材料進去，它能直接給你出結論 + 待辦 + 周報草稿 + Wiki——而不是"一段總結然后讓你自己梳理"

實測

我在Ling Studio官網和接入到Claude Code都實際體驗了一下

第一感覺就是輸出速度太快了

每秒 160 Tokens 起步，快如閃電?

實測1：

> 請用 HTML5、CSS3 和純 JavaScript（Canvas）編寫一個單文件動態網頁，實現一場絢麗多彩的煙花盛況。要求如下： 
> 1. **視覺效果**：煙花爆炸要有多種形態（如經典球形、流星雨拖尾、心形等），每一顆煙花的顏色使用 HSL 隨機生成，保證色彩極其炫麗鮮艷，并且有發光/熒光效果。背景設置為帶有稀疏星星的深色夜空。 
> 2. **物理邏輯**：每一顆粒子都要受重力和空氣阻力影響，呈現真實的拋物線軌跡，并且在消散前有亮度衰減和閃爍效果。 
> 3. **交互設計**：系統需要自動、隨機地在屏幕下方發射煙花。同時，當用戶在屏幕上任何位置點擊（或觸摸）時，能立刻響應該坐標并在該位置燃放一朵指定煙花。 
> 4. **性能和代碼格式**：使用 `requestAnimationFrame` 保證動畫流暢運行。請將所有的 HTML、CSS 和 JS 代碼整合在一個獨立且完整的 `index.html` 文件中，方便我直接運行。

效果如下：

? 8種煙花爆炸形態
? HSL隨機鮮艷色彩 + 輝光效果
? 重力 + 空氣阻力物理模擬
? 自動隨機發射 + 點擊發射
? requestAnimationFrame 流暢動畫
? 背景閃爍星星

實測2：生成一套數據分析經典數據集，或使用已知知名數據集，進行詳細的數據分析全流程操作，生成一份圖文并茂的可本地預覽的 HTML 數據分析網站

它寫了1400多行代碼，技術棧：Dash + Plotly + Pandas + Bootstrap

 完成的功能模塊

 1. 數據概覽頁面

 -  數據集基本信息（150樣本，4特征，3類別）
-  統計信息卡片（樣本數、特征數、類別數、平均相關性）
-  原始數據表格（帶分頁）
-  描述性統計表格
-  類別分布柱狀圖

 2. 單變量分析

 -  特征分布直方圖（4個特征，按類別分組）
-  箱線圖展示
-  密度分布圖
-  小提琴圖（按類別分組）

 3. 雙變量分析

 - ? 交互式散點圖（可切換X/Y軸特征）
- ? 特征相關性熱力圖
-  散點圖矩陣（展示所有特征兩兩關系）

 4. 多變量分析

 -  平行坐標圖
-  雷達圖（各類別特征均值對比）
-  3D散點圖（可切換三個軸特征）
-  Andrews曲線（高維數據模式識別）

 5. 統計分析

 -  按類別分組的箱線圖
-  特征分布小提琴圖
-  詳細統計摘要表（包含均值、標準差、方差等）

 6. 機器學習預覽

 -  K-Means聚類分析（k=3）
-  PCA降維可視化（解釋95%方差）
-  聚類結果與實際類別對比表

最后再貼個網友@Adam實測：生成一個關于 Ling-2.6-1T 模型的介紹頁面，有高級感和科技感

視頻里那種版式語言、留白比例、字號節奏，看著像設計師交付的成品稿

這背后印證了官方那句話——它擅長在"明確風格 + 明確受眾 + 明確工作流"的指令下產出驚艷結果

模糊指令丟進去會得到平凡結果，但只要你愿意把 prompt 寫成給同事下 brief 的樣子，它的上限非常高

用法心法：3 個必須知道的高手玩法

跟著官方 README 和 Demo 摸了一圈，我把心法濃縮成 3 條：

心法一：溫度調到 0.8 左右

通用任務推薦 0.8（比常見模型略低），代碼生成任務建議更低

心法二：把工作流寫進 prompt

別只說"寫個方案"，要寫：

先理解目標
列出三種可能的框架
選擇最優框架
填充內容
最后寫一句話總結

心法三：先 Plan 再 Execute

抽象任務（如"幫我做個競品分析"）的黃金姿勢是兩輪對話——

第一輪：「請列出你完成這個任務的具體步驟和計劃」
第二輪：（確認/修改后）「請嚴格按照這個計劃開始執行」

因為 Ling-2.6-1T 是非思考模型，讓你來定義思考的路徑，反而能讓它的執行精度比那些"自己想很多"的模型更穩

總結

適合誰用：跑 Agent 工作流的開發者、被雜亂材料淹沒的知識工作者、對 token 成本敏感的工程團隊、喜歡"先 Plan 后 Execute"受控玩法的高級用戶

慎用場景：期待模型自動深度思考、期望生成復雜具象 SVG 多模態、不愿寫清楚 prompt 的用戶——它默認是「快思考」，對模糊指令不友好

螞蟻這次走的路線很清楚：讓模型聽話、讓模型干活、讓模型省 token

Agent 時代的工程模型，就該長這樣

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.