繼 DeepSeek V4 之后,又被螞蟻集團的新模型 Ling-2.6-1T 刷屏了
開源地址:huggingface.co/inclusionAI/Ling-2.6-1T
線上直接使用:ling.tbox.cn![]()
官方畫像:Engineering-Task-Friendly
螞蟻這次給 Ling-2.6-1T 的定位很明確——為 "Agentic" 時代而生,在執行類基準上全面占位:
![]()
Elite Reasoning :在 AIME26 上領跑非思考類模型,難題求解極致克制
First-Tier Agent Execution :SWE-bench Verified、TAU2-Bench、BFCL-V4 拿到 SOTA 段位,寫代碼、調工具、跑多步工作流都頂得住
Precision at Scale :指令遵循(IFBench)和長上下文理解(256K MRCR)雙雙拿滿,復雜環境下邏輯一致性穩得住
![]()
Artificial Analysis 上的 Intelligence Index 拿到 34,輸出 token 大概 16M——同等智能水平下,它確實"話少"
跑分上和那些會展開長 CoT 的同段位選手打平,但 token 省得多,工程化場景下這個差距會被放大
因為:Ling-2.6 是把 token 效率作為VIP來設計,靠"快思考"機制直接給答案
官方給了一個詞叫 Contextual Process Redundancy Suppression(上下文冗余抑制),后訓練階段專門針對"模型一上來就長篇 CoT"這種行為做了壓制
為什么要這么做?因為現在很多模型病了——
一句"今天周幾"它先 OOOO 思考 3000 token
一個改 bug 的指令它能給你寫一篇議論文
你工程線上跑,Token 燒了不少,結果還是不出彩
老章覺得:對 Agentic 工作流來說,會克制比會思考更值錢
vLLM 本地部署
vLLM 一條命令跑起來:
pip install uv
uv venv ~/my_ling_env
source ~/my_ling_env/bin/activate
git clone https://github.com/vllm-project/vllm.git
cd vllm
VLLM_USE_PRECOMPILED=1 uv pip install --editable . --torch-backend=autovllm serve $MODEL_PATH \
--port $PORT \
--served-model-name my_model \
--trust-remote-code --tensor-parallel-size 8 \
--gpu-memory-utilization 0.85
螞蟻官方更推薦 SGLang,且對 MTP(多 token 預測)做了專門的 patch:git clone -b ling_2_6 git@github.com:antgroup/sglang.git
量化版也很能打pip install "sglang[all]>=0.5.10.post1" --prerelease=allowsglang serve \
--model-path inclusionAI/Ling-2.6-1T \
--tp-size 8 \
--max-running-requests 32 \
--mem-fraction-static 0.92 \
--chunked-prefill-size 8192 \
--context-length 262144 \
--trust-remote-code \
--tool-call-parser qwen25
inferencerlabs 直接出了 Ling-2.6-MLX-3.6bit-INF:
huggingface.co/inferencerlabs/Ling-2.6-MLX-3.6bit-INF
實測數據(M3 Ultra 512 GiB):
文本推理 ~11.3 tokens/s @ 1000 tokens ,占用 431 GiB
Q3.6-INF 用 data-agnostic INF 量化方法,在 512 GiB 內存預算內追求最大通用準確率
Token Accuracy 接近 95%,且對比同體量模型(Kimi K2.6)絲毫不虛
API調用每日有 50 萬 token 的額度
![]()
ling.tbox.cn/open
API 可以很方便地接入到 Claude Code
方法:
將以下內容添加至 ~/.bashrc 或 ~/.zshrc:
export ANTHROPIC_BASE_URL=https://api.ant-ling.com/anthropic
export ANTHROPIC_AUTH_TOKEN=
更新環境變量:
source ~/.zshrc # 或 source ~/.bashrc
通過 --model 參數指定要使用的百靈模型,例如:
# 使用 Ling-2.6-flash(通用對話,速度快)
claude --model Ling-2.6-flash
# 使用 Ling-2.6-1T(大型代碼庫理解、長上下文分析)
claude --model Ling-2.6-1T# 使用 Ring-1T(復雜推理、代碼調試)
claude --model Ring-1T
光看跑分太干,螞蟻官方放了幾個 Demo,節選2個我覺得最能講清楚定位的:
Demo 1:開源即 Agent-Ready
它對自己的核心承諾是 token efficiency:
Lower token overhead :要 intelligence,不要長鏈條 CoT
Reliable multi-step execution :指令、工具、上下文、工作流四條線都能穩住
Production-ready deployment :從代碼生成到 bug 修復,主流 Agent 框架兼容到位
官方放了一段在 @opencode 上的 Agentic 能力演示:
我看完最大的感受,它接進 Agent 框架后,沒有那種"先思考五分鐘再動手"的慢熱感,工具調用、文件讀寫、任務拆解之間銜接很絲滑
Demo 2:Agent + 知識庫的硬實力
這個 Demo 主打信息蒸餾 + 復雜內容檢索:
官方拿《百年孤獨》前兩章做了一次知識庫實體抽取測試,演示連接長期記憶工具后,它如何作為一個高精度記憶層為 Agent 工作流服務
實際意義對應到工作里就是:會議紀要、群聊記錄、PRD 文檔,丟一堆雜亂材料進去,它能直接給你出結論 + 待辦 + 周報草稿 + Wiki——而不是"一段總結然后讓你自己梳理"
實測
我在Ling Studio官網和接入到Claude Code都實際體驗了一下
第一感覺就是輸出速度太快了
每秒 160 Tokens 起步,快如閃電?
![]()
實測1:
> 請用 HTML5、CSS3 和純 JavaScript(Canvas)編寫一個單文件動態網頁,實現一場絢麗多彩的煙花盛況。要求如下:
> 1. **視覺效果**:煙花爆炸要有多種形態(如經典球形、流星雨拖尾、心形等),每一顆煙花的顏色使用 HSL 隨機生成,保證色彩極其炫麗鮮艷,并且有發光/熒光效果。背景設置為帶有稀疏星星的深色夜空。
> 2. **物理邏輯**:每一顆粒子都要受重力和空氣阻力影響,呈現真實的拋物線軌跡,并且在消散前有亮度衰減和閃爍效果。
> 3. **交互設計**:系統需要自動、隨機地在屏幕下方發射煙花。同時,當用戶在屏幕上任何位置點擊(或觸摸)時,能立刻響應該坐標并在該位置燃放一朵指定煙花。
> 4. **性能和代碼格式**:使用 `requestAnimationFrame` 保證動畫流暢運行。請將所有的 HTML、CSS 和 JS 代碼整合在一個獨立且完整的 `index.html` 文件中,方便我直接運行。
效果如下:
? 8種煙花爆炸形態
? HSL隨機鮮艷色彩 + 輝光效果
? 重力 + 空氣阻力物理模擬
? 自動隨機發射 + 點擊發射
? requestAnimationFrame 流暢動畫
? 背景閃爍星星
實測2:生成一套數據分析經典數據集,或使用已知知名數據集,進行詳細的數據分析全流程操作,生成一份圖文并茂的可本地預覽的 HTML 數據分析網站
![]()
它寫了1400多行代碼,技術棧:Dash + Plotly + Pandas + Bootstrap
![]()
完成的功能模塊
1. 數據概覽頁面
- 數據集基本信息(150樣本,4特征,3類別)
- 統計信息卡片(樣本數、特征數、類別數、平均相關性)
- 原始數據表格(帶分頁)
- 描述性統計表格
- 類別分布柱狀圖
2. 單變量分析
- 特征分布直方圖(4個特征,按類別分組)
- 箱線圖展示
- 密度分布圖
- 小提琴圖(按類別分組)
3. 雙變量分析
- ? 交互式散點圖(可切換X/Y軸特征)
- ? 特征相關性熱力圖
- 散點圖矩陣(展示所有特征兩兩關系)
4. 多變量分析
- 平行坐標圖
- 雷達圖(各類別特征均值對比)
- 3D散點圖(可切換三個軸特征)
- Andrews曲線(高維數據模式識別)
5. 統計分析
- 按類別分組的箱線圖
- 特征分布小提琴圖
- 詳細統計摘要表(包含均值、標準差、方差等)
6. 機器學習預覽
- K-Means聚類分析(k=3)
- PCA降維可視化(解釋95%方差)
- 聚類結果與實際類別對比表
最后再貼個網友@Adam實測: 生成一個關于 Ling-2.6-1T 模型的介紹頁面,有高級感和科技感
視頻里那種版式語言、留白比例、字號節奏,看著像設計師交付的成品稿
這背后印證了官方那句話——它擅長在"明確風格 + 明確受眾 + 明確工作流"的指令下產出驚艷結果
模糊指令丟進去會得到平凡結果,但只要你愿意把 prompt 寫成給同事下 brief 的樣子,它的上限非常高
用法心法:3 個必須知道的高手玩法
跟著官方 README 和 Demo 摸了一圈,我把心法濃縮成 3 條:
心法一:溫度調到 0.8 左右
通用任務推薦 0.8(比常見模型略低),代碼生成任務建議更低
心法二:把工作流寫進 prompt
別只說"寫個方案",要寫:
先理解目標
列出三種可能的框架
選擇最優框架
填充內容
最后寫一句話總結
心法三:先 Plan 再 Execute
抽象任務(如"幫我做個競品分析")的黃金姿勢是兩輪對話——
第一輪:「請列出你完成這個任務的具體步驟和計劃」
第二輪:(確認/修改后)「請嚴格按照這個計劃開始執行」
因為 Ling-2.6-1T 是非思考模型,讓你來定義思考的路徑,反而能讓它的執行精度比那些"自己想很多"的模型更穩
總結
適合誰用:跑 Agent 工作流的開發者、被雜亂材料淹沒的知識工作者、對 token 成本敏感的工程團隊、喜歡"先 Plan 后 Execute"受控玩法的高級用戶
慎用場景:期待模型自動深度思考、期望生成復雜具象 SVG 多模態、不愿寫清楚 prompt 的用戶——它默認是「快思考」,對模糊指令不友好
螞蟻這次走的路線很清楚:讓模型聽話、讓模型干活、讓模型省 token
Agent 時代的工程模型,就該長這樣
制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.