![]()
全球最強編程模型,中國造。
作者丨吳海明
編輯丨梁丙鑒 馬曉寧
你可以從同事.skill 的爆火中看到兩種截然不同的時代情緒,其一固然是對 Markdown 文件“大變活人”這一魔幻現實的試探,而反面則是如今對模型能力的評價,已經離不開工作級任務的場景。
“AI 能不能替代程序員”的老生常談之下,今天的真問題是,國產大模型能在多大程度上接管開發工作流。
這背后是一個被反復驗證的痛點:當 AI Agent 被放進真實項目,它并沒有想象中那么“能扛活”。它能開始任務,但執行過程反復中斷,多輪對話后上下文丟失,結果前后不一致。面對非標準需求時,工具調用也頻頻失誤。你一覺醒來,發現流程早已卡死,標準結局總是如此。
問題的根源不在 Agent 的外殼,而在底層大模型本身還缺乏穩定可靠的“執行力”和“決策力”。
4月7日,阿里云通義千問 Qwen3.6-Plus 正式上線,在 Terminal-Bench 2.0 編程測試中超越了 Claude Opus 4.5,拿下全球編程模型榜首。
但我們決定換一種更接近真實場景的方式測一次,不用單點的 Benchmark,而是用兩套真實復雜任務,覆蓋“決策”與“執行”兩條能力軸,全面評估 Qwen 3.6-Plus 的智能體能力上限。
01
核心實測——“雙線”考核:
復雜決策 × Agentic Coding
現實中高價值的工作級任務,往往是多因素、多步驟、有約束、有風險,和“一步到位”的 ChatBot 對模型有著完全不同的能力需求。因此,大模型從“聊天工具”變成真正的智能體,復雜決策能力是一個分水嶺。
在本次測評中,我們選擇智能體決策與智能體編程兩個高難度、高價值場景,構建了雙線考核體系,檢驗模型在真實復雜任務中的自主規劃、動態決策與工程落地能力:
case1 教育改革試點方案設計:復雜規劃與現實決策
我們采用具備主動執行能力的代表性智能體框架 OpenClaw 進行測試,在教育改革背景下要求模型設計貼近真實場景的復雜規劃任務,從而系統評估模型在目標理解、任務拆解、路徑規劃、方案細化與執行決策等全流程環節中的表現。
這不是一道作文題,我們設計的任務難度遠超常規:
代碼塊
某市教育局計劃在 6 個月內,為 20 所公立中學試點部署一套“AI 學習助手”系統,幫助學生進行課后答疑、個性化練習和學習反饋。
已知條件如下:
- 總預算上限為 800 萬元人民幣
- 試點學校中,城區學校 8 所,縣鎮學校 12 所,數字化基礎差異明顯
- 部分教師擔心 AI 會增加備課和管理負擔
- 家長對于學生數據隱私、沉迷使用、以及答案依賴問題存在顧慮
- 教育局要求項目不能明顯擴大不同地區、不同家庭背景學生之間的教育差距
- 項目必須在下學期開始前完成首輪部署,且不能額外長期新增大量編制
- 若試點效果良好,未來 2 年內將考慮擴大到全市 200 所學校
請你作為項目顧問,完成一份試點實施方案。你的回答至少需要包括:
1. 問題定義
2. 目標與約束拆解
3. 6 個月試點方案
4. 公平性與風險控制
5. 評估體系
6. 是否擴大到 200 所學校的決策標準
額外要求:
- 明確說明關鍵假設
- 至少提出 2 個備選方案,并解釋推薦理由
- 體現短期可落地性與長期可擴展性的平衡
- 盡量給出可執行機制,而不是只講原則
補充條件:試點開始 2 個月后,媒體報道某校學生過度依賴 AI 完成作業,引發家長爭議;同時另有 3 所縣鎮學校反饋網絡與終端條件不足,實際使用率遠低于城區學校。請在原方案基礎上動態調整你的策略。
任務要求模型輸出:問題定義、目標約束拆解、6個月試點方案、公平性風險控制、評估體系、是否擴大的決策標準,以及要求至少2個備選方案并說明推薦理由。
這考驗的不是文字生成能力,而是真正的“任務拆解與組織執行”能力。一般模型很容易輸出一堆空洞的規劃方案,且極難把控資源分配與具體任務拆解,看看 OpenClaw 在 Qwen3.6-Plus 模型下是怎么完成工作的:
1.復雜問題結構化拆解
把模糊需求快速轉化為問題定義、目標分層、約束清單、預算分配、時間線、評估體系等完整框架,邏輯嚴密、層級清晰,全程無口號空話,體現專業級復雜決策與任務拆解水平。
2.多約束下精準資源平衡
在 800 萬預算、6 個月周期、城鄉差異、教師負擔、公平底線、無新增編制等多重強約束下,給出可執行、可量化、可評審的落地方案,預算一分不差、資源向縣鎮傾斜,兼顧效率與公平。
3.動態風險應急與迭代決策
面對試點第 2 個月輿情危機 + 縣鎮設備網絡不足雙突發事件,模型快速給出應急響應、功能調整、預算內部調劑、部署重排,做到不超預算、不延期、閉環解決,展現真實智能體動態決策能力。
4.全周期規劃與規模化擴展思維
Qwen3.6-Plus 不僅完成了 6 個月試點設計,還同步給出試點規模擴展至 200 所學校的 Go/No-Go 硬標準、三階段擴展路徑、成本優化機制,從架構、制度、人員、數據全方面預留接口,短期可落地、長期可擴展,思維閉環且專業。
可以看到,Qwen3.6-Plus 在本次政府級復雜決策任務中,交付了完成度極高的方案,這背后是高水平的目標理解、全鏈路規劃、動態風險應對、多約束平衡能力,正是我們對智能體在面對復雜決策時所期待的。
![]()
case2 AI TODO Board 全流程開發:Coding 能力考核
如果說 case1 是考察復雜場景的決策能力,那么 case2 則側重于 Qwen3.6-Plus 在 Coding 任務中的工程閉環水平。
我們采用開源智能編程工具 OpenCode 進行測試,重點考察模型是否具備從需求理解到完整項目交付的全鏈路工程實現能力。評估內容不僅包括最終項目是否可運行、功能是否完整有效、代碼結構是否清晰合理,還覆蓋模型在編程全流程中的關鍵能力,任務拆解、實現路徑規劃、階段性決策、測試與調試、問題定位與修復,以及基于反饋持續迭代并收斂到可用結果的能力。
# Coding Evaluation Task
你是一個高級軟件工程 Agent,請完成一個可運行的 **TODO** 項目,并體現完整閉環能力:需求理解、任務拆解、實現規劃、編碼、測試、修復、交付。
任務:開發一個 **AI TODO Board**,讓用戶通過自然語言創建 TODO,在看板中管理狀態,并通過 AI 風格能力自動拆解子任務、識別優先級、提示風險和下一步動作。
技術要求:Next.js 15+ 或 React + Vite,TypeScript,Tailwind CSS,可使用 shadcn/ui 或 Radix UI,測試使用 Vitest / Jest + Testing Library,可使用 mock 數據,不要求真實后端。
功能要求:實現三列 TODO 看板 Todo、Doing、Done;每個 TODO 卡片至少包含標題、描述、優先級、截止時間、標簽、子任務摘要、完成進度;支持狀態流轉,可拖拽,如不使用拖拽需提供合理替代交互。提供自然語言輸入框,例如“明天下午前完成招聘首頁改版,包含 Hero、崗位列表、FAQ,優先級高”,系統需自動提取標題、解析時間、推斷優先級、生成 3–5 個子任務,并允許用戶在提交前編輯。右側提供 AI Assistant 面板,支持 TODO 拆解建議、風險提示、下一步建議、逾期提醒。需要支持搜索、按優先級篩選、僅看逾期、快速標記完成、空狀態、加載態、錯誤態。
UI / UX 要求:暗色模式優先,現代、精致、未來感 SaaS 風格,有明顯層級、留白、卡片質感和細微動效,桌面端完整可用,移動端基本可用,不能是腳手架默認后臺風格。
你必須輸出:1. 需求理解,2. 實現計劃,3. 項目結構,4. 核心代碼,5. 測試代碼,6. 修復過程,7. 運行說明,8. 權衡與不足。
必須測試:自然語言解析函數、創建 TODO 流程、TODO 狀態切換邏輯、篩選邏輯。
實現后繼續修復并說明過程:移動端橫向溢出,輸入“明天”時時間解析不穩定,Done 列 TODO 很多時滾動體驗差,篩選后狀態切換導致列表顯示異常;你需要說明如何定位問題、如何修改、如何驗證修復成功。
你還將收到一張參考 UI 截圖,請分析其布局、層級、配色、間距、組件關系,并高保真復刻該頁面,說明哪些部分完全復刻,哪些部分做工程化折中,然后基于截圖繼續修改代碼直到盡量接近。
不要只寫思路,必須給出可運行代碼、測試代碼、修復后的最終實現。
這不是一個能靠蠻干硬生生“寫”出來的任務。
開發一個 AI TODO Board,需實現三列看板(Todo、Doing、Done),支持自然語言創建 TODO 并自動提取標題、時間、優先級、子任務,還要提供 AI Assistant 面板進行拆解建議和風險提示,支持搜索、篩選,輸出完整實現計劃、項目結構、核心代碼、測試代碼、修復過程說明。
傳統大模型在這種場景下,即使表面上能完成交付,也往往難以實際運行。但是 Qwen3.6-Plus 表現得像是一位非常老道的架構工程師和 UI 設計師。
1.全流程閉環開發,任務規劃與實時進展可視化
項目啟動階段,Qwen3.6-Plus 首先進行了需求拆解,精準把握 AI TODO Board 開發的核心技術,還制定了包含 16 個步驟的清晰實現計劃。從項目初始化、依賴安裝,到核心功能開發、測試編寫,再到問題修復,這套方案可以直接交給工業級軟件工程團隊去執行,而且每一步均以可視化進度條實時呈現進展。
開發過程中,模型嚴格遵循軟件工程規范,像專業的開發團隊一樣,依次完成了從任務拆解到測試交付的全鏈路環節,不僅實現了測試用例全部通過,還針對移動端橫向溢出、時間解析不穩定、滾動體驗差等核心問題進行系統性修復,確保項目從原型到成品的平穩落地。
值得注意的是,在開發服務器啟動、本地部署等環節 Qwen3.6-Plus 均一次成功,交付效率遠超常規開發流程。
![]()
![]()
2.代碼迭代與精準返修,工程化能力拉滿
在代碼實現階段,Qwen3.6-Plus 展現出扎實的技術功底與嚴謹的代碼迭代邏輯。針對項目核心模塊,模型完成了從組件設計到狀態管理的全棧開發:
? 基于 Radix UI 與 shadcn/ui 搭建現代化 UI 組件庫,打造沉浸式暗色 SaaS 風格界面;
? 開發自然語言解析器,實現中英文時間、優先級智能提取與子任務自動生成;
? 利用 Zustand 完成 TODO 狀態管理,支持拖拽流轉、搜索篩選、逾期提醒等全功能;
返修是軟件工程不可避免的環節,能否精準定位問題所在進行針對性修改,再完成驗證的閉環,是模型在工作級任務中會面對的真實考驗。在 AI TODO Board 的開發中,Qwen3.6-Plus 也有著不俗的表現。
移動端橫向溢出問題,通過調整容器寬度與布局屬性解決,優化時間解析邏輯,統一使用 UTC 時間處理避免解析偏差,替換滾動組件提升 Done 列大數量場景的滾動體驗,重構篩選邏輯消除狀態切換后的顯示異常……
每一次修復均配套新增測試用例驗證,確保問題徹底解決且不引入新 bug。這些過程都是由模型自主完成,我看到的,只有開發日志里一行行清晰可追溯的記錄。
![]()
![]()
3.高保真 UI 復刻與功能全覆蓋,交付質量達標
原生多模態能力使得 Qwen3.6-Plus 能嚴格參考 UI 截圖完成高保真復刻,在布局層級、配色風格、組件交互上高度還原設計要求。
在功能層面,交付成果也完全覆蓋需求。應用支持自然語言輸入,可自動提取標題、解析時間,然后生成 3-5 個子任務且支持編輯;AI 助手面板提供拆解建議、風險提示等能力;搜索、優先級篩選、逾期查看等實用功能也逐一實現。最終交付的項目,可直接本地部署運行,界面與功能均達到預期交付標準。
![]()
4.極致測試與問題閉環,質量把控體系完善
測試環節是模型交付的核心亮點之一。Qwen3.6-Plus 針對核心模塊編寫了全覆蓋測試用例,包括 23 個自然語言解析測試、14 個狀態管理與流程測試,全面驗證自然語言解析、TODO 創建、狀態切換、篩選邏輯等核心功能的穩定性。
在修復環節,模型針對每一個暴露的問題均完成了 “定位 - 修改 - 驗證” 的全流程,新增邊緣測試用例確保修復效果的穩定性,最終實現項目零核心 bug、測試全通過的高質量交付狀態。
![]()
![]()
當然,測試案例也暴露了 Qwen 3.6-Plus 不穩定的一面。在實測中我們觀察到了明顯短板:
? 首字延遲(TTFT):免費預覽版首字出現時間有時高達11秒,在需要快速反饋的場景下會破壞開發者心流
?偶發性輸出循環(Looping):在極高復雜度任務中,模型有時會陷入重復輸出同一段內容的循環
?API頻率限制較嚴格:Rate Limit 在高頻Agent自動化任務中容易觸發,可能中斷長流程執行
?安全邊界能力不足:在安全相關任務(權限管理、加密實現)上成功率僅為43.3%,不建議在涉及高安全級別的自動化流程中單獨使用
但兩項測試完成后,一個感受仍然很清晰,Qwen 3.6-Plus 好像一支完整的團隊,在任務規劃、代碼迭代和問題精準修復上,表現出了工業級軟件工程的交付水準。
02
Agentic Coding 的工程高地
Qwen 3.6-Plus 的特別之處在于,雙線并行的格局首次在國產模型中出現。過往國產模型往往只在某一維度上突出,能寫代碼但決策弱,能規劃但執行崩,但工業級 Agentic Coding 需要的恰恰是二者兼具。Qwen 3.6-Plus 做到了這一點,在編程智能體和復雜流程決策兩條戰線上同時逼近第一梯隊:
? Terminal-Bench 2.0:61.6分,超越Claude Opus 4.5(59.3),在shell操作、文件管理、進程控制等硬核終端任務上,它是目前最強的模型之一;
? Claw-Eval:58.7分,極接近Claude Opus 4.5(59.6),在真實世界多步Agent任務中進入第一梯隊;
? Claw-Eval:58.7分,極接近Claude Opus 4.5(59.6),在真實世界多步Agent任務中進入第一梯隊;
? SWE-bench Verified:78.8%,處理大多數企業級Bug修復和代碼重構已綽綽有余;
? 成本:輸入¥2/M,輸出¥12/M,約為Claude的1/10;
![]()
這意味著什么?
在 Terminal 操控和工具調用上的領先,使 Qwen 3.6-Plus 成為了當前最適合丟進 OpenClaw 這類 Agent 框架中“跑起來”的國產模型。不是輔助寫代碼,它真的能做到像你的 AI 開發搭檔那樣,驅動產品長出來。在 Coding 賽道已經成為一片紅海的今天,Qwen 3.6-Plus 再一次讓軟件開發的門檻降了一截。
從被調用的工具到執行任務的參與者,當模型角色的這一轉型越發成為各大廠商的共識,我們看到阿里做出了自己的選擇。Qwen 3.6-Plus 的戰略定位并非全能型選手,更像是專攻 Agentic Coding 這一垂直場景的作品。背后的原因不難理解,當基礎模型的能力趨于同質化,能否在真實工程環境中自主完成任務已經成為了最重要的競爭高地。
03
模型層,走向參數效率之爭
更值得注意之處在于,Qwen 3.6-Plus 在參數效率上表現出了顯著的優勢。橫向對比,GLM-5、Kimi-K2.5 等模型的參數量均是其 2-3 倍。
用更少的參數實現更好的性能,這在大模型此前普遍以參數規模換智能水平的背景下,可以被視為一種全新的范式轉移。
比起小模型的“妥協”,一個越來越無法忽視的視角是,大模型的商業化正在重新定義 AI 性能的標準。模型訓練、推理一向以重投入的面目示人,也順理成章地成為了大模型商業化的瓶頸,而更高的參數效率會讓模型廠商在上述領域擁有寶貴的競爭力。
Benchmark 仍有意義,但今天單位成本下的有效智能更能說明問題。在當前的技術脈絡中,參數效率,已經成為了模型規模化落地的鑰匙。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.