網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

4分鐘寫1200行代碼！27B模型編程基準(zhǔn)反超，價格3元-百萬Token

2026-04-26 17:03:05　來源: 獨舞獨舞

四川舉報

分享至

阿里通義千問團隊宣布開源Qwen3.6-27B——一款270億參數(shù)的稠密多模態(tài)模型，支持思考與非思考模式。

與相似尺寸的Gemma 4-31B模型對比，Qwen3.6-27B在大部分維度上，展現(xiàn)出較大領(lǐng)先優(yōu)勢。

隨著Qwen3.6-27B的發(fā)布，阿里稱Qwen3.6系列已完整發(fā)布，包括開源模型Qwen3.6-35B-A3B和閉源模型Qwen3.6-Plus、Qwen3.6-Max-Preview。

阿里云百煉平臺上，現(xiàn)在已經(jīng)可以看到Qwen3.6-27B的價格，每百萬Token輸入價格3元，輸出價格18元。由于Qwen3.6-27B是稠密模型，價格并不便宜。

Qwen3.6-27B現(xiàn)已上線Qwen Studio，并以開源權(quán)重形式發(fā)布于Hugging Face和ModelScope，阿里云百煉API即將上線，屆時將支持preserve_thinking功能以適配智能體任務(wù)。該模型也可接入OpenClaw、Claude Code、Qwen Code等主流第三方編程助手。

開源地址：

官方對比了Qwen3.6-27B和Qwen3.5-397B-A17B，在編程基準(zhǔn)上，Qwen3.6-27B在多方面領(lǐng)先：SWE-bench Verified（77.2 vs. 76.2）、SWE-bench Pro（53.5 vs. 50.9）、Terminal-Bench 2.0（59.3 vs. 52.5）以及SkillsBench（48.2 vs. 30.0）。在推理任務(wù)上，Qwen3.6-27B 在GPQA Diamond上取得了87.8的成績，略次于Qwen3.5-397B-A17B的88.4。

為直觀驗證Qwen3.6-27B編程能力，智東西進行了如下的幾個測試。

首先，我們先讓它做了一個跑酷小游戲，測試其編程和前端能力，要求滿足角色動作、關(guān)卡要素、道具系統(tǒng)、UI設(shè)計等多維度約束。

它用時四分鐘左右，寫完了1200多行代碼。從實測結(jié)果來看，游戲設(shè)計與前端實現(xiàn)上，Qwen3.6-27B基本還原了提示詞中列舉的全部核心要素：玩家的跳躍、二段跳等均已實現(xiàn)，添加了無人機、針刺等障礙物，能量電池、金幣、磁鐵等均可拾取。美術(shù)風(fēng)格符合設(shè)定，UI層完整展示了血量、分?jǐn)?shù)、速度、距離等指標(biāo)，游戲可玩性強。

但細(xì)節(jié)層面仍存在一些小問題，針刺懸浮在天上有點怪；吃到電池后，沒有能量條顯示；撞到箱子，就自動過去了，沒有扣除血量。

另外，我們還讓Qwen3.6-27B制作了個人記賬應(yīng)用，考察的是模型應(yīng)用開發(fā)能力和對閉環(huán)設(shè)計的理解，包括統(tǒng)計邏輯怎么算、數(shù)據(jù)怎么持久化、異常輸入怎么攔截，比寫一個靜態(tài)頁面要復(fù)雜得多。

在應(yīng)用開發(fā)上，Qwen3.6-27B的表現(xiàn)相對穩(wěn)健。生成的應(yīng)用完整實現(xiàn)了記錄的增刪改查、按月份篩選、總收入/總支出/結(jié)余的統(tǒng)計以及近7天收支趨勢圖表，刷新頁面后數(shù)據(jù)沒有丟失，說明localStorage持久化已正確實現(xiàn)。

唯一的小Bug是刷新頁面后，7日收支柱狀圖一度不顯示，再記一筆賬后恢復(fù)，屬于“初始渲染時機”問題。模型在異步狀態(tài)初始化的順序上，沒處理到位。從界面上看，這個記賬應(yīng)用視覺設(shè)計較為簡約，是一套偏實用向的標(biāo)準(zhǔn)控件組合。業(yè)務(wù)邏輯維度上，它把一個日常工具該有的數(shù)據(jù)流、統(tǒng)計邏輯與異常處理都串起來了，對于應(yīng)用開發(fā)全流程的理解比較清晰。

之后，我們還讓它做了個新聞網(wǎng)站前端設(shè)計，看起來還是有模有樣的。

Qwen3.6-27B自行規(guī)劃，分了科技、財經(jīng)、體育、娛樂、健康五大板塊，設(shè)有國內(nèi)新聞和國際新聞，界面右側(cè)，還展示了熱門排行、標(biāo)簽、北京的天氣，甚至把商業(yè)化都想好了，留出了廣告的位置。界面條理清晰，內(nèi)容完整，可視化效果好，模型對“一個新聞網(wǎng)站長什么樣”有較為成熟的認(rèn)知。

針對多模態(tài)能力，我們也對Qwen3.6-27B進行了測試，首先讓它識別了下面這幾個驗證碼。

可以看到，它較為清楚的判斷出了絕大多數(shù)驗證碼，只有第八個0AIs，他把s認(rèn)成了6，其他都判斷的比較準(zhǔn)確，同時也注明了自己不確定的部分。這種帶置信度反饋的識別方式，對后續(xù)的自動化校驗鏈路更友好，下游系統(tǒng)可以基于置信度決定是否自動通過。

展開思考過程，我們可以看到它多次確認(rèn)圖8的驗證碼0AIs，最后一位它在b和6之間反復(fù)糾結(jié)，被旁邊字母干擾，在錯誤的道路上越走越遠了，而正確答案s自始至終沒有進入過它的候選集。

這樣看下來，Qwen3.6-27B的圖像識別和推理能力還是過關(guān)的，得到相對模糊的反饋后，還需進行人工驗證。

另外，我們還讓Qwen3.6-27B進行了“找不同”測試，讓它看看左右兩張圖有什么區(qū)別。

Qwen3.6-27B識別出了5處差異，不同難度的不同點都注意到了：鳥窩、打開的書、燈籠、顏色差異，還有墻上的掛飾，這個我自己一開始都沒注意到。

值得注意的是，它的思考過程非常簡單，簡單比對就完成了分析，而且描述也很清晰，展示出模型的較強的視覺識別與推理能力。

Qwen3.6系列的發(fā)布，折射出阿里在開源策略的轉(zhuǎn)向。此前，阿里曾開源從幾十億參數(shù)量到數(shù)千億參數(shù)量的各種模型，但本次Qwen3.6系列僅開源了小尺寸MoE模型和稠密模型，體現(xiàn)出其開源戰(zhàn)略的聚焦。

此類小模型面向開發(fā)者、研究者及小團隊，可以直接本地部署，或在其基礎(chǔ)上做進一步研究和微調(diào)。Qwen3.6-27B恰好卡在了這個需求的中心位置。

開源社區(qū)對這一尺寸的模型呼聲很高；從實際價值看，27B的稠密模型也更能滿足開發(fā)者對部署靈活性和可控性的現(xiàn)實要求。

聲明：個人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.