<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

      剛剛,中國AI闖入全球編程前二!前面只剩Claude

      0
      分享至


      新智元報(bào)道


      【新智元導(dǎo)讀】Code Arena最新放榜,Qwen3.7-Max以1541分沖進(jìn)全球第四,成為前五中唯一的非Claude模型。編程,中國模型第一次殺到這個(gè)位置。

      就在今天,Code Arena最新榜單出爐!

      Qwen3.7-Max以1541分闖入全球前四,一舉超越了GPT-5.5、Gemini 3.5 Flash等一眾頂尖模型。

      排在它前面的,只剩Claude Opus 4.7和Opus 4.6。



      換句話說,在全球編程模型的競技場上,阿里是唯一殺進(jìn)這張牌桌的中國廠商,僅次于Anthropic,位列第二。

      Qwen3.7-Max闖入全球前五

      唯一非Claude模型

      其實(shí)在Code Arena放榜之前,Qwen3.7-Max在海外開發(fā)者圈子里已經(jīng)殺出了名聲。

      Atomic Chat做了一場硬碰硬的對比,讓Opus 4.7、GPT-5.5和Qwen3.7-Max同臺(tái)競技,任務(wù)是寫一個(gè)能自我訓(xùn)練的俄羅斯方塊AI。

      結(jié)果,Qwen3.7-Max不僅只用$1.32的token成本就把Opus 4.7和GPT-5.5都超越了,而且性能還提升了56%。


      另一位海外開發(fā)者選擇讓Qwen3.7-Max構(gòu)建了一個(gè)宇宙的3D模型,效果足以用震撼形容。


      在「3D像素風(fēng)微縮寶塔模型」的生成任務(wù)中,Qwen3.7-Max的輸出速度和質(zhì)量同樣全面勝出。






      左右滑動(dòng)查看

      開發(fā)者Paul Couvert更是盛贊,Qwen3.7-Max接入Hermes Agent和OpenCode之后,基本可以替掉GPT-5.5和Opus 4.7。


      編程,太能打了

      不過跑分再高,不如真刀真槍拉出來練練。

      我們給Qwen3.7-Max安排了一場硬核的「賽車游戲」挑戰(zhàn)。

      一段詳細(xì)的Prompt丟進(jìn)去,不一會(huì)兒功夫,Qwen3.7-Max直出一個(gè)可玩的HTML的文件。


      第一版有個(gè)小bug,A/D轉(zhuǎn)向鍵左右搞反了。

      但經(jīng)過第二輪簡單對話微調(diào),一個(gè)體驗(yàn)完整的3D賽車游戲就跑了起來。


      打開的瞬間,說實(shí)話,有點(diǎn)被驚到了。

      4車同臺(tái),3圈環(huán)形賽道競速,賽道上散落著100多枚金幣,碰到障礙物會(huì)減速、失控。

      賽后成績面板,排名、用時(shí)、金幣數(shù)、最快單圈,一項(xiàng)不缺。

      但真正讓人意外的,是兩個(gè)只有Qwen3.7-Max做到的細(xì)節(jié)。

      一個(gè)是開始界面。四個(gè)模型橫向測完,只有它給游戲做了一個(gè)正經(jīng)的開始頁面,點(diǎn)「Start」才進(jìn)入比賽。其他三家全是打開即跑,連個(gè)標(biāo)題畫面都沒有。

      另一個(gè)是音效。Prompt最后附了一條要求,加上發(fā)動(dòng)機(jī)轟鳴和吃金幣的音效。 四個(gè)模型里,也只有它把這個(gè)bonus吃進(jìn)去了,引擎聲和金幣叮咚都安排上了。


      再看看其他選手的表現(xiàn)。

      Gemini 3.5 Flash的畫面明顯單薄了一檔,缺少那種呼之欲出的立體感。

      UI布局也有問題,儀表盤信息分散在屏幕四角,視覺焦點(diǎn)一盤散沙。

      相比之下,Qwen3.7-Max的處理方式是把關(guān)鍵指標(biāo)集中到畫面中央,更符合玩家視線的自然落點(diǎn)。



      Claude Opus 4.6的效果,有點(diǎn)讓人一言難盡了。

      不僅賽道上金幣少得可憐,而且3輛AI賽車幾乎同步行駛,毫無隨機(jī)性,像復(fù)制粘貼出來的。

      最后是GPT-5.5。

      可以看到,畫面質(zhì)感確實(shí)比前兩家強(qiáng)了不少,操作起來也更流暢。

      但不知道為什么,金幣被做成了黃色的「甜甜圈」……

      造型倒是小事。關(guān)鍵是,Gemini、Claude、ChatGPT三家都修了好幾輪bug才跑通全部功能。

      只有Qwen3.7-Max首輪生成就基本可玩。

      跑分接近,實(shí)測不虛,價(jià)格只有幾分之一。剩下的結(jié)論,等開發(fā)者用腳投票就行了。

      Agent時(shí)代的「基座」模型

      Qwen3.7-Max之所以能在最卷的編程擂臺(tái)上打出如此水平,答案就藏在它的產(chǎn)品定位里。

      幾天前,阿里發(fā)布Qwen3.7-Max的時(shí)候,給了它一個(gè)非常特殊的標(biāo)簽:Agent基座模型


      它生來,就是為長時(shí)間自主執(zhí)行任務(wù)設(shè)計(jì)的模型。

      內(nèi)測數(shù)據(jù)顯示,在一次自主編程任務(wù)中,Qwen3.7-Max連續(xù)運(yùn)行35個(gè)小時(shí),執(zhí)行1158次工具調(diào)用。

      最終生成的代碼相較于Triton參考實(shí)現(xiàn),達(dá)到了驚人的10倍幾何平均加速。


      更令人震撼的是它的「持久戰(zhàn)」能力——

      在推演進(jìn)行到第30個(gè)小時(shí)之后,模型依然保持敏銳,持續(xù)挖掘出新的優(yōu)化空間。

      全程零上下文退化、零指令漂移、零死循環(huán)!

      不得不說,這件事的難點(diǎn)不在1000次工具調(diào)用本身。MCP協(xié)議鋪開之后,調(diào)1000次工具不算稀奇。

      難點(diǎn)在于,35小時(shí)的連貫推理。

      絕大多數(shù)模型跑長任務(wù)時(shí)會(huì)崩盤:要么上下文越積越亂,前半段定的目標(biāo)到后面忘得干干凈凈;要么進(jìn)入死循環(huán),反復(fù)嘗試同一個(gè)失敗的方案。

      Qwen3.7-Max把「持續(xù)做對事」這件事,做出來了。

      核心技術(shù)揭秘

      Qwen3.7-Max這波編程躍升,我們理解核心可能與兩個(gè)訓(xùn)練方法的升級(jí)有關(guān)。

      第一個(gè)是,環(huán)境擴(kuò)展。

      Qwen3.7-Max在做編程訓(xùn)練時(shí),每個(gè)任務(wù)會(huì)被拆成三個(gè)獨(dú)立維度,任務(wù)本身、執(zhí)行框架、驗(yàn)證方式,三者自由組合。

      同一道題,有時(shí)候在Claude Code的框架里做,有時(shí)候在OpenClaw里做,有時(shí)候換一種驗(yàn)證方式。

      效果就像一個(gè)實(shí)習(xí)生被輪崗到了所有項(xiàng)目組。它被迫學(xué)會(huì)的是解決問題的通用策略,不是「在某個(gè)特定框架里怎么取巧」。

      這解釋了一個(gè)反直覺的現(xiàn)象,Qwen3.7-Max在Claude Code、OpenClaw、Qwen Code這幾個(gè)框架里的表現(xiàn)都很穩(wěn),沒有出現(xiàn)「在自家框架里很強(qiáng)、換一個(gè)就拉胯」的情況。


      第二個(gè)升級(jí)是長程自主執(zhí)行。

      在訓(xùn)練中,團(tuán)隊(duì)引入了「動(dòng)態(tài)累積生存博弈」框架。

      也就是,讓模型在持續(xù)變化的模擬環(huán)境中做超過一千步的連續(xù)決策,自己建立假設(shè)、根據(jù)反饋調(diào)整策略,而且不能因?yàn)榕芴镁汀干舷挛母埂?/p>

      這里有一個(gè)直觀的數(shù)據(jù),YC-Bench模擬創(chuàng)業(yè)公司經(jīng)營一整年,Qwen3.7-Max做到了208萬美元營收,是上一代(105萬)的兩倍。

      更關(guān)鍵的是,它展現(xiàn)出了策略進(jìn)化,中期遇到危機(jī)能自主調(diào)整方向,識(shí)別并拉黑惡意客戶,最終收斂到穩(wěn)定的執(zhí)行循環(huán)。


      這就是35小時(shí)kernel優(yōu)化案例的底層支撐,也是為什么在Kernel Bench L3上,Qwen3.7-Max能讓96%的場景跑出加速效果。

      而編程還只是第一個(gè)戰(zhàn)場。這套長程推理加工具調(diào)用的底子,指向的是一個(gè)更大的野心——通用Agent基座。

      編程決賽,多了一個(gè)攪局者

      Code Arena上線至今,考的從來都是硬活,多步推理、工具編排、完整項(xiàng)目交付,全是Agent級(jí)的真刀真槍。

      今天,Qwen3.7-Max憑借著1541分的成績楔進(jìn)了第四的位置,卡在Opus 4.6 Thinking和Opus 4.6之間。

      在這條Claude統(tǒng)治了大半年的賽道上,它給出了自己的回答,中國模型不只是追趕者,也可以是定義者。

      全球編程模型的競賽,已經(jīng)不再是硅谷的獨(dú)角戲了。

      參考資料:

      https://arena.ai/leaderboard/code/webdev

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      李晨鄭愷停更后續(xù),節(jié)目中更多被欺凌片段爆出,沙溢評(píng)論區(qū)已淪陷

      李晨鄭愷停更后續(xù),節(jié)目中更多被欺凌片段爆出,沙溢評(píng)論區(qū)已淪陷

      樂天閑聊
      2026-05-25 13:59:46
      《主角》收官,憶秦娥自首那一刻,胡三元才懂劉紅兵為何非死不可

      《主角》收官,憶秦娥自首那一刻,胡三元才懂劉紅兵為何非死不可

      草莓解說體育
      2026-05-27 00:25:48
      伊朗媒體:伊朗全面恢復(fù)國際互聯(lián)網(wǎng)連接

      伊朗媒體:伊朗全面恢復(fù)國際互聯(lián)網(wǎng)連接

      界面新聞
      2026-05-26 23:27:13
      腰斬!小米一季度業(yè)績?yōu)楹瓮蝗弧白兡槨?>
    </a>
        <h3>
      <a href=杠桿游戲
      2026-05-26 21:05:39
      Shams:阿特金森繼續(xù)擔(dān)任騎士主帥 球隊(duì)休賽期會(huì)嘗試補(bǔ)強(qiáng)陣容

      Shams:阿特金森繼續(xù)擔(dān)任騎士主帥 球隊(duì)休賽期會(huì)嘗試補(bǔ)強(qiáng)陣容

      羅說NBA
      2026-05-27 06:04:59
      文某某虐童已被執(zhí)行死刑,最高法:踐踏人倫底線、手段極其惡劣

      文某某虐童已被執(zhí)行死刑,最高法:踐踏人倫底線、手段極其惡劣

      新京報(bào)
      2026-05-26 17:20:32
      上海六年高薪保姆一朝決裂:再好的主雇情分,也抵不過清晰的規(guī)矩

      上海六年高薪保姆一朝決裂:再好的主雇情分,也抵不過清晰的規(guī)矩

      朗威談星座
      2026-05-27 01:13:07
      中央定調(diào),退休再打工群體新政策,7月1日正式施行,老年人多關(guān)注

      中央定調(diào),退休再打工群體新政策,7月1日正式施行,老年人多關(guān)注

      丁丁鯉史紀(jì)
      2026-05-26 19:35:59
      明天開播!36集都市劇湖南衛(wèi)視來襲,預(yù)約破300萬陣容強(qiáng)大,要火

      明天開播!36集都市劇湖南衛(wèi)視來襲,預(yù)約破300萬陣容強(qiáng)大,要火

      娛君墜星河
      2026-05-26 14:58:10
      李家風(fēng)波再爆重磅新料!東周刊獨(dú)家曝光李家鼎女友是馬貫東母親,與李泳豪因財(cái)產(chǎn)激烈爭執(zhí)

      李家風(fēng)波再爆重磅新料!東周刊獨(dú)家曝光李家鼎女友是馬貫東母親,與李泳豪因財(cái)產(chǎn)激烈爭執(zhí)

      TVB資訊臺(tái)
      2026-05-26 23:00:25
      郭正亮:毛選第四卷令我驚訝,毛主席的判斷幾乎跟后來的歷史吻合

      郭正亮:毛選第四卷令我驚訝,毛主席的判斷幾乎跟后來的歷史吻合

      浩渺青史
      2026-05-24 17:21:27
      孫興慜告別戰(zhàn)陰云籠罩韓國隊(duì)

      孫興慜告別戰(zhàn)陰云籠罩韓國隊(duì)

      熱血體育社
      2026-05-26 01:11:23
      26歲身價(jià)30億,如今負(fù)債百億!ofo戴威,把一手王炸徹底打爛

      26歲身價(jià)30億,如今負(fù)債百億!ofo戴威,把一手王炸徹底打爛

      流蘇晚晴
      2026-05-26 17:59:55
      朱時(shí)茂陳佩斯現(xiàn)狀曝光差距大,一人家財(cái)萬貫,一人真被倪萍說中了

      朱時(shí)茂陳佩斯現(xiàn)狀曝光差距大,一人家財(cái)萬貫,一人真被倪萍說中了

      孤城落日
      2026-05-26 19:45:03
      6.4萬 中國市場最貴輔助駕駛系統(tǒng)!特斯拉FSD已在國內(nèi)灰度推送約5000臺(tái)車

      6.4萬 中國市場最貴輔助駕駛系統(tǒng)!特斯拉FSD已在國內(nèi)灰度推送約5000臺(tái)車

      快科技
      2026-05-26 18:13:08
      獨(dú)家拆解|不限樓齡、專收老破小:廣州“收房打法”有多高明?

      獨(dú)家拆解|不限樓齡、專收老破小:廣州“收房打法”有多高明?

      海右那人
      2026-05-26 15:56:49
      浦東機(jī)場55名司機(jī)雨夜甩客被行拘,背后黑產(chǎn)鏈曝光,網(wǎng)友:解氣!

      浦東機(jī)場55名司機(jī)雨夜甩客被行拘,背后黑產(chǎn)鏈曝光,網(wǎng)友:解氣!

      愛下廚的阿釃
      2026-05-26 20:56:09
      綠軍主帥馬祖拉當(dāng)選最佳教練 力壓活塞和馬刺主帥

      綠軍主帥馬祖拉當(dāng)選最佳教練 力壓活塞和馬刺主帥

      體壇周報(bào)
      2026-05-27 07:47:14
      25分鐘僅拿1分!賽后卻獲主教練力捧,他防住了對方頭號(hào)得分手

      25分鐘僅拿1分!賽后卻獲主教練力捧,他防住了對方頭號(hào)得分手

      老葉評(píng)球
      2026-05-26 22:41:33
      殲-15近乎全退役,成全球最短命艦載機(jī),有何短板?

      殲-15近乎全退役,成全球最短命艦載機(jī),有何短板?

      緊跟時(shí)代脈搏
      2026-05-20 13:55:55
      2026-05-27 08:08:49
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
      15313文章數(shù) 66893關(guān)注度
      往期回顧 全部

      科技要聞

      狂飆19%!美光科技市值破萬億美元

      頭條要聞

      食客吃完面往剩湯中加6勺辣椒醬 被店家不打碼發(fā)網(wǎng)上

      頭條要聞

      食客吃完面往剩湯中加6勺辣椒醬 被店家不打碼發(fā)網(wǎng)上

      體育要聞

      上賽季差點(diǎn)降入英甲,下賽季要踢英超了

      娛樂要聞

      臺(tái)媒貼臉!S媽被問大S嗑藥當(dāng)場沉默

      財(cái)經(jīng)要聞

      中國鋁行業(yè)爆單 下一個(gè)“煤炭”大周期?

      汽車要聞

      涉水加強(qiáng) 福特烈馬亞馬遜限量版上市 售價(jià)39.98萬

      態(tài)度原創(chuàng)

      家居
      親子
      教育
      藝術(shù)
      公開課

      家居要聞

      生與命相依 舊公寓改造

      親子要聞

      孩子越胖越有福氣?別讓“可愛”透支了他的身高潛力

      教育要聞

      高考地理:做對這幾件事,讓你多拿15分,不開玩笑!

      藝術(shù)要聞

      蔣中正篆書有功夫卻欠傳統(tǒng)韻味,初學(xué)者為何覺得古人書法丑

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲更新最快无码视频| 成人网页在线观看| 亚洲成av不卡无码无码不卡| 50路60路老熟妇啪啪| 91亚洲国产成人aⅴ毛片大全| 日韩精品毛片人妻AV不卡| 亚洲天堂日本| 中国一级毛片视频免费看| 欧洲S码亚洲M码精品一区| 人妻AV中文字幕一区二区三区 | 欧美喷白浆| 长乐市| 十八禁午夜福利免费网站| 人妻精品视频| 久久久久亚洲AV无码专区喷| 少妇高清一区二区免费看| 人妻丰满熟妇av无码区波多野| 六月婷婷AV| 国产黄在线观看免费观看不卡| 欧洲美熟女乱av在免费| 另类无码| 国产人妖ts在线观看网站| 免费永久在线观看黄网站| 人人干人人爽| 视频一区无码中出在线| 日本中文字幕不卡在线一区二区| 又粗又长美女电影在线| 亚洲午夜无码AV不卡| 伊人久久大香线焦av色| 成人福利国产午夜av免费不卡在线| 国产精品 精品国内自产拍| 熟女一区二区| 久热香蕉av在线爽青青| 亚洲精品国产字幕久久麻豆| 天堂人妻在线| 亚洲丁香五月天| 国产伦久视频免费观看视频| 精东A片成人影视| 377人体粉嫩噜噜噜| 国产剧情亚洲一区二区| 少妇高潮喷水正在播放|