<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

      Claude Opus 4.6和GPT 5.3 Codex同時(shí)更新,這波貪了,應(yīng)該留到春晚再看的

      0
      分享至

      AI圈迎來了新年的第一個(gè)雙響炮啊,

      Anthropic剛發(fā)了Claude Opus 4.6,OpenAI也發(fā)了GPT?5.3-Codex,在Codex app里已經(jīng)能用了。我這稿子寫一半直接重新寫啊。馬上來看看這兩模型的評(píng)分,它們強(qiáng)化了那些點(diǎn),以及除了模型本身,還帶來了什么更新。

      先看跑分。

      Anthropic是第一次給Opus系列模型上100萬tokens的上下文窗口,在MRCRv2八針1M (大海撈針)測試?yán)铮萐onnet 4.5高了57個(gè)點(diǎn),我第一反應(yīng)就是我一定要在clawdbot體驗(yàn)一把Opus 4.6。

      除了記憶好,Opus 4.6在GDPval-AA(44個(gè)不同崗位的知識(shí)工作任務(wù))上也超了GPT5.2 200多分,感覺Cowork又可以升級(jí)一波了。


      隔壁的GPT?5.3-Codex定位是個(gè)編程模型,融合了GPT-5.2-Codex的編碼性能和GPT-5.2的推理能力及專業(yè)知識(shí),速度提升了 25%(codex有救了),離譜的是OSWorld-Verified(視覺桌面操作)上提升了快30個(gè)點(diǎn),

      夯爆了。


      我仔細(xì)對比了一下兩張官方表,發(fā)現(xiàn)它們重合的數(shù)據(jù)集只有一個(gè),Terminal-Bench 2.0,是在終端命令行里進(jìn)行編程的測試。光看這個(gè)評(píng)分,GPT-5.3-Codex可以說是把Claude Opus 4.6給拉爆了,高了12個(gè)點(diǎn)。

      其他展示出來的數(shù)據(jù)不能直接拿來硬比,

      SWE-Bench(Agent編程)數(shù)據(jù)集人OpenAI用的是Pro版本,包含了四種語言。Claude Opus 4.6測評(píng)的SWE-Bench Verified只測試Python。

      OpenAI測試OSWorld-Verified比Claude Opus 4.6測的OSWorld測評(píng)出來的分?jǐn)?shù)會(huì)更加可信,因?yàn)閂erified修復(fù)了300多個(gè)數(shù)據(jù)問題。

      還是來看看它們單個(gè)都更新了啥,

      Claude Opus 4.6還在高難度Agent 搜索(DeepSearchQA / BrowseComp)上單 Agent比GPT-5.2 Pro多6個(gè)點(diǎn),在多學(xué)科推理(Humanity's Last Exam / ARC AGI 2)上,同樣是工具配置拉滿的狀態(tài)下,比GPT5.2Pro多了3個(gè)點(diǎn)。



      GPT-5.3-Codex有個(gè)指標(biāo)高到離譜,

      OSWorld-Verified(視覺桌面操作),

      用人話說就是讓AI看截圖換成各種電腦任務(wù),人類基準(zhǔn)是72%,GPT-5.2-Codex是38.2%,GPT-5.2是37.9%,

      融合這個(gè)兩個(gè)模型的優(yōu)勢的GPT-5.3-Codex直接干到64.7%,跟這個(gè)比起來,其他的SWE-Bench Pro(Agent編程),Cybersecurity Capture The Flag Challenges(Agent安全攻防)和SWE-Lancer IC Diamond(修bug賺100萬挑戰(zhàn))的5,6個(gè)點(diǎn)的提升都是常規(guī)操作了。


      再來看看應(yīng)用案例。

      Anthropic這次都沒有放出Claude Opus 4.6跑的case,而且選擇把自家產(chǎn)品線更新了,

      Claude Code新功能agent teams(智能體團(tuán)隊(duì)),可以讓多個(gè)Agent并行工作,適合用在像大規(guī)模代碼檢查之類可以被拆成很多個(gè)獨(dú)立子任務(wù)的場景。

      Claude in Excel也更新了,更新了規(guī)劃模式,還能給亂七八糟的非結(jié)構(gòu)化數(shù)據(jù),自動(dòng)做一個(gè)合適的表格結(jié)構(gòu)。

      還給PPT新出了 research preview,Claude能識(shí)別公司品牌的ppt模版,保證布局,字體,顏色都不會(huì)變,能針對單張幻燈片簡化文本和添加圖表,也可以一次性生成10張幻燈片再微調(diào)。


      OpenAI把更多時(shí)間放在showcase上,

      他們放了兩個(gè)用GPT-5.3-Codex構(gòu)建的新游戲,但沒有像GPT-5.2-Codex那樣把完整提示語放出來。

      https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/racing_v2.html

      兩個(gè)游戲我都完整打了一把,這個(gè)賽車真的不是抄馬里奧賽車的嗎,道具箱里還有泡泡和香蕉。

      https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/diving_game.html

      潛水我也玩了,本來是想當(dāng)個(gè)超人,一口氣潛到最底的,但是潛到一半就體驗(yàn)到為什么神秘園會(huì)說,那些專業(yè)人士潛進(jìn)去就出不來了。。。

      他們還放出來一個(gè)我覺得很蠢的網(wǎng)頁case,理由是GPT-5.3-Codex做這個(gè)價(jià)格頁面的時(shí)候,會(huì)把年費(fèi)展示成打個(gè)折的月費(fèi),而不是總金額。。。

      奧特曼沒活了可以去咬個(gè)打火機(jī)

      關(guān)于API和定價(jià),Anthropic這次給API加了Adaptive thinking(自適應(yīng)思考),由Claude 來判斷什么時(shí)候打開thinking模式。

      還有四檔Effort(努力程度)可選,默認(rèn)是high(高),還有l(wèi)ow(低),medium(中)和max(最大)。

      還有一個(gè)beta功能,當(dāng)長期對話或者Agent任務(wù)快到打到上下文上限的時(shí)候,會(huì)自動(dòng)把上下文壓縮成摘要,用摘要替換上下文。價(jià)格我做成表格了,


      GPT-5.3-Codex還沒有API,不過在app,CLI,IDE插件and網(wǎng)頁版都能用了,上線就全量,這很不openai。

      說句題外話,api形式的gpt4o一周后就沒了,這波屬于是時(shí)代的眼淚了。


      最后說說安全。

      這次兩家都花了不小的篇幅來談安全問題。我們還是用人話來解讀一下。


      Anthropic上來先亮了個(gè)圖,說這次升級(jí)沒有影響我們模型的安全性,這段時(shí)間我們做了兩件事。

      第一件事,努力搞清楚模型腦子里到底在想什么。

      他們在做一種可解釋性的新方法,目標(biāo)是讓研究人員能看見模型為什么會(huì)在某些情況下給出某種回答。這樣做的好處是,很多問題在標(biāo)準(zhǔn)測評(píng)里不一定暴露,但當(dāng)你能追到原因,就更容易提前發(fā)現(xiàn)風(fēng)險(xiǎn),比如模型在某些邊緣場景會(huì)突然變得很會(huì)誤導(dǎo)人。

      第二件事,在模型擅長的領(lǐng)域加了更嚴(yán)的防護(hù)。

      他們發(fā)現(xiàn) Opus 4.6 在網(wǎng)絡(luò)安全上能力更強(qiáng),能修bug,也能拿去攻擊。所以他們做了六個(gè)新的網(wǎng)絡(luò)安全探針,用來檢測模型有沒有在輸出可能被濫用的內(nèi)容。

      隔壁OpenAI在安全上也下了苦功夫,

      他們現(xiàn)在給開源項(xiàng)目免費(fèi)做體驗(yàn),把一些熟悉的壞套路整理成話術(shù)識(shí)別規(guī)則,當(dāng)我們給gpt發(fā)的問題跟某個(gè)套路很像的時(shí)候,模型就會(huì)自動(dòng)降低問答的詳細(xì)程度。

      這次模型更新后,

      明顯感覺我的預(yù)期值變高了,以前更新模型我通常還會(huì)去測一下文本,代碼,3D的表現(xiàn),

      但現(xiàn)在隨著Claude Code,Cowork,Clawdbot三連擊,我對于模型的表現(xiàn)處于薛定諤的貓狀態(tài)。

      太簡單的測起來沒意思,

      我們現(xiàn)在用Claude Code加一些模型,

      也能夠做到這樣的上限。

      太復(fù)雜的,我想以Agent的形式,

      放到我們已有的工作流里長時(shí)間來評(píng)估它的差異。

      說不定后面模型的更新會(huì)成為一種日常的迭代,

      發(fā)布會(huì)也不開了,

      開始卷Agent形態(tài)了,

      我就一個(gè)愿望,

      別光跟整理桌面較勁了,

      我桌面都快沒文件了。

      @ 作者 / 卡爾

      最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點(diǎn)贊|在看|轉(zhuǎn)發(fā)|評(píng)論

      如果想要第一時(shí)間收到推送,不妨給我個(gè)星標(biāo)

      如果你有更有趣的玩法,歡迎在評(píng)論區(qū)和我聊聊

      更多的內(nèi)容正在不斷填坑中……


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      北京輸G1揪出最大戰(zhàn)犯!2分0助,打14分鐘輸15分,京蜜:打得真差

      北京輸G1揪出最大戰(zhàn)犯!2分0助,打14分鐘輸15分,京蜜:打得真差

      南海浪花
      2026-05-16 06:37:33
      1-1!射門8比3竟壓不住墊底隊(duì)!中超首尾戰(zhàn),蓉城半場戰(zhàn)平津門虎,沖擊9連勝受阻

      1-1!射門8比3竟壓不住墊底隊(duì)!中超首尾戰(zhàn),蓉城半場戰(zhàn)平津門虎,沖擊9連勝受阻

      海闊山遙YAO
      2026-05-16 00:51:05
      怪不得劉律建議毛巾少爺去二叔化,原來周揚(yáng)青早點(diǎn)破他被家族綁定

      怪不得劉律建議毛巾少爺去二叔化,原來周揚(yáng)青早點(diǎn)破他被家族綁定

      一盅情懷
      2026-05-15 17:10:38
      全球企業(yè)密集到港上市!港交所的鑼快“不夠用了”

      全球企業(yè)密集到港上市!港交所的鑼快“不夠用了”

      中國網(wǎng)
      2026-05-15 09:10:01
      中美會(huì)唔利好A服哪些公司?

      中美會(huì)唔利好A服哪些公司?

      風(fēng)風(fēng)順
      2026-05-15 07:14:09
      “那家伙在空軍1號(hào)前居然一動(dòng)不動(dòng)”!美媒注意到一名中國儀仗兵

      “那家伙在空軍1號(hào)前居然一動(dòng)不動(dòng)”!美媒注意到一名中國儀仗兵

      阿龍聊軍事
      2026-05-14 11:02:15
      成都商超便利店“面包大王”新廠區(qū)破土動(dòng)工,建成后產(chǎn)能將提升2倍

      成都商超便利店“面包大王”新廠區(qū)破土動(dòng)工,建成后產(chǎn)能將提升2倍

      紅星新聞
      2026-05-15 19:29:02
      有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

      有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

      夜深愛雜談
      2026-02-18 20:55:58
      黃仁勛算不算中國人?血統(tǒng)追根溯源一目了然,下一代截然不同

      黃仁勛算不算中國人?血統(tǒng)追根溯源一目了然,下一代截然不同

      奇思妙想生活家
      2026-05-14 00:17:49
      看完國足3-1沙特,球迷認(rèn)清6個(gè)事實(shí),這次U17亞洲杯有希望奪冠

      看完國足3-1沙特,球迷認(rèn)清6個(gè)事實(shí),這次U17亞洲杯有希望奪冠

      晚霧空青
      2026-05-16 06:05:51
      中方接到東京消息,高市內(nèi)閣爆發(fā)分歧,反華派冒頭要和中國掰手腕

      中方接到東京消息,高市內(nèi)閣爆發(fā)分歧,反華派冒頭要和中國掰手腕

      空谷幽幽藍(lán)
      2026-05-16 05:33:50
      山東鄆城縣黃泥崗鎮(zhèn)陳樓村主任在鎮(zhèn)干部的保護(hù)下瘋狂斂財(cái)無人處理

      山東鄆城縣黃泥崗鎮(zhèn)陳樓村主任在鎮(zhèn)干部的保護(hù)下瘋狂斂財(cái)無人處理

      理天
      2026-05-15 20:11:53
      敬完了酒,特朗普回家了,日本或感失望,高市準(zhǔn)備連夜打美國電話

      敬完了酒,特朗普回家了,日本或感失望,高市準(zhǔn)備連夜打美國電話

      涼羽亭
      2026-05-16 05:28:57
      廣東一小孩玩耍鉆進(jìn)服裝廠貨箱,被衣物掩埋,大人未察覺按壓后拖走箱子…

      廣東一小孩玩耍鉆進(jìn)服裝廠貨箱,被衣物掩埋,大人未察覺按壓后拖走箱子…

      廣東活動(dòng)
      2026-05-15 12:08:16
      諾蘭《奧德賽》選角引爭議,馬斯克下場嘲諷

      諾蘭《奧德賽》選角引爭議,馬斯克下場嘲諷

      影視情報(bào)室
      2026-05-16 00:49:18
      哪吒2真人版太像了,黃子韜天選哪吒,石磯娘娘和太乙真人很CP

      哪吒2真人版太像了,黃子韜天選哪吒,石磯娘娘和太乙真人很CP

      情感大頭說說
      2026-05-15 16:16:27
      880元一雙的PANE德訓(xùn)鞋成“上海土特產(chǎn)”:外籍顧客占比60-80%,多產(chǎn)品缺貨需等待兩三周

      880元一雙的PANE德訓(xùn)鞋成“上海土特產(chǎn)”:外籍顧客占比60-80%,多產(chǎn)品缺貨需等待兩三周

      藍(lán)鯨新聞
      2026-05-15 12:24:24
      北京輸G1揪出最大戰(zhàn)犯!2分0助,打14分鐘輸15分,京蜜:打得真差

      北京輸G1揪出最大戰(zhàn)犯!2分0助,打14分鐘輸15分,京蜜:打得真差

      等等talk
      2026-05-16 06:52:17
      完整體!步行者官方分享下賽季首發(fā)五虎:哈利伯頓領(lǐng)銜

      完整體!步行者官方分享下賽季首發(fā)五虎:哈利伯頓領(lǐng)銜

      林子說事
      2026-05-15 13:02:12
      黃瓜立大功?醫(yī)生發(fā)現(xiàn):經(jīng)常吃黃瓜的人,不出半年,或有4大改善

      黃瓜立大功?醫(yī)生發(fā)現(xiàn):經(jīng)常吃黃瓜的人,不出半年,或有4大改善

      芹姐說生活
      2026-05-09 21:08:03
      2026-05-16 07:28:49
      卡爾的AI沃茨 incentive-icons
      卡爾的AI沃茨
      前大廠算法工程師,3家科技公司技術(shù)總監(jiān)|致力打造最系統(tǒng)的Al學(xué)習(xí)體系,讓1萬人通過Al提高生產(chǎn)力
      263文章數(shù) 134關(guān)注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      黃仁勛在北京喝豆汁痛苦皺眉 問“這是什么東西”

      頭條要聞

      黃仁勛在北京喝豆汁痛苦皺眉 問“這是什么東西”

      體育要聞

      德約科維奇買的球隊(duì),從第6級(jí)聯(lián)賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財(cái)經(jīng)要聞

      騰訊掉隊(duì),馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀(jì)錄 ID. Polo GTI迎全球首秀

      態(tài)度原創(chuàng)

      游戲
      藝術(shù)
      時(shí)尚
      旅游
      公開課

      《街霸6》春麗新品來了!招牌肉腿完美還原

      藝術(shù)要聞

      讓人拍案叫絕的圖片

      頂級(jí)團(tuán)隊(duì)拍出來的作品不如素人,問題出在哪兒了?

      旅游要聞

      2026年“5·19中國旅游日”山東分會(huì)場活動(dòng)即將啟動(dòng),山東聊城送上文旅惠民大禮包,邀您樂享品質(zhì)旅游,共赴美好山河!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产成a人亚洲精v品无码性色| 亚洲一级免费毛片| 被公侵犯的漂亮人妻中文字幕| 中文字幕精品一区二区精品| 高清国产亚洲精品自在久久| 激情自拍一区| 漂亮人妻被中出中文字幕久久| 欧美人与禽交zozo在线观看| 青青青草国产熟女大香蕉| 亚洲精品国产成人无码区a片| 久爱www人成免费网站| 欧美精品v欧洲精品| 亚洲无码网| 久久精品视频一| 91美女网站| 99re在线视频播放| 人人草人人做人人爱| 黄色国产精品一区二区三区| 色噜噜狠狠一区二区三区Av蜜芽| 亚洲三级视频| 国产免费观看网站黄页| 性生交大全免费看| 欧美又粗又大AAA片| 国产综合在线观看| 久久综合综合久久狠狠狠97色 | 丰满的岳久久乱| 亚洲人成电影在线天堂色| 亚洲乳大丰满中文字幕| 国产成人久久91一区二区三区| 亚洲综合无码一区二区痴汉| 91国语精品3p在线观看| 美女张开腿让人桶| 99色色网| 日韩精品一区二区三区中文| 久久人妻无码一区二区| 九九自拍| 亚洲啪av永久无码精品放毛片| 在线观看欧美国产| 亚洲男人天堂东京热加勒比| 亚洲国产精彩中文乱码av| 麻豆一区二区三区精品视频|