<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      凌晨,GPT-5.5收復失地!Anthropic緊急出手

      0
      分享至


      智東西
      作者 王涵
      編輯 心緣

      智東西4月24日報道,今天凌晨,OpenAI智能體編程模型GPT?5.5正式發布

      GPT?5.5能更快地理解用戶的目標,擅長編寫和調試代碼、在線研究、分析數據、創建文檔和電子表格以及在多個工具之間協同操作


      ▲OpenAI官宣推文(指路:https://x.com/OpenAI/status/2047376561205325845)

      OpenAI團隊將其稱之為“這是我們迄今為止最智能、最直觀易用的模型,也是邁向在計算機上完成工作的全新方式的重要一步。”

      Sam Altman本人評價該模型:“根據我的經驗,它‘知道該做什么’。”


      在性能上,GPT?5.5的提升在智能體編碼、計算機使用、知識型工作以及早期科學研究等領域尤為顯著——這些領域的進展依賴于跨上下文的推理和持續的自主行動

      在編程能力上,GPT?5.5全面超越了Gemini 3.1 Pro;在專業任務、計算機使用與視覺、工具使用以及抽象推理方面,其在大部分測試集的成績都高于Claude Opus 4.7和Gemini 3.1 Pro。

      但在學術和工具使用能力上,GPT?5.5與Claude Opus 4.7和Gemini 3.1 Pro并未拉出明顯差距。


      在速度上,GPT?5.5在實際服務中保持了與GPT?5.4相當的每token延遲,同時實現了更高的智能水平。完成相同的Codex任務時,GPT?5.5使用的token數顯著更少,因此效率更高、能力也更強

      模型一經發布,就有很多參與內部測試的網友分享了他們的使用感受。

      開源項目Claude Engineer的創建者、AI設計助手MagicPath的CEO Pietro Schirano分享稱,GPT-5.5只用了大約20分鐘就幫他自動對比了其項目兩個版本的代碼差異,然后基于正式版本創建了新分支,還將其他分支的所有改動完美合并了進去。


      他還用GPT-5.5一次性生成了一個可玩的3D射擊游戲,游戲整體操作手感流暢,而且每一個圖形都是由Three.js從零生成的。

      此外,Pietro Schirano讓GPT-5.5通過USB連接為他的Flipper Zero創建了應用程序,并成功地將它們推送到了設備上。


      Pietro Schirano感慨道:“GPT-5.5是我用過的最強大的工具。我第一次感覺自己不再受限于模型的功能,而只受限于我的想象力。訓練工作流程、不可能的優化、通過USB進行硬件實驗。Vibe硬件時代開啟。”


      AI工程師Peter Gostev深度體驗了GPT-5.5,并放出了他用GPT-5.5工作的幾個例子。他分享稱,用戶可以給GPT-5.5設定好步驟提示詞,GPT-5.5就會按照步驟逐項完成,親測至少可以穩定自主運行7個小時。


      Peter Gostev要求GPT-5.5創建一個帶有地標和季節變化的倫敦玩具鐵路,該模型一次性就出色地完成了任務。他對比發現,相比于GPT-5.4,GPT-5.5生成的作品在構思上要宏大得多、邏輯更連貫,而且錯誤也更少。

      波蘭波茲南密茨凱維奇大學數學系助理教授Bartosz Naskr?cki使用Codex中的GPT?5.5,僅憑一條提示詞,在11分鐘內就構建了一個代數幾何應用,該應用能夠可視化二次曲面的交線,并將結果曲線轉換為Weierstrass模型。

      隨后,他擴展了該應用,加入了更穩定的奇點可視化功能以及可在后續工作中復用的精確系數。


      知名AI測評網紅Matthew Berman稱其最近兩周都在測試GPT-5.5,他感受到OpenAI改進了模型的個性,他認為這是為了搶占更多個人智能體(如 OpenClaw)市場。“它的回答更簡潔、更像真人、不那么正式。它確實有了自己的個性。”


      價格上,GPT-5.5定價為每100萬輸入token 5美元,每100萬輸出token 30美元,上下文窗口為100萬token。與GPT-5.4相比,其價格整體貴了一倍。

      GPT-5.5 Pro定價為每100萬輸入token 30美元,每100萬輸出token 180美元


      與Anthropic的Claude模型的價格相比,GPT-5.5的價格與Opus 4.7幾乎持平,在輸出定價上每100萬token比Opus 4.7貴5美元。


      今天,GPT?5.5正在向ChatGPT和Codex中的Plus、Pro、Business和Enterprise用戶逐步推出,GPT?5.5 Pro則向ChatGPT中的 Pro、Business和Enterprise用戶推出。

      在ChatGPT中,GPT?5.5 Thinking面向Plus、Pro、Business和Enterprise用戶開放。對于API開發者,gpt-5.5即將在Responses API和Chat Completions API中提供。

      GPT-5.5發布之際,正值Claude Code最近性能變差屢遭投訴。或許是感受到來自GPT-5.5的壓力,Anthropic今日發長文宣布已修復降智問題,并自今日起重置所有訂閱用戶的使用限制。


      一、登頂編碼Agent榜首,成本僅為競品一半

      OpenAI團隊稱,GPT?5.5是OpenAI迄今為止最強大的Agentic Coding模型

      Artificial Analysis智能指數?是由第三方機構運行的10項評估的加權平均值,具體包括:AA-LCR、AA-Omniscience、CritPt、GDPval-AA、GPQA Diamond、Humanity’s Last Exam、IFBench、SciCode、Terminal-Bench Hard、τ2-Bench Telecom。

      Artificial Analysis官方發文稱,OpenAI的GPT-5.5(xhigh)在Terminal-Bench Hard、GDPval-AA以及APEX-Agents-AA中均處于領先地位。該模型僅在CritPt 和AA-LCR上落后于其他OpenAI模型,并在另外三項評估中僅次于Gemini 3.1 Pro Preview,綜合表現排名第一。


      根據Artificial Analysis的智能指數,GPT?5.5在成績最高的同時,其成本僅為同類前沿編碼模型的一半


      在復雜執行測試Terminal-Bench 2.0上,GPT?5.5的成績為82.7%。在 真實世界問題解決測試SWE-Bench Pro上,它取得了58.6%的成績,單次端到端解決的任務數量超過以往模型。在內部長周期任務測試Expert-SWE上,GPT?5.5同樣優于GPT?5.4。

      在所有這三項評估中,GPT?5.5在比GPT?5.4使用更少token的同時,得分均有提升。


      該模型在編碼方面的優勢在Codex中表現得尤為突出。在Codex中,GPT?5.5可以承擔從實現、重構到調試、測試和驗證等一系列工程工作。

      早期測試表明,GPT?5.5能更好地勝任實際工程工作所依賴的行為,例如在大型系統中保持上下文理解、針對模糊的故障進行推理、通過工具驗證假設,以及對相關的整個代碼庫進行變更同步。

      例如,GPT?5.5可以使用NASA/JPL Horizons提供的獵戶座飛船、月球和太陽的矢量數據渲染出運行軌跡,并且還可以進行顯示縮放:

      ▲太空任務App

      GPT?5.5還能夠制作出一個可以動態顯示地震頻次、地點等信息的追蹤網站:

      ▲地震追蹤

      配合Codex,用戶可以使用GPT?5.5制作出可玩的3D游戲:

      ▲3D地牢競技場游戲

      二、客服測試成績達98%,能自主瀏覽界面操作工具

      由于GPT?5.5能更好地理解用戶意圖,它可以更自然地完成知識型工作的整個閉環:查找信息、理解重點、使用工具、檢查輸出結果,并將原始素材轉化為有用的成果。

      在ChatGPT中,GPT?5.5 Thinking(思維模式)在編碼、研究、信息綜合與分析以及文檔密集型任務等專業性工作中表現出色。

      基準測試方面,在規范知識型工作測試GDPva上,GPT?5.5獲得了84.9%的分數。在真實操作計算機測試OSWorld-Verified上,該模型達到了78.7%。在客服測試Tau2-bench Telecom上,GPT?5.5在未經提示調優的情況下達到了98.0%的分數。




      GPT?5.5在其他知識型工作基準測試中也表現也很亮眼:在FinanceAgent上為60.0%,在內部投資銀行建模任務上為88.5%,在OfficeQA Pro上為54.1%

      實際應用中,在Codex中,GPT?5.5在生成文檔、電子表格和幻燈片演示方面優于GPT?5.4。alpha測試人員表示,在運營研究、電子表格建模以及將雜亂無章的業務信息轉化為計劃等工作上,它的表現超過了以往的模型。

      當結合Codex的計算機使用技能時,GPT?5.5模型似乎真的在與用戶一起使用計算機:它能查看屏幕上的內容、點擊、打字、瀏覽界面,并在不同工具之間協同操作。

      例如,OpenAI財務團隊使用Codex審閱了24771份K-1稅務表格,總計71637頁,所采用的工作流程幫助團隊節省了兩周的時間。

      ▲財務模型

      用戶團隊則可以利用GPT?5.5設計并調試新客戶引導流程:

      ▲測試新用戶引導流程

      三、發現拉姆齊數新證明,在遺傳學生物學表現亮眼

      GPT?5.5在科學和技術研究工作流上的表現也有所進步。在科研中,研究人員需要探索一個想法、收集證據、檢驗假設、解讀結果,并決定下一步的嘗試方向。

      用戶可以用GPT?5.5 Thing反復審閱稿件草稿、對技術論證進行壓力測試、提出分析建議,并協同處理代碼、筆記以及PDF上下文。GPT?5.5更擅長幫助研究人員從提出問題到進行實驗,再到最終產出成果。

      GeneBench?是一個專注于遺傳學和定量生物學中多階段科學數據分析的新評估基準,GPT?5.5相較于GPT?5.4表現出明顯的提升。


      這些問題要求模型在極少的監督指導下,對可能存在歧義或錯誤的數據進行推理,應對諸如隱藏混雜因素或質控失敗等現實障礙,并正確實現和解讀現代統計方法。考慮到這些任務通常相當于科學專家需要耗時數天的項目,該模型的表現令人矚目。

      同樣,在圍繞真實世界生物信息學與數據分析設計的基準測試BixBench?上,GPT?5.5在已公布分數的模型中領先。


      在安全方面,OpenAI團隊介紹稱,其為GPT?5.5配備了迄今為止最強大的安全防護措施

      他們在全套安全和準備框架下對該模型進行了評估,與內部及外部紅隊成員合作,針對高級網絡安全和生物學能力增加了針對性測試,并在發布前收集了近200個值得信賴的早期合作伙伴在實際用例中的反饋。

      結語:OpenAI向自主執行更進一步

      GPT-5.5的發布,標志著OpenAI正將大模型的能力內核轉向執行。

      在追求更大參數與更強算力的行業熱潮中,GPT-5.5選擇了一條更務實的路徑:用更少的token完成更多的事。無論是編碼、知識工作還是科學研究,它都展示了效率與智能并非不可兼得。

      其性價比、多工具協同能力以及安全防護機制,為開發者和企業用戶提供了更強大的生產力工具。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      CCTV5直播!北京VS廣東G3生死戰,周琦成取勝關鍵,許利民輸不起

      CCTV5直播!北京VS廣東G3生死戰,周琦成取勝關鍵,許利民輸不起

      老葉評球
      2026-05-10 20:06:29
      水土不服!曼城6000萬“災星”或轉投米蘭!曼聯“強追”頂級中場

      水土不服!曼城6000萬“災星”或轉投米蘭!曼聯“強追”頂級中場

      頭狼追球
      2026-05-10 13:54:26
      拼爹還是拼自己?父親是前外交部長,他哈佛畢業卻擠公交搬啤酒箱

      拼爹還是拼自己?父親是前外交部長,他哈佛畢業卻擠公交搬啤酒箱

      南宗歷史
      2026-05-05 17:00:11
      雷迪克:雷霆那13個球員放到任何球隊里,都是前七八名的輪換

      雷迪克:雷霆那13個球員放到任何球隊里,都是前七八名的輪換

      林子說事
      2026-05-10 10:07:48
      1-2大爆冷!薩巴倫卡轟然出局 WTA亂了:一夜3大冷門,鄭欽文可惜

      1-2大爆冷!薩巴倫卡轟然出局 WTA亂了:一夜3大冷門,鄭欽文可惜

      大秦壁虎白話體育
      2026-05-10 00:53:05
      三星首款磁吸無線充電寶上市,用戶評價卻亮了

      三星首款磁吸無線充電寶上市,用戶評價卻亮了

      賽博蘭博
      2026-05-09 20:08:12
      死亡原因公開,好可惜!

      死亡原因公開,好可惜!

      下水道男孩
      2026-05-08 22:07:11
      摩納哥夏琳王妃驚艷晚會,罕見與丈夫同框,三次逃婚失敗接受現實

      摩納哥夏琳王妃驚艷晚會,罕見與丈夫同框,三次逃婚失敗接受現實

      譯言
      2026-05-10 06:37:12
      笑了!國乒19歲小將打哭日本一姐,邱貽可這“秘密武器”藏得夠深

      笑了!國乒19歲小將打哭日本一姐,邱貽可這“秘密武器”藏得夠深

      眼界縱橫
      2026-04-01 18:38:24
      五一假期人均消費僅570元,低于去年,還沒回到2019年的603元

      五一假期人均消費僅570元,低于去年,還沒回到2019年的603元

      六子吃涼粉
      2026-05-09 12:28:56
      “榴蓮僅退款事件”賣家:不是錢的事,不想讓惡意退款得逞

      “榴蓮僅退款事件”賣家:不是錢的事,不想讓惡意退款得逞

      南方都市報
      2026-05-10 01:30:08
      張本智和談決賽:樊振東不在并非簡單的加減法,其他人會更拼命

      張本智和談決賽:樊振東不在并非簡單的加減法,其他人會更拼命

      懂球帝
      2026-05-10 16:57:59
      驚天反轉,烏克蘭戰略徹底轉向,要對俄羅斯全面去軍事化

      驚天反轉,烏克蘭戰略徹底轉向,要對俄羅斯全面去軍事化

      天生是美女
      2026-05-10 00:07:30
      伊朗最高領袖向武裝部隊司令下達“新指導方針”

      伊朗最高領袖向武裝部隊司令下達“新指導方針”

      財聯社
      2026-05-10 18:46:25
      魔法與統治:梅西傳射建功主導進攻狂潮,邁阿密國際客取四連勝

      魔法與統治:梅西傳射建功主導進攻狂潮,邁阿密國際客取四連勝

      環球體壇啄木鳥
      2026-05-10 20:53:43
      比穆里尼奧還意外!皇馬換帥突發反轉,球迷看完集體炸鍋

      比穆里尼奧還意外!皇馬換帥突發反轉,球迷看完集體炸鍋

      瀾歸序
      2026-05-10 03:03:26
      0-2、對手2個賽點!王皓1句話,讓梁靖崑從“地獄”爬回

      0-2、對手2個賽點!王皓1句話,讓梁靖崑從“地獄”爬回

      曹老師評球
      2026-05-10 08:24:13
      “廚房紙”不能亂用!很多人不知道,“這樣用”會害了家人!

      “廚房紙”不能亂用!很多人不知道,“這樣用”會害了家人!

      三農老歷
      2026-05-08 11:25:09
      今年山茶油為啥賣不動?曾經的“油中黃金”,如今沒人買單了?

      今年山茶油為啥賣不動?曾經的“油中黃金”,如今沒人買單了?

      農夫也瘋狂
      2026-05-09 17:41:51
      詩妮娜揮手拜拜,貴妃出現在機場返回德國,整容恢復后人也靚多了

      詩妮娜揮手拜拜,貴妃出現在機場返回德國,整容恢復后人也靚多了

      舊事別提
      2026-05-10 00:36:49
      2026-05-10 21:39:00
      智東西 incentive-icons
      智東西
      智東西,AI產業新媒體,專注報道人工智能的前沿技術發展,和技術應用帶來的千行百業產業變革。
      11795文章數 117070關注度
      往期回顧 全部

      科技要聞

      DeepSeek融資,改寫所有人的估值

      頭條要聞

      談判陷僵局 世界杯轉播費報價大幅降低央視仍不接招

      頭條要聞

      談判陷僵局 世界杯轉播費報價大幅降低央視仍不接招

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      趙露思老實人豁出去了 沒舞蹈天賦硬跳

      財經要聞

      白酒大逃殺

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態度原創

      健康
      藝術
      游戲
      親子
      軍事航空

      干細胞能讓人“返老還童”嗎

      藝術要聞

      震撼!Rico Reinhold帶你領略歐美復古藝術寫真!

      P社《群星》將上線太空游牧民全新文明!顛覆傳統玩法

      親子要聞

      “順”還是“剖”?從成為母親的選擇說起

      軍事要聞

      伊朗革命衛隊深夜警告

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产在线不卡人成视频| 亚洲天堂中文字幕| 无码日韩一区二区| 日本一区二区三区免费高清| 国产精品国产三级国av| 亚洲综合伊人久久大杳蕉| 福利姬无遮挡H福利网站| 国产亚洲精品久久久久久一区二区| 精品少妇人妻av免费久久洗澡| 一本色道久久亚洲加勒比| 毛片无码一区二区三区| 无码色偷偷亚洲国内自拍| 国产精品人妻系列21p| 风韵丰满妇啪啪区老老熟女杏吧 | 久久99精品久久久久久久清纯| 无码中文av有码中文a| 99精品无人区乱码1区2区3区| 国内精品99偷拍| 久久综合香蕉国产蜜臀AV| 在线麻豆精东9制片厂av影现网| 久久97久久97精品免视看秋霞| gogogo高清免费观看| 亚洲熟妇乱子伦在线| 国产最爽的av片在线观看 | 放荡人妻一区二区三区| 国产自在自线午夜精品| 成人做爰www网站视频| 中文字幕日本人妻| 91蜜桃婷婷狠狠久久综合9色| 亚洲中文字幕日产无码2020| 中文午夜乱理片无码| 91福利区| 产精品视频在线观看免费| 国产高潮流白浆免费观看不卡| 久久久久久亚洲AV无码专区高潮| 久久久女女女女999久久| 色欲精品国产一区二区三区av | 麻豆小视频| 激情按摩系列片aaaa| 亚洲一区二区三区在线观看精品中文| 丝袜人妻|