天選“牛馬”,OpenAI悟了?
4月24日凌晨,OpenAI正式發(fā)布GPT-5.5及更高規(guī)格的GPT-5.5 Pro。OpenAI總裁格雷格·布羅克曼稱該模型“能在更少指導(dǎo)下做更多事,審視不明確問題并自己弄清楚下一步該做什么”。
GPT-5.5在智能體編程、計(jì)算機(jī)使用、知識(shí)型工作等領(lǐng)域的基準(zhǔn)測試中全面超越前代GPT-5.4。在考核復(fù)雜命令行任務(wù)的Terminal-Bench 2.0測試中得分為82.7%,比GPT-5.4的75.1%提升近8個(gè)百分點(diǎn)。在評估跨44種職業(yè)知識(shí)工作能力的GDPval測試中得分為84.9%。在考核計(jì)算機(jī)自主操作能力的OSWorld-Verified測試中達(dá)78.7%。在考核復(fù)雜客服流程的Tau2-bench Telecom測試中達(dá)98.0%。
MagicPath CEO彼得羅·斯基拉諾的測試顯示,GPT-5.5用約20分鐘將一個(gè)包含數(shù)百個(gè)前端改動(dòng)和重構(gòu)變更的分支與主分支完成合并,一次性解決所有沖突。Every創(chuàng)始人丹·希珀稱其為“第一個(gè)真正具備概念清晰度的編碼模型”。AI工程師彼得·戈斯特夫測試確認(rèn),GPT-5.5可穩(wěn)定自主運(yùn)行近10小時(shí)。
科研場景中,GPT-5.5在FrontierMath最難數(shù)學(xué)題測試中得分為35.4%,Claude Opus 4.7為22.9%。OpenAI報(bào)告稱,一個(gè)搭配定制工具的GPT-5.5內(nèi)部版本協(xié)助發(fā)現(xiàn)了關(guān)于拉姆齊數(shù)的新數(shù)學(xué)證明,已在形式化證明工具Lean中得到驗(yàn)證。
第三方機(jī)構(gòu)Artificial Analysis的智能指數(shù)顯示,GPT-5.5在五項(xiàng)核心評估中的三項(xiàng)位居榜首,綜合表現(xiàn)排名第一。Artificial Analysis在評測報(bào)告中寫道:“GPT-5.5以競爭對手前沿編碼模型一半的成本,提供了最先進(jìn)的智能。”
OpenAI同步將GPT-5.5的生物和網(wǎng)絡(luò)安全能力評定為“高”風(fēng)險(xiǎn)等級(jí),部署了更嚴(yán)格的安全分類器,并推出“網(wǎng)絡(luò)可信訪問計(jì)劃”供安全研究人員申請受限訪問權(quán)限。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.