5月8日凌晨,百度搭子DuMate登頂智能體評測基準PinchBench榜首,并在前5位中占據3席,超越Anthropic和OpenAI拿下全球龍蝦執行爭霸賽冠軍。在另外一項DeepResearch深度研究榜單中,DuMate同樣位列第一。
PinchBench是OpenClaw賽道最能體現Agent真實工作能力的評測基準,重點考察Agent在23個真實工作場景下147個任務的多步推理、工具調用和任務閉環能力,并從成功率、速度、成本三個維度綜合排名。榜單顯示,DuMate以93.3%和93.2%的總成績包攬前兩名。作為對照,Anthropic和OpenAI的同款模型場景下的成績分別為89.0%和91.6%。這意味著,同一模型在DuMate框架中,展現出更強的執行力。
![]()
超越原生表現的技術基礎,是DuMate的端云協同Harness架構。該系統在任務到達時進行意圖識別和敏感度判斷,隱私相關操作留在本地執行,復雜推理任務上云完成,無需用戶手動切換。同時,系統對每次執行所需的上下文做按需組裝——根據任務語義和用戶歷史行為,預判并注入必要的背景信息,減少冗余干擾。Harness與Skills還基于歷史執行軌跡持續迭代,使得不同底層模型都能在接近其能力上限的狀態下穩定運行。
DeepResearch Bench是當前對深度研究型Agent最全面的評測基準,從洞察深度、內容準確性、可讀性等維度考察Agent處理復雜研究任務的綜合能力。DuMate以58.03的綜合分位列第一,支撐這一成績的是DuMate自研Skills體系中的Deep Search與Deep Research雙引擎——前者負責跨平臺語義檢索與高價值信息定位,后者在此基礎上疊加多輪推理與因果分析,將碎片信息提煉為結構化研究成果。
![]()
自2026年3月上線以來,DuMate保持一天一版的更新節奏,已通過信通院兩項安全測評且均獲最高等級。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.