<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      谷歌DeepMind GrandCode:實時編程競賽實現全人類擊敗AI系統突破

      0
      分享至


      在2026年3月的三場Codeforces編程競賽中,一個名為GrandCode的人工智能系統創造了歷史。這個由DeepReinforce團隊開發的AI程序不僅在所有比賽中奪得第一名,還成為第一個在真實競賽環境中持續擊敗包括傳奇大師在內的所有人類選手的人工智能系統。這項研究發表于2026年4月3日的arXiv預印本平臺,論文編號為arXiv:2604.02721v1。

      要理解這項成就的意義,我們首先要認識編程競賽的特殊性質。編程競賽就像是一場智力馬拉松,參賽者需要在極短時間內解決復雜的算法問題,不僅要求代碼正確無誤,還必須高效運行。這種競賽一直被認為是人類智慧的最后堡壘之一,因為它需要創造性思維、邏輯推理和快速決策的完美結合。

      在GrandCode之前,最強的AI系統也只能勉強進入前列。谷歌的AlphaCode在Codeforces平臺上的評分大約為1300,只能排在所有參賽者的前54%;改進版AlphaCode2提升到第85百分位;OpenAI的o3系統全球排名第175位;而最新的Gemini 3 Deep Think雖然達到第8名,但這個成績是在歷史問題上取得的,并非在真實競賽環境中。

      GrandCode的突破在于它采用了一種全新的多智能體強化學習架構。可以把這個系統想象成一個高度協作的專家團隊,每個成員都有自己的專長。這個團隊包括四個關鍵角色:主解題專家負責核心推理和代碼生成,就像團隊的首席工程師;假設生成專家負責提出中間猜想和結構性洞察,像是團隊的理論分析師;總結專家負責壓縮冗長的推理過程,確保復雜問題仍然可以處理,類似團隊的信息整理員;測試用例生成模塊則構建各種刁鉆的測試案例來驗證代碼,就像團隊的質量檢查員。

      這四個角色通過一種巧妙的機制相互配合。當遇到一個編程問題時,假設生成專家首先會分析問題的本質,提出一些可能的解決思路。比如,它可能會判斷"這是一個動態規劃問題"或者"輸入圖滿足某種特殊結構"。這些假設會在小規模實例上得到驗證,只有經過驗證的假設才會傳遞給主解題專家。

      主解題專家接收到這些經過驗證的線索后,開始進行詳細的推理和代碼編寫。當推理過程過于冗長時,總結專家會介入,將長篇分析壓縮成緊湊的要點,確保系統不會被信息過載拖累。最后,測試用例生成模塊會創建各種邊界條件和特殊情況的測試,對生成的代碼進行嚴格檢驗。

      整個系統的訓練過程分為兩個主要階段。在離線訓練階段,研究團隊首先讓系統在大量編程問題上進行持續學習,就像讓一個學生刷題提高基礎能力。接著進行監督微調,使用高質量的問題-思路-解答三元組來教會系統正確的解題模式。最后通過多組件強化學習,讓各個專家角色學會更好地協作,優化整個系統的表現。

      在線測試階段,也就是實際競賽時,GrandCode會根據問題難度采用不同策略。對于簡單問題,它直接生成解答;對于困難問題,它會啟動完整的多智能體協作流程,甚至在解題過程中持續優化自己的策略。

      為了解決多階段智能體訓練中的技術挑戰,研究團隊開發了一種名為"Agentic GRPO"的新算法。傳統的強化學習算法在面對多輪交互和延遲獎勵時會遇到困難,就像一個老師試圖給一個團隊項目的每個步驟打分,但只有在項目完成后才能看到最終效果。Agentic GRPO通過即時獎勵和延遲修正的組合機制解決了這個問題。當某個中間步驟完成時,系統會立即獲得反饋進行學習;當整個任務完成后,系統還會回過頭來修正之前的評估,確保學習效果最優。

      測試用例生成是GrandCode的另一個創新點。在編程競賽中,真正的測試用例是隱藏的,選手只能看到幾個簡單示例。GrandCode開發了兩種生成對抗性測試用例的方法。第一種是差異驅動生成法:如果一個測試用例能夠暴露兩個不同解法之間的差異,那它很可能是一個有價值的邊界案例。系統會不斷生成這樣的測試,逐步建立起強大的測試用例庫。第二種是解法攻擊法:系統會直接分析候選解法和標準答案的區別,專門設計能夠暴露漏洞的測試用例。

      在實際應用中,GrandCode在三場Codeforces實時競賽中的表現令人印象深刻。2026年3月21日的Round 1087比賽中,GrandCode以用戶名averyjones1參賽,在51分鐘內完成所有任務,得分8334分;3月28日的Round 1088比賽中,它以yokeko身份參賽,用時1小時40分鐘,得分15008分;3月29日的Round 1089比賽中,使用Vortex1身份,用時56分鐘,得分9506分。值得注意的是,在所有三場比賽中,GrandCode都是第一個完成全部任務的參賽者。

      這些成績的取得并非偶然。研究團隊對100個編程問題進行了詳細的基準測試,發現GrandCode在持續訓練、監督微調和完整強化學習訓練后,整體接受率從基礎模型的64%提升到81%,在最困難的Level 5問題上的解決率從20%中的4題提升到20題中的13題。經過測試時強化學習后,這些數字進一步提升到85%的整體接受率和20題中的15題。

      GrandCode的成功還得益于一些精心設計的技術細節。系統使用了基于問題難度的動態路由機制,對簡單問題采用直接生成,對復雜問題啟用完整的多智能體協作。在處理超長推理序列時,系統采用了創新的上下文并行化技術,特別針對混合架構進行了優化。這種架構結合了線性注意力機制的效率和標準注意力機制的建模能力。

      更重要的是,GrandCode在訓練過程中特別注重多模態問題的處理能力。許多編程競賽問題包含圖表或幾何圖形,純文本描述往往難以準確傳達這些信息。GrandCode直接處理這些視覺內容,而不是依賴文本轉換,這大大提高了它對復雜問題的理解能力。

      從技術實現角度來看,GrandCode的架構設計充分考慮了實際部署的需求。主要的混合專家模型部署在專用的分布式GPU集群上,而較小的輔助模型則在獨立的GPU池中異步運行。這種設計既保證了主要計算流程的高效率,又避免了資源碎片化問題。代碼執行、暴力求解檢查和測試生成則由獨立的CPU沙箱池處理,確保系統的穩定性和安全性。

      測試時強化學習是GrandCode的另一個重要特色。與傳統的離線訓練不同,測試時強化學習專門針對當前正在解決的特定問題進行優化。系統不再追求所有問題的平均表現,而是專注于在當前問題上找到最佳解法。這種方法通過排名基礎的松弛目標函數實現,逐步將優化重點從平均獎勵轉向最大獎勵,更符合編程競賽"一次通過"的特點。

      在實際競賽中,GrandCode采用了平衡直接生成和測試時強化學習的策略。對于競賽初期的簡單問題,系統使用大批量并行直接生成快速獲得答案,因為早期提交能夠獲得更高分數。只有當直接生成無法解決問題時,系統才會啟動計算密集的測試時強化學習流程。

      GrandCode的成功也體現在對編程競賽特殊規則的深度理解上。Codeforces平臺對AI生成內容有嚴格政策,高排名賬戶面臨更嚴格審查。為了獲得最終分數,研究團隊采用了謹慎的提交策略:等待人類參賽者接近完成任務后才提交完整版本。同時,系統還需要處理多次提交的罰分機制,這要求它在準確性和速度之間找到最佳平衡點。

      在假設生成方面,GrandCode展現出了類似人類專家的直覺。當面對一個新問題時,系統會首先嘗試識別問題的本質特征,比如判斷這是否是一個動態規劃問題,或者輸入圖是否具有特殊結構。這些假設會在小規模實例上進行驗證,通過暴力算法檢查假設的正確性。只有通過驗證的假設才會被注入到主要解題流程中,為后續的代碼生成提供關鍵指導。

      系統還集成了在線整數序列百科全書(OEIS)的查詢功能。對于某些數學性質較強的問題,GrandCode會計算小規模輸入的輸出值,然后在OEIS中搜索匹配的數列模式。如果找到匹配項,相關的公式、模式或結構提示會被納入后續的解題過程中。

      總結專家模塊的設計特別值得關注。在處理復雜問題時,推理過程可能長達數萬個標記,這不僅增加計算成本,也使后續的強化學習訓練變得困難。總結專家采用漸進式訓練方法,首先學會對單個推理塊進行總結,然后學會處理完整的推理鏈條。這種分階段訓練提供了比端到端訓練更密集的中間監督信號,顯著提高了總結質量。

      在代碼獎勵設計上,GrandCode使用了三層評估體系。首先檢查代碼的可執行性,無法編譯或運行的代碼直接得零分。其次檢查正確性,通過與參考輸出或暴力解法的比較來驗證。最后評估效率,通過與暴力算法的運行時間比較來衡量代碼的性能。這種多層次評估確保生成的代碼既正確又高效。

      值得一提的是,GrandCode的訓練數據來源非常廣泛。除了傳統的編程競賽數據庫如TACO、LeetCode、USACO等,研究團隊還使用了IOI國際信息學奧林匹克的問題,并通過大語言模型生成了大量擴展訓練數據。為了讓系統適應假設條件下的解題,20%的訓練樣例被轉換為假設驅動格式,其中假設內容由假設生成專家提供。

      在系統架構的實現細節上,GrandCode采用了基于難度的動態批處理策略。由于推理長度與問題難度高度相關,將不同難度的問題混合在同一批次中會導致嚴重的計算不平衡。系統不僅在單個批次內按難度分組,還確保不同數據并行工作節點之間的批次具有相似的難度分布,從而實現更好的負載平衡。

      專家路由的穩定性也是一個重要考慮因素。為了避免強化學習訓練期間的路由不穩定,GrandCode完全凍結路由器參數,只更新專家的前饋參數。這保證了專家分配在整個強化學習過程中保持一致,避免了路由變化可能帶來的額外不穩定性。

      在多模態處理方面,GrandCode直接處理問題中包含的圖像和圖表,而不是將它們轉換為文本描述。研究團隊發現,許多競賽問題中的圖像在視覺上非常復雜,難以用文字準確描述,而轉換過程往往會丟失推理所需的關鍵空間或結構信息。直接的多模態處理顯著優于純文本轉換方法。

      從更廣闊的視角來看,GrandCode的成功標志著人工智能在代碼生成領域的一個重要里程碑。編程競賽長期被視為需要創造性思維、快速學習和復雜推理的智力挑戰。GrandCode證明了當智能體強化學習與強驗證和在線適應相結合時,人工智能系統可以在實時環境中超越頂級人類程序員的表現。

      這項成就的意義遠超編程競賽本身。GrandCode展示的多智能體協作、實時學習適應和復雜問題分解能力,為未來的AI系統設計提供了寶貴的啟示。隨著這些技術的進一步發展和完善,我們可能會在更多需要高級認知能力的領域看到類似的突破。

      當然,GrandCode的成功也帶來了一些思考。它的出現是否意味著編程教育需要重新定義目標?未來的程序員需要具備什么樣的技能才能與AI協作?這些問題值得整個技術社區深入探討。不過可以確定的是,GrandCode為我們展示了AI與人類智慧結合的新可能性,也為未來的技術發展指明了方向。

      對于有興趣深入了解技術細節的讀者,可以通過論文編號arXiv:2604.02721v1在arXiv平臺查詢這項研究的完整論文,其中包含了更詳細的算法描述、實驗數據和技術實現細節。

      Q&A

      Q1:GrandCode是如何在編程競賽中擊敗人類選手的?

      A:GrandCode采用了多智能體協作架構,包含四個專門角色:主解題專家負責核心推理和代碼生成,假設生成專家提出解題思路,總結專家壓縮復雜推理,測試用例生成模塊驗證代碼質量。這些角色通過創新的Agentic GRPO算法協同工作,能夠在實時競賽中快速準確地解決復雜編程問題。

      Q2:GrandCode相比之前的AI編程系統有什么突破性改進?

      A:相比AlphaCode只能排在前54%、o3排名第175位的成績,GrandCode實現了質的飛躍。它首創了多智能體強化學習架構,引入了測試時強化學習技術,開發了對抗性測試用例生成方法,并且能夠直接處理多模態問題內容,這些創新使它成為首個在實時競賽中持續擊敗所有人類選手的AI系統。

      Q3:普通程序員需要擔心被GrandCode這樣的AI取代嗎?

      A:目前不需要過度擔心。GrandCode雖然在特定的編程競賽環境中表現出色,但現實世界的軟件開發涉及需求理解、團隊協作、系統設計、用戶體驗等多個復雜層面。GrandCode更可能成為程序員的強大助手,幫助處理算法實現和代碼優化等任務,而程序員則可以專注于更高層次的創造性和戰略性工作。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      直線拉升!京東一季報出爐,營收超3100億元

      直線拉升!京東一季報出爐,營收超3100億元

      證券時報e公司
      2026-05-12 19:12:48
      尼日利亞一女星用500個面包制成禮服 驚艷亮相電影獎 現場撕下一塊大快朵頤

      尼日利亞一女星用500個面包制成禮服 驚艷亮相電影獎 現場撕下一塊大快朵頤

      快科技
      2026-05-12 15:00:24
      世乒賽收官僅1天,國乒傳來3大重磅消息,2大調整,張怡寧說對了

      世乒賽收官僅1天,國乒傳來3大重磅消息,2大調整,張怡寧說對了

      林雁飛
      2026-05-11 23:10:51
      尼克斯隊記:如無意外 OG-阿努諾比將在東決G1做好復出準備

      尼克斯隊記:如無意外 OG-阿努諾比將在東決G1做好復出準備

      北青網-北京青年報
      2026-05-12 20:18:18
      5種廢品價格暴漲,家里有這5種的,建議別隨便給扔了!

      5種廢品價格暴漲,家里有這5種的,建議別隨便給扔了!

      小談食刻美食
      2026-05-12 08:13:18
      光地皮就值2個億的美國駐華大使館,為何修成一座封閉式碉堡?

      光地皮就值2個億的美國駐華大使館,為何修成一座封閉式碉堡?

      賤議你讀史
      2026-05-07 14:58:39
      《低智商犯罪》:近期最解壓的懸疑喜劇

      《低智商犯罪》:近期最解壓的懸疑喜劇

      阿廢冷眼觀察所
      2026-05-12 19:31:01
      92歲老中醫仍出診!他的“5不”養生經,簡單到人人都能做到

      92歲老中醫仍出診!他的“5不”養生經,簡單到人人都能做到

      神奇故事
      2026-05-11 22:38:56
      快船交易祖巴茨有多賺?有望選小哈利伯頓,31歲超巨或將聯手小卡

      快船交易祖巴茨有多賺?有望選小哈利伯頓,31歲超巨或將聯手小卡

      你的籃球頻道
      2026-05-12 12:52:31
      開羅會議時,羅斯福:把越南琉球歸還中國,蔣介石:不要!為何?

      開羅會議時,羅斯福:把越南琉球歸還中國,蔣介石:不要!為何?

      今日養生之道
      2026-05-12 16:31:25
      株洲26歲女士征婚!要求男方獨生子、存款200萬以上,稱有前任9名

      株洲26歲女士征婚!要求男方獨生子、存款200萬以上,稱有前任9名

      火山詩話
      2026-05-11 13:50:23
      劉強東在夜市與人拼桌!被誤以為是人家爸,很多粉絲涌上去要合影

      劉強東在夜市與人拼桌!被誤以為是人家爸,很多粉絲涌上去要合影

      童叔不飆車
      2026-05-09 20:43:37
      1950年中南海便飯,韓桂馨隨口半句閑話,竟惹得毛主席當場震怒掀起全軍大清洗風暴!

      1950年中南海便飯,韓桂馨隨口半句閑話,竟惹得毛主席當場震怒掀起全軍大清洗風暴!

      史海孤雁
      2026-05-11 17:15:20
      敗光5千萬后,超市打工、不敢見人!馬蓉澳洲落魄現狀,令人唏噓

      敗光5千萬后,超市打工、不敢見人!馬蓉澳洲落魄現狀,令人唏噓

      牛鍋巴小釩
      2026-05-12 12:54:30
      門店給顧客發有償陪睡信息?滬上阿姨:已報警,賬號疑被盜用

      門店給顧客發有償陪睡信息?滬上阿姨:已報警,賬號疑被盜用

      南方都市報
      2026-05-12 17:39:36
      “漢坦病毒”來襲,醫生提醒:寧可每天看電視,也不要出門做6事

      “漢坦病毒”來襲,醫生提醒:寧可每天看電視,也不要出門做6事

      路醫生健康科普
      2026-05-11 17:39:53
      FIFA很頭疼!擴軍本是想讓中印入圍+而非佛得角 27億人已被其激怒

      FIFA很頭疼!擴軍本是想讓中印入圍+而非佛得角 27億人已被其激怒

      風過鄉
      2026-05-12 16:42:51
      “瘙癢”,不讀sāo yǎng,你不服氣也沒用!

      “瘙癢”,不讀sāo yǎng,你不服氣也沒用!

      未央看點
      2026-05-12 18:46:49
      特朗普臨行放話:訪問中國主要談3件事!“對臺軍售”是重中之重

      特朗普臨行放話:訪問中國主要談3件事!“對臺軍售”是重中之重

      咣當地球
      2026-05-12 15:26:57
      不瞞了!馬斯克罕見承認:美國是第一,但第二到第十全都來自中國

      不瞞了!馬斯克罕見承認:美國是第一,但第二到第十全都來自中國

      瀲滟晴方DAY
      2026-04-25 23:29:34
      2026-05-12 20:59:00
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業世界
      8300文章數 563關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      男子自帶挖掘機為社區修路墜崖身亡 社區不認可系工亡

      頭條要聞

      男子自帶挖掘機為社區修路墜崖身亡 社區不認可系工亡

      體育要聞

      總是掉鏈子的“倒霉蛋”,闖進了歐戰決賽

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      黃仁勛真是被白宮徹底封殺了

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      藝術
      教育
      游戲
      數碼
      公開課

      藝術要聞

      這位畫家的油畫美人讓人驚嘆不已!

      教育要聞

      綿陽科技城新區、游仙區、江油發布2026年義務教育招生公告(附劃片范圍、招生計劃)

      大司馬找小團團一起玩遭拒 直言不喜歡粉絲刷大禮物

      數碼要聞

      華為全家桶曝光!nova 16、巨屏平板、超新星手表,6月要放大招了

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 人人狠狠久久亚洲综合88| 又黄又爽又高潮免费毛片| 成人毛片无码一区二区三区| 欧美日韩国产亚洲沙发| 337p日本欧洲亚洲大胆张筱雨| 亚洲黄色性视频| 免费视频成人片在线观看| 精品福利国产| 樱花草在线社区www中国| 毛茸茸性xxxx毛茸茸毛茸茸| 中文字幕乱偷乱码亚洲| 97人人澡| 久久热这里只有精品国产| 99久久999久久久综合精品色| 东方四虎在线观看av| 亚洲日本乱码在线观看| 亚洲AV网站| 国产香蕉精品视频一区二区三区| 日韩人妻中文字幕精品| 99在线国内在线视频22| 无遮挡国产高潮视频免费观看| 国产色婷婷亚洲99精品小说| 亚洲一二区在线视频播放| 一 级做人爱全视频在线看| 久久精品这里热有精品| 国产成人精品午夜福利不卡| 亚洲av成人一区二区三区| 狠狠干性视频| 久久semm亚洲国产| 国产乱女乱子视频在线播放| 欧美日韩另类在线| 熟妇人妻无码中文字幕老熟妇| 国产1024在线永久免费观看| 国产黄色片在线看| 国产360激情盗摄全集| 在线无码av一区二区三区| 专干老肥熟女视频网站| 国产成人av在线免播放观看更新| 国产精品久久中文字幕网| 国产在线精品熟女 | 美女露出奶头扒开尿口免费网站|