<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      人類100%通關,AI 最高僅0.37%!這個測試戳破AGI“泡沫”?

      0
      分享至

      3月底,ARC大獎基金會發布了一篇全新論文,推出ARC-AGI-3智能測試基準,直接給當下所有頂尖大模型來了次“裸考”。


      結果相當殘酷。

      研究團隊找了486名普通人類受試者,測試了414個環境。

      結果,人類100%能完成所有任務,單次嘗試中位耗時僅7.4分鐘,最快幾分鐘就能搞定一關。

      而GPT、Gemini、Opus這些頂流AI,最高分才0.37%,幾乎全軍覆沒。


      先搞懂這個論文的主角 ARC-AGI系列,到底是個什么測試?

      早在2019年,第一篇ARC-AGI-1就橫空出世。

      它的設計理念很純粹,不考記憶、不考刷題、不考語言和現成知識,只測最核心的抽象推理能力。


      ARC-AGI-1和2025年推出的ARC-AGI-2,都是用網格圖形題,讓AI從少量示例里找規律、推規則,杜絕靠大數據訓練“作弊”。

      而且,評分機制懲罰蠻力。

      如果人類需要 10 個步驟,而 AI 需要 100 個步驟,AI 不會獲得 10% 的分數,而是 1%。

      就是說,你無法通過增加計算能力來解決這個問題。

      前兩代測試,已經讓很多AI現出原形,可隨著大模型發展,出現了新問題。


      不少模型投入數百萬美元,通過海量相似任務訓練、測試時優化,找到了“記憶捷徑”,慢慢能刷出高分。

      比如, Gemini 在該測試中取得了 98% 的正確率。ARC-AGI-2 的正確率在不到一年的時間內從 3% 提升到了 77%。

      正是為了補上這個缺口,ARC-AGI-3應運而生,它徹底換了打法:從“做題”變成“玩游戲”。

      就是把AI放進一個個全新的交互式回合制環境里,沒有任何指令、沒有教程、沒有提示,連目標是什么都不說,全靠AI自己摸索。


      論文里明確,它專門測試智能體的四大核心能力,這恰恰是人類天生具備,卻是當下AI最大短板:

      1. 探索能力:主動和環境互動,自己找信息、摸規則,而不是等著喂數據;

      2. 建模能力:把零散的觀察,總結成環境運行的規律,構建自己的“世界模型”;

      3. 目標設定:沒人告訴它要做什么,自己判斷通關條件、找到獲勝目標;

      4. 規劃執行:制定行動步驟,還能根據環境反饋隨時調整,不是盲目試錯。

      為了保證公平,這套測試的設計極其嚴格:

      ? 所有環境只基于客體、基礎幾何、直覺物理等核心先驗知識,不用語言、數字、文化符號,杜絕靠常識“躺贏”;

      ? 每個環境都是全新原創,和現有游戲、前兩代任務完全不同,防止AI靠記憶刷分;

      ? 經過大規模人類測試,確保普通人都能輕松通關,排除題目本身太難的問題。

      整個基準分為公共演示集和私有測試集,公共集用來展示,真正打分的私有集完全保密,從根源上避免AI針對性優化。

      經過測試,從論文里公布的官方測試數據看,堪稱 AI 的滑鐵盧。

      論文還特意區分了兩個排行榜。


      官方榜:純原生AI,無任何輔助,測的是真實智能;


      社區榜:允許用外部框架,分數再高,也不代表AGI真正進步。

      說白了,加了“外掛”的AI能拿高分,但那是人類設計的框架在幫忙,不是AI本身變聰明了。


      這兩年,AI畫畫、寫代碼、對話越來越像人,很多人喊著“AGI已來”。

      前不久,黃仁勛還在說,AGI 已經來了。

      可ARC-AGI-3的測試結果看, AI要么摸不透規則,要么找不到目標,要么只會盲目試錯,完全沒有人類那種“舉一反三、自主探索”的能力。

      看起來,當下 AI 的本質,還是“指令驅動”,還是“做題家”——給任務、給規則才能做,和人類的通用智能有根本的差距。

      前者擅長的是記憶、計算、模仿,而人類的智能,是探索、推理、創造。

      而真正的智能,從來不應該是知識型,而是在未知里,去尋找解決方案的能力。

      最新消息是,經過訓練,已經有公司宣布全部通關了 ARC-AGi-3,但還沒有人去領取獎金。


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      追覓CEO俞浩:聽說某知名科技新貴喜歡看美女,來,滿足你

      追覓CEO俞浩:聽說某知名科技新貴喜歡看美女,來,滿足你

      財聞
      2026-05-12 14:53:07
      中國在美伊開戰后石油日進口減少25%,但庫存創新高,還將部分石油出售

      中國在美伊開戰后石油日進口減少25%,但庫存創新高,還將部分石油出售

      爆角追蹤
      2026-05-12 09:20:42
      12歲男孩確診癌癥晚期!研究證實:這5種添加劑正在升高癌癥風險……

      12歲男孩確診癌癥晚期!研究證實:這5種添加劑正在升高癌癥風險……

      環球網資訊
      2026-05-11 14:21:45
      女子因18元奶茶被親姐拉黑,崩潰大哭:離婚帶娃5年,都看不起我

      女子因18元奶茶被親姐拉黑,崩潰大哭:離婚帶娃5年,都看不起我

      辣媒專欄記錄
      2026-05-11 08:21:59
      懵了!東契奇突然退出球隊!

      懵了!東契奇突然退出球隊!

      柚子說球
      2026-05-12 20:50:09
      特朗普拒絕中方要求,美媒提醒他:中國并不期待,別擺架子

      特朗普拒絕中方要求,美媒提醒他:中國并不期待,別擺架子

      說歷史的老牢
      2026-05-11 15:43:20
      突發!韓國股市閃崩,瞬間暴跌超500點!SK海力士、三星電子跳水

      突發!韓國股市閃崩,瞬間暴跌超500點!SK海力士、三星電子跳水

      每日經濟新聞
      2026-05-12 17:45:51
      12歲男孩確診癌癥晚期!父母透露孩子常把飲料當開水喝 油炸、腌制零食吃起來毫無節制

      12歲男孩確診癌癥晚期!父母透露孩子常把飲料當開水喝 油炸、腌制零食吃起來毫無節制

      閃電新聞
      2026-05-12 18:27:14
      特朗普應邀訪華三天,中方準備了高規格禮遇,他想邀中方回訪美國

      特朗普應邀訪華三天,中方準備了高規格禮遇,他想邀中方回訪美國

      忠于法紀
      2026-05-12 17:29:09
      茶葉是血糖的“加速器”?醫生忠告:不想血糖升高,少喝4種茶

      茶葉是血糖的“加速器”?醫生忠告:不想血糖升高,少喝4種茶

      橘子約定
      2026-05-12 20:44:04
      前腳剛考上公務員獲公示,他轉身就將攝像頭伸進女生裙底!這一次真的該感謝舉報者

      前腳剛考上公務員獲公示,他轉身就將攝像頭伸進女生裙底!這一次真的該感謝舉報者

      瀟拾億郎
      2026-05-12 18:03:02
      天壇公園:5月13日至14日暫停開放

      天壇公園:5月13日至14日暫停開放

      南方都市報
      2026-05-12 12:01:58
      女子退禮服被商家曝光后續:女方長相扒出,主動退演,稱情緒低落

      女子退禮服被商家曝光后續:女方長相扒出,主動退演,稱情緒低落

      李晚書
      2026-05-12 18:54:35
      復旦解剖326名糖尿病逝者,意外發現:得糖尿病的人,大多有5共性

      復旦解剖326名糖尿病逝者,意外發現:得糖尿病的人,大多有5共性

      芹姐說生活
      2026-05-12 15:38:02
      出乎眾人預料,中方提前48小時官宣特朗普訪華,高市早苗心愿落空

      出乎眾人預料,中方提前48小時官宣特朗普訪華,高市早苗心愿落空

      策前論
      2026-05-11 18:13:56
      世乒賽結束第2天,林詩棟處罰懸念揭曉 國際乒聯發文,日球迷破防

      世乒賽結束第2天,林詩棟處罰懸念揭曉 國際乒聯發文,日球迷破防

      大秦壁虎白話體育
      2026-05-12 09:27:57
      宣布大事?官方:皇馬主席弗洛倫蒂諾將于明日0點召開記者見面會

      宣布大事?官方:皇馬主席弗洛倫蒂諾將于明日0點召開記者見面會

      懂球帝
      2026-05-12 22:21:17
      上海地鐵打人爆火!兩老人施暴女孩,官方怒批倚老賣老,追責難逃

      上海地鐵打人爆火!兩老人施暴女孩,官方怒批倚老賣老,追責難逃

      奇思妙想草葉君
      2026-05-12 02:14:56
      為見女兒最后一面,老人第一次坐高鐵買不到票崩潰大哭,緊急求助,民警全程護航

      為見女兒最后一面,老人第一次坐高鐵買不到票崩潰大哭,緊急求助,民警全程護航

      環球網資訊
      2026-05-12 16:52:39
      全球進入北京時間

      全球進入北京時間

      環球時報國際
      2026-05-12 14:44:04
      2026-05-13 00:07:00
      AI先鋒官 incentive-icons
      AI先鋒官
      AIGC大模型及應用精選與評測
      506文章數 74關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      游戲
      數碼
      親子
      教育
      軍事航空

      LPL第二賽段:又是讓一追二,BLG三局戰勝IG

      數碼要聞

      2000W電源來了!AI工作站供電新選擇

      親子要聞

      dhea什么時候吃最好時間?卵巢早衰做試管成功率高嗎?

      教育要聞

      “5塊錢能吃啥早餐?”小學兒子索要20元早餐費,家長卻翻出煙盒

      軍事要聞

      知情人士披露:美國或考慮恢復對伊朗軍事行動

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 一区二区中文字幕av| 欧美成人秋霞久久aa片| 国产精品自拍超碰在线| 国内精品久久久久久中文字幕| 国产成人精品亚洲77美色| 国产精品第一二三区久久| 67194欧洲| 欧美老少配性行为| FREEXX性黑人大战欧美视频| 黑人欧美一级在线视频| 少妇的滋味中文字幕bd李恩美| 亚洲熟女少妇一区二区| 亚洲人jizz日本jiz人| 肃北| 亚洲国产午夜精品乱码| 性猛交xxxx乱大交中国| 日韩精品人成在线播放| 亚洲AV无码资源在线观看| 日韩在线欧美丝袜99| 国产v综合v亚洲欧美大天堂| 亚洲综合av一区二区三区| 国产无遮挡无码视频免费软件| 毛片国产精品完整版| 午夜精品久久久久久久爽| 精品一区二区三区国产馆| 天堂av一区二区三区| 一本色道久久综合熟妇人妻| 日本阿V网站在线观看中文| 男男被到爽无套高潮| 国产va在线观看免费| 国产18禁美女无遮挡| 一本大道久久东京热无码av| 久久精品久久电影免费理论片| 国产婬妇无码无遮挡A片在线观看| 99久久久国产精品免费蜜臀| 亚洲AV无码乱码国产精品| 亚洲a∨天堂最新地址| 狠狠躁夜夜躁av网站中文字幕| 亚洲欧美?va天堂人熟伦| 成人黄色av网站| 国产成人在线观看网站|