AI能連續工作16小時,人類出的考題不夠用了。
![]()
AI“考爆”了,不是它錯,是題太簡單
通用人工智能的到來,或許比我們預想的要快。至少在編程領域,變革的浪潮已經清晰可見。
最近,一個名為Claude Mithras的模型,在權威評測中取得了令人震驚的成績。
這好比學霸與學神的區別:學霸考100分,是努力達到了極限;學神考100分,是因為試卷滿分只有100分。
評測機構METR在測試新一代模型時,首次遇到了“測不準”的情況。
并非模型出錯,而是人類設計的題庫已經不夠用了。
你給孩子出考題,本來以為夠難了,結果孩子全對,不是他只會這么多,是你出的題最多就值這么多分。AI現在就是這樣。
過去,人們測試AI,主要看它能否解答單點問題,比如數學計算、代碼片段或語言理解。
但現在,新的測試方向聚焦于另一件事:AI能否像一個真正的員工一樣,連續、獨立地完成一項復雜任務。
例如,一個原本需要程序員花費數小時的工作,交給AI。
![]()
看它能否自己閱讀理解代碼庫、理解系統架構、制定解決方案、調試錯誤,并最終完整交付。
這種獨立工作的持久力,被稱為“任務時間跨度”。
幾年前,AI只能處理幾秒鐘級別的任務,比如寫一行代碼。
后來,進化到幾分鐘完成一個簡單函數。再后來,能花一小時搞定一個小模塊。
而最新一代的模型,其獨立工作時間已經輕松超過16小時。
關鍵點來了:METR評測中最難的題目,耗時就是16小時。
所以,不是模型只能工作16小時,而是題庫里根本沒有更復雜的題目了。
這標志著一個臨界點:AI開始突破人類為它設定的能力上限。
![]()
從“工具”到“員工”,AI角色變了
互聯網時代,自動化的是信息流轉。
AI時代,真正開始自動化的,是“認知勞動”。
這種變化,在編程和網絡安全行業感受最為直接。
原本,AI編程是程序員的得力助手。但照此發展,未來可能真的不再需要那么多程序員了。
AI不僅能寫代碼,更能理解需求、設計架構、持續調試,完成一個完整的開發閉環。
過去一個軟件開發團隊需要10個人,如果AI能獨立完成其中80%的工作,那還需要幾個人?
這不是危言聳聽,是正在發生的事。
網絡安全領域同樣如此。一些安全公司發現,AI不再只是輔助人類尋找漏洞,而是能像經驗豐富的高級黑客一樣,自動將多個微小漏洞串聯起來,形成完整的攻擊鏈。
過去一個團隊需要數周才能完成的滲透測試,AI可能只需幾小時甚至幾十分鐘。
![]()
這也催生了“用AI對抗AI”的新賽道:你拿AI攻擊,我就拿AI防守。
人跑不贏AI,但AI可以跑贏AI。
當然,不必過度恐慌或神化。今天的AI依然會犯錯誤,會產生“幻覺”,會偏離軌道,也遠未達到真正理解世界的人類級智能。
它距離所謂的“技術奇點”或“外星文明”般的超級智能,還有很長的路要走。
真正值得警惕的,是AI進步的速度和方式
但真正值得警惕的,不是AI是否已成“神”,而是它進步的速度和方式。
過去的AI,更像一個增強版的搜索引擎,有問必答。你問它問題,它給你答案。
未來的AI,將真正成為一個可以委派任務、獨立工作的數字員工。
你給它一個目標,它自己規劃路徑、執行任務、交付結果。
更深層的問題是:如果AI未來開始自己研發更強的AI呢?
現在是人研發AI。如果AI的編程能力已經超過人類,那它完全可以自己寫代碼、自己優化自己。
到那時候,技術進步本身將被AI加速,其增長曲線可能不再是簡單的指數增長,而是“指數的指數”增長。
![]()
評測題庫被AI“打爆”,是一個極具象征意義的信號,它告訴我們三件事:
變革已至,且正在加速。不是未來某一天,就是現在。
衡量AI的標準變了。從“會不會做這道題”變成了“能不能獨立完成一項工作”。
人類需要重新思考自己在工作中的位置。當AI能連續工作16小時不休息、不出錯、不抱怨,人類的核心競爭力在哪里?
這不是要制造焦慮,而是提醒:適應的最好時機是昨天,其次是現在。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.