<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      在AK大神爆火的任務里,摸清國產AI真實水平

      0
      分享至


      作者 | 四月

      4 月 20 日深夜,Kimi K2.6 發布并開源。它最值得被探討的,并非又贏了幾個 Benchmark,跑分逼平乃至反超海外三巨頭。這些數字反映的更多是理論上限,而非你我實際上手時的真實水平。


      圖注:K2.6 基準測試成績。在 DeepSearchQA、SWE-Bench Pro 等核心 Agent 與代碼評測項目中位居第一,在 Humanity's Last Exam 等博士級難度測試中持平或優于三巨頭(GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro),整體成績處于同級別模型的第一梯隊。

      K2.6 更現實的意義,還在于它拋出了一個關鍵命題:

      當模型步入 Agent 時代,競爭內核已從“單次作答的靈光乍現”,躍遷為“多步執行的善始善終”。Agent 的價值不再停留于輸出答案,而在于多步執行、對象管理、結構維護與增量更新中的系統承載能力。

      這才是新一代模型真正的分水嶺。

      循此判斷,筆者摒棄了常規的單點用例測試,轉而借 Andrej Karpathy 的 AI Wiki 思路,設計了一組高承壓任務。這套思路自 AK 大神在本月初提出,迅速出圈狂攬兩千萬曝光,被視為“檢索增強的下一代范式”。


      測試目的直指 Agent 底層能力:它能否超越單純的“內容生成”,展現出將內容組織為結構、將結構推進為系統的建構能力。

      比寫代碼難得多的任務

      如果只是驗證代碼能力,最簡單的做法是復現網頁、寫個應用。直接,出活快。但這測的只是局部優勢,而非 Agent 的工作流承接力。

      所以,Andrej Karpathy 的 AI Wiki 成了更優選。它表面是搭網站,內核卻是一套知識編譯系統。這也正是它比普通 RAG(檢索增強生成) 更難的地方。


      圖注:基于 K2.6 Agent 搭建的一套 Harness Engineering Wiki,已形成可檢索、可路由、可寫回的知識閉環系統,具備持續演化的工程知識庫形態。效果可參見:https://f24e2z3zeghre.beta-ok.kimi.link/

      很多人一聽“AI 知識庫”,認為還是老一套:切片、建索引、檢索、生成。每次問答都從零開始,毫無沉淀。

      而 AK 大神的破局點,正在于把“查資料”變成了“整理知識”,將無狀態檢索(即沒有記憶,不留痕跡)推進為有狀態編譯。這體現在 Wiki 極清晰的三層架構上:


      架構之外,更有精髓。AI Wiki 的真正價值,在于把知識系統的重心從“文檔展示”轉向了“對象構建”。原始資料喂進去,不直接吐長文,而是先拆解為主題、概念和來源,再織成一張可檢索、可連接、可擴展的網絡。

      頁面 UI 只是表皮,底層真正拷問的是:對象穩不穩?關系立不立得???新信息進來,舊結構會不會崩?

      但原版的 Wiki 思路不是沒有短板:偏本地。它回避了線上系統的致命問題:對象如何持久化?增量如何接入?舊結構如何防覆蓋?前后臺如何同步?

      所以,這一次我們不做簡單復刻,而是將其從一套離線編譯流程,改造為可在線運行、持續更新、前臺可訪問的知識網絡。從離線走向在線,從生成走向系統。

      這也天然地覆蓋了當前 Agent 最該被檢驗的五大能力:

      • 長鏈執行:持續推進,而非單輪結束

      • 結構組織:拆為對象,而非停留于段落

      • 系統維護:新信息入網,舊結構不崩

      • 前臺落地:組織成可用的界面,而非僅存于后臺

      • 任務拆解:規模擴大時,能否并行處理

      為什么要用 K2.6 來測?

      Kimi K2.6 值得測,恰恰在于它這次強化的幾條主線,與這類任務高度重合。

      從官方披露的信息看,K2.6 的提升并不只停留在參數和榜單,而是明確落在了三種更接近系統任務的能力上:長鏈執行、Vibe Coding 與 Agent 集群。

      先看長鏈執行。官方給出的案例里,K2.6 能在復雜任務中連續運行 12 小時以上、調用上千次工具、完成 4000 余行代碼修改;在主動式 Agent 框架中,甚至給出了最長 5 天持續自主運行的能力描述。

      這類指標的意義,不只是“它更耐跑了”,而是它開始具備承接持續任務的基本條件。


      而 AI Wiki 恰恰不是一次性生成任務,它要求模型能夠在對象抽取、關系組織、頁面生成和后續維護之間不斷往返。沒有足夠強的長鏈穩定性,這類任務很容易在中途塌掉。

      再看 Vibe Coding。K2.6 這次另一條被明顯強化的能力,是將代碼、視覺理解與前端表達結合起來,直接交付專業級 Web 應用。對于 AI Wiki 來說,這一點并不只是“頁面更好看”——它意味著模型不只要會整理知識,還要能把知識網絡做成一個可瀏覽、可使用、可繼續擴展的前臺系統。

      換句話說,AI Wiki 不是純知識抽取任務,必須落地成可瀏覽、可交互的前臺界面。這正是 K2.6 突出的強項。

      最后是 Agent 集群。官方披露,K2.6 的集群架構最高支持 300 個子 Agent 協同,并且明確強調了它在搜索、深度研究、文檔分析和長文創作等任務中的協同能力。

      這對于 AI Wiki 也非常關鍵。因為一旦輸入資料一多,任務就很容易從“一個 Agent 持續推進”轉向“多個 Agent 分工處理”。也就是說,AI Wiki 不只是一條長鏈任務,它天然也具備被 Swarm 化的潛力。

      具體來看,這次任務至少包括四個關鍵環節:

      1. 消化與編譯(Raw Source → 結構化對象)原始文本不能直接當正文展示,必須先被拆解、提純,編譯成主題、概念、對比關系與來源,形成結構化對象層。難點在于:多步驟信息處理中,模型的準確性和連貫性在這里最先暴露。

      2. 聯網與落地(對象層 → 可用前臺系統)基于編譯結果生成 Topic 頁、Concept 頁、對比頁、關系圖譜,并保證頁面之間形成跳轉閉環。這考察的是 Vibe Coding 能力:結構能不能真正變成可用的產品。

      3. 調用與反哺(知識問答 → 持續沉淀)頁面之間不只有鏈接,還要能表達相似關系、對比關系和來源回溯,把"頁面集合"推進成"知識網絡"??珥撁娌僮髦械囊恢滦?,是這一步的核心考驗。

      4. 維護與演化(增量接入 → 系統自愈)新資料進入后,系統要能繼續觸發編譯,支持斷鏈檢查和重復概念識別。這測的不是一次性生成的驚艷,而是長程運行中的自我修復與持續生長能力。

      此外,為更完整地觀察 K2.6 在不同任務組織方式下的能力邊界,這次測試并不只在一個執行環境中完成,而是分別考察了它在單 Agent 、 Agent 網站 和 Agent Swarm (集群)三種模式下的表現:

      其中,單 Agent 作為基線,網頁端 Agent 重點考察連續施工能力,Swarm Agent 則進一步測試復雜任務的拆解與協作組織能力。

      單 Agent 基準:
      系統骨架成型,知識閉環待補

      如果只給 K2.6 一個基礎單 Agent 執行環境作為基準水平,它的表現可以概括為一句話:前臺成型很快,系統感很強,但知識閉環最初并沒有自然成立。

      它最先兌現的,是兩項能力。

      這輪測試里,K2.6 最先體現出來的,不是單點頁面生成能力,而是把復雜任務持續推進成一個完整原型的能力。圍繞我們給出的要求,它先后完成了信息架構設計、對象層拆解、頁面路由搭建和主要交互補全,逐步做出了賬號登錄、工作臺、知識索引、主題頁 / 概念頁、問答 / 洞察面板以及知識圖譜等核心模塊。


      從結果上看,這已經不是一個零散頁面集合,而是一套具備明確結構和產品感的知識網絡雛形。

      這里最值得強調的,首先是它的長鏈條任務能力。

      AI Wiki 不是一次性生成任務,而是一個需要在資料輸入、知識編譯、頁面生成、關系組織和后續維護之間反復往返的長鏈工作流。K2.6 在單 Agent 模式下,已經表現出了承接這類任務的基本穩定性:它不是完成一個頁面就停,而是能沿著既有上下文持續往前推進,把任務一步步從“做頁面”推向“搭系統”。

      這一點很重要,因為如果沒有足夠強的長鏈穩定性,這類任務通常會很快退化成局部補丁,而無法積累成完整結構。

      第二個更突出的優點,是它的自我修復能力。

      單 Agent 模式下,K2.6 并不是一開始就把所有鏈路都做對了,但它有很強的“沿著當前系統繼續修”的能力:頁面缺入口,就補路由;對象層不完整,就補實體;跳轉不閉環,就補詳情頁;圖譜數據不夠,就繼續補關系讀取。

      這種能力的價值在于,它不只是生成一次結果,而是能在連續上下文中維持系統狀態,對已有結構做增量修正。這比“第一版就完美”更接近真實工程任務,也更能體現 Agent 的實際承接能力。

      同時,K2.6 的Vibe Coding能力在這一輪里也相當突出。它不僅能把知識對象落成前臺,還能迅速做出風格統一、結構清晰、適合展示的產品界面。換句話說,單 Agent 模式下,它已經證明自己不只是會寫頁面,而是能把抽象任務迅速組織成一個“像樣的系統原型”。

      當然,單 Agent 的邊界也在這一輪里顯露出來。最核心的問題不是頁面是否成型,而是知識鏈路不會隨著頁面一起自動成立。也就是說,前臺可以很快搭出來,但知識編譯、問答調用和沉淀閉環,初始狀態下往往還需要繼續補強。

      更進一步:從單點執行到系統組織

      單 Agent 已經給出了基線:它能把復雜任務壓成系統原型。接下來的問題是,當執行環境增強,K2.6 能把任務推進多深?

      從結果看,網頁端 Agent 和 Swarm 模式都帶來了明顯提升,但方向截然不同:網頁端 Agent 強化了對同一系統的連續施工與修正能力;Swarm 模式強化了對復雜任務的拆解、分工與編排能力。

      4.1 Agent 網站模式:更強的連續施工能力

      “Agent 網站”最突出的特質,不是多做了幾個頁面,而是能在同一套系統上連續迭代。


      圖注:Agent 網站模式的體驗入口

      在測試中,它圍繞既有知識網絡持續補全:從編譯管線、狀態處理到知識圖譜,始終保持了極強的上下文延續性。對于 AI Wiki 這類任務,最難的從來不是初版原型,而是多輪修改后系統不散架:對象層有沒有被保留?邏輯有沒有被延續?網頁端 Agent 在這一點上表現出了真正的工程連貫性。

      更進一步,它的核心優勢在于能不斷重新識別系統的真實約束。


      最典型的例子是登錄與數據庫的實現:它先按標準全棧思路做了認證和持久化,但部署后迅速察覺靜態環境無法承載后端服務,于是果斷切回本地持久化方案,把產品重新拉回可運行狀態。

      當然,它的邊界也依然存在。Agent 網站模式的典型問題,不是不會推進,而是容易先把前臺和交互做成立,再逐步追補底層鏈路。

      4.2 Agent Swarm 模式:不再硬扛,開始組織系統開發

      如果說網頁端 Agent 是更強的執行器,那么 Swarm 模式帶來的則是質的躍遷:它讓 K2.6 嘗試把任務本身組織成一個可拆分、可協作、可調度的系統工程。


      在測試中,Swarm 不再滿足于修補現有網絡,而是把開發過程抽象成了一套集群工作流:定義 Research、Architect、Compiler 等角色,制定流程模板、命令系統、狀態機與消息協議,甚至做出了任務流可視化。


      這種變化極其關鍵。AI Wiki 天然是多線程任務,研究、編譯、生成、維護如果全壓在一個 Agent 身上,長鏈路很容易出現崩潰。Swarm 給出的是系統工程的解法:不把所有事硬扛,而是先拆成角色,再組織成流程。

      它的深層價值,在于極強的抽象表達能力。它能把零散的開發過程,重寫成結構化的方法體系——誰先做、誰負責、怎么流轉、交付什么。這意味著它不僅在執行項目,更在生成一份可復用的“開發語法”。

      能力形態開始從“完成一次任務”躍升為“為同類任務生成可復制框架”。

      然而,Swarm 的邊界也很清楚:方法論和協作框架做得漂亮,但具體執行細節未必同等扎實。不過這恰好印證了它的核心定位:它不是更強的執行模式,而是讓復雜任務進入“可分工、可編排、可復用”狀態的能力放大器。

      4.3 三種模式,三層系統能力

      將三種模式放在同一坐標系,比較三者各自最有代表性的能力形態能力本質更為清晰。


      從“單輪聰明”到“長鏈存活”

      這輪評測下來,我越來越清晰地感受到:模型競爭的重心正在改變。

      真正重要的,已經不只是回答得像不像、寫得好不好,而是它能不能在真實任務里持續推進、持續修補,并最終把結果落成一個可用的系統。

      單 Agent 搭骨架、Agent 網頁通經絡、 Agent Swarm 做編排,這不僅是對 K2.6 的能力測繪,更是行業下一階段的預演。

      Agent 時代,競爭深水區,已從“誰生成質量更高”轉為了“誰的系統存活率更高”。

      市場早已厭倦了單輪聰明的玩具。當下真正需要的,是三種硬核特質的系統融合:抗衰減的長鏈可靠性、遇阻即改的路徑校準力、面向系統的結構編排力。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      趙麗穎馮紹峰一同牽著兒子手去學校,疑似小腹隆起,被質疑懷二胎

      趙麗穎馮紹峰一同牽著兒子手去學校,疑似小腹隆起,被質疑懷二胎

      花哥扒娛樂
      2026-05-08 08:33:03
      隨著菲律賓0-0,韓國0-3,女足亞洲杯八強對陣出爐:中國PK弱旅

      隨著菲律賓0-0,韓國0-3,女足亞洲杯八強對陣出爐:中國PK弱旅

      側身凌空斬
      2026-05-08 21:27:26
      虧損3900萬的服裝廠靠吳宜澤一夜逆襲,金利來借此實現盈利轉機?

      虧損3900萬的服裝廠靠吳宜澤一夜逆襲,金利來借此實現盈利轉機?

      戶外釣魚哥阿旱
      2026-05-08 13:35:15
      心理學有個殘忍發現:面對刻意激怒你的人,你的憤怒、隱忍、冷處理,都是在“喂養”對方,唯有這兩種做法才能反制對方

      心理學有個殘忍發現:面對刻意激怒你的人,你的憤怒、隱忍、冷處理,都是在“喂養”對方,唯有這兩種做法才能反制對方

      心理觀察局
      2026-04-30 11:04:14
      欠了快400億,罵了整十年,華西村硬是靠一筆意外投資活過來了

      欠了快400億,罵了整十年,華西村硬是靠一筆意外投資活過來了

      小莜讀史
      2026-05-07 19:10:59
      杜旭東:演了一輩子壞人,退休后開寶馬住別墅,女兒的顏值驚人

      杜旭東:演了一輩子壞人,退休后開寶馬住別墅,女兒的顏值驚人

      翰飛觀事
      2026-05-09 14:37:42
      她屬于胸大腰細的女演員,打敗少女感的,從來不是年輕

      她屬于胸大腰細的女演員,打敗少女感的,從來不是年輕

      南萬說娛26
      2026-05-09 14:31:34
      美國制藥巨頭:正在研發漢坦病毒疫苗

      美國制藥巨頭:正在研發漢坦病毒疫苗

      觀察者網
      2026-05-09 10:34:06
      礦山采石場除塵怎么做?粉塵控制全套工藝

      礦山采石場除塵怎么做?粉塵控制全套工藝

      恒大興業環保
      2026-05-09 11:50:14
      臺灣地區最新民調出爐,鄭麗文支持率倒數,這下讓蔣萬安撿了漏?

      臺灣地區最新民調出爐,鄭麗文支持率倒數,這下讓蔣萬安撿了漏?

      一網打盡全球焦點
      2026-05-08 08:34:58
      病毒不在中國暴發,外媒全啞火了!外國網友:怎么還沒人責怪荷蘭

      病毒不在中國暴發,外媒全啞火了!外國網友:怎么還沒人責怪荷蘭

      一家說
      2026-05-09 12:43:06
      Anthropic最危險路線圖曝光: 無限記憶、多智能體! AI終局戰僅剩雙雄決頂

      Anthropic最危險路線圖曝光: 無限記憶、多智能體! AI終局戰僅剩雙雄決頂

      新智元
      2026-05-08 15:10:12
      Netflix王牌美劇,太頂了

      Netflix王牌美劇,太頂了

      來看美劇
      2026-05-06 22:35:13
      延壽11%、多器官回春!中科院:這味常見中藥改善全身機能!

      延壽11%、多器官回春!中科院:這味常見中藥改善全身機能!

      時光派長壽觀察
      2026-05-08 17:08:02
      “橫漂”消亡史:有人用AI,500塊買走他們的臉

      “橫漂”消亡史:有人用AI,500塊買走他們的臉

      顯微故事
      2026-05-09 15:25:13
      泰康人壽“全國銷冠”事件迎反轉?“3~4億窟窿”或不實!

      泰康人壽“全國銷冠”事件迎反轉?“3~4億窟窿”或不實!

      互聯網那些事
      2026-05-09 11:12:27
      深度長文:如果你不存在了,宇宙還會存在嗎?

      深度長文:如果你不存在了,宇宙還會存在嗎?

      宇宙時空
      2026-05-09 12:04:49
      恭喜杜鋒!“加強版徐昕”或被廣東隊截胡,朱芳雨又要出手了?

      恭喜杜鋒!“加強版徐昕”或被廣東隊截胡,朱芳雨又要出手了?

      緋雨兒
      2026-05-09 12:40:40
      在老婆包里發現避孕藥,我換成鈣片.20天后,老婆男閨蜜逃回了老家

      在老婆包里發現避孕藥,我換成鈣片.20天后,老婆男閨蜜逃回了老家

      朗威談星座
      2026-05-08 14:16:56
      1978年起陳云地位迅速上升,跨越多級“臺階”,背后原因何在

      1978年起陳云地位迅速上升,跨越多級“臺階”,背后原因何在

      鶴羽說個事
      2026-04-30 22:47:23
      2026-05-09 16:03:00
      InfoQ incentive-icons
      InfoQ
      有內容的技術社區媒體
      12346文章數 51880關注度
      往期回顧 全部

      科技要聞

      美國政府強力下場 蘋果英特爾達成代工協議

      頭條要聞

      香港富豪孫女被綁架 綁匪拿到2800萬后逃跑8人花11萬

      頭條要聞

      香港富豪孫女被綁架 綁匪拿到2800萬后逃跑8人花11萬

      體育要聞

      成立128年后,這支升班馬首奪頂級聯賽冠軍

      娛樂要聞

      50歲趙薇臉頰凹陷滄桑得認不出!

      財經要聞

      Meta瘋狂擁抱人工智能:員工苦不堪言

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態度原創

      本地
      教育
      旅游
      親子
      房產

      本地新聞

      用蘇繡的方式,打開江西婺源

      教育要聞

      “你管這面相叫聰慧明理?”寶媽寫小作文偏袒小兒子,被網友群嘲

      旅游要聞

      滿目青翠入畫來 棗莊楊峪初夏景致美不勝收

      親子要聞

      什么牌子的奶粉好?君樂寶奶粉以靠譜品質回應寶媽牽掛

      房產要聞

      豪擲6.8億拿地!何猷君大手筆投資三亞!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲av无码成人专区| 又粗又硬又黄a级毛片| 国产高清A片| 国产jjizz女人多水| 麻豆精品在线看| 久久人人爽人人爽人人片dvd| 国产精品自拍视频免费看| 亚洲自拍偷拍二区| 人人澡人人妻人人爽人人蜜桃 | 丝袜无码| 亚洲日韩乱码中文无码蜜桃臀| 亚洲精品白浆高清久久久久久| 亚洲va久久久噜噜噜久久天堂| 亚洲VA无码专区国产乱码| 18禁男女污污污午夜网站免费暖暖| 69精品人人人| 国产乱子伦精品视频| 午夜成人网站| 图片区小说区视频区综合| 在线观看网站国产| 国产一区二区三区色老头| 男人天堂2024手机在线| 久久精品电影| 超级碰碰色偷偷免费视频| 成av人片在线观看天堂无码| 久久国产欧美成人网站| 亚洲免费三区| 亚洲精品国偷拍自产在线观看蜜桃| 成人无码区免费A片在线软件| 亚洲色偷拍区另类无码专区| 日本一本正道综合久久dvd| 亚洲精品美女久久久久久久| 免费久久99精品国产自在现| 亚洲av永久无码精品网站| 拍国产真实乱人偷精品| 亚洲中文字幕高清| 女人摸下面自熨视频在线播放| 亚洲精品中文字幕无乱码麻豆 | 91视频入口| 亚洲AV成人精品一区二区三区在线播放| 国产av一区二区亚洲|