<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Kimi K2.6:300個Agent優雅并行4000步,它就是Agent的OS|附一手實測

      0
      分享至


      作者 | 董道力
      郵箱 | dongdaoli@pingwest.com

      4 月 20 日,月之暗面發布了新模型 Kimi K2.6,并同步開源。

      從官方展示來看,這次更新重點有三塊:長周期 coding、網頁設計生成,以及更大規模的 Agent Swarm。

      把三項能力放在一起看,會發現 Kimi 想強化的,已經不只是模型本身,而是模型調度 agent、接管任務流程的能力。它要做的就是一個能最終成為Agent的OS的模型。

      1

      長周期 Coding 能力

      K2.6 在內部基準 Kimi Code Bench 上較 K2.5 有明顯提升,覆蓋 Rust、Go、Python 等多語言,以及前端、DevOps、性能優化等場景。

      官方給出兩個 demo:一是用 Zig 語言在 Mac 上優化 Qwen3.5-0.8B 的本地推理,連續執行 12 小時、4000 余次工具調用,推理吞吐量從 15 tokens/s 提升至 193 tokens/s。

      二是自主重構開源金融撮合引擎 exchange-core,歷時 13 小時、1000 余次工具調用,中值吞吐提升 185%,峰值吞吐提升 133%。

      兩個案例指向同一個問題,在超出常規訓練分布的任務里,冷門語言、接近性能上限的存量項目,模型能否長時間穩定執行而不漂移。

      長周期穩定性是目前行業普遍在攻的方向,改進路徑主要集中在三個層面:錯誤恢復能力、長程可靠性,以及工具調用邏輯。

      各家的解法有所不同,Anthropic 近幾個月公開強調的重點,是 harness 與 context engineering,而不只是單純拉模型分數。Google 的思路是用超長上下文窗口來對抗長程漂移,Gemini 提供最高 100 萬 token 的上下文窗口。K2.6 的應對方式是將可靠性直接壓在模型層,據 CodeBuddy 內測數據,工具調用成功率達 96.60%,factory.ai 的獨立評估顯示,K2.6 整體較 K2.5 提升約 15%。

      1

      網頁設計生成能力

      Kimi 建立了內部基準 Kimi Design Bench,從視覺輸入、落地頁生成、全棧應用、創意編程四個維度與 Google AI Studio 進行對比,K2.6 表現更優。


      具體能力包括:從單條 prompt 生成帶動效的前端界面、調用圖片/視頻生成工具輸出視覺素材,以及覆蓋登錄、數據庫等基礎全棧功能。

      視覺轉代碼這個方向,行業競爭格局相對清晰。Gemini 憑借原生多模態架構在視覺理解上具有結構性優勢,Google AI Studio 也是目前最主流的前端生成測試平臺之一。

      K2.5 發布時就有評測將其定位為"中國首個在前端設計和視覺理解上與 Gemini 2.5 Pro 形成真實競爭的模型",K2.6 是在此基礎上的延續。

      1

      Agent Swarm 擴容

      相比 K2.5,Agent Swarm 的規模從 100 個子 agent、1500 步,擴展至 300 個子 agent、4000 步并行執行,K2.6 負責調度與任務失敗后的自動重分配。

      官方 demo 展示了 100 個子 agent 同時生成 100 份定制簡歷,以及批量為 30 家無官網零售店生成落地頁等場景。Kimi 內部也已采用這套系統,內容團隊通過 Claw Groups 跑發布流程,Demo 制作、基準測試、社媒發布各有專屬 agent 分工。

      多 agent 協作是目前各家競爭最激烈的方向之一,但路線分歧明顯。OpenAI 的方向是在產品層做深度集成,將 agent 能力封裝進 ChatGPT 的工作流。Kimi 的差異化在于開放性,Claw Groups 不綁定自家模型,允許接入任意第三方 agent,這一設計更接近 agent OS 的定位,而非封閉的產品生態。


      1

      Benchmark 環節

      K2.6 在基準測試中最突出的方向是 agent 搜索和實際工程 coding。

      DeepSearchQA f1-score 達到 92.5,領先 GPT-5.4 的 78.6 超過 13 分;SWE-Bench Pro 以 58.6 排在四家第一。

      但在同類工具調用測試中,Toolathlon 和 MCPMark 分別以 50.0 和 55.9 落后于 GPT-5.4 的 54.6 和 62.5,說明 K2.6 在信息檢索類 agent 任務上有優勢,在第三方工具調用質量上仍有差距。

      coding 方向整體處于第一梯隊,但未能全面領先:Terminal-Bench 2.0 落后于 Gemini,SWE-Bench Verified 三家幾乎打平。

      推理和數學是明顯短板:HLE-Full 不帶工具僅得 34.7,比 Gemini 低近 10 分;AIME 2026、GPQA-Diamond 均落后 2—4 分。視覺方向與 Gemini 基本持平,但整體落后于 GPT-4.5。


      1

      實測 K2.6

      編程能力

      4 月 14 日,K2.6 Preview 上線后,我把它接進 Claude Code,拿來做一個社區官網項目。項目內容不算簡單,既有文章遷移、歷史圖片處理,也有全棧開發。整個過程斷斷續續跑了 6 天,最長一次任務跑了3小時,前后分成 6 個彼此獨立的會話。

      這輪測試里,K2.6 有兩個表現尤其值得記下來。

      先說長周期可靠性。現在很多 AI 編程助手都有一個很明顯的問題:會話一斷,上下文就像被清空了一遍,下次重新打開,往往還得從頭對齊背景、技術棧和代碼規范。但這次測試中,我在每次新會話開始時都沒有額外交代項目背景,K2.6 依然能延續第一天確定下來的技術選型和設計規范,6 天里產出的代碼風格也基本保持一致。對于一個持續推進、不斷迭代的真實項目來說,這種穩定性比單次輸出的驚艷更重要。

      再說指令遵循。我給它的指令其實很簡單,只有一句:“優化 CMS UI。” 但 K2.6 沒有停在表層執行,而是先回看已有設計規范,確認技術約束,再自己拆計劃、往下推進,整個過程幾乎沒有額外追問。

      在處理業務約束時,它也不是機械照做。比如遷移腳本會主動保留原始 URL,并在 README 里補上潛在風險說明。這說明它理解的不是一句命令本身,而是命令背后的含義。

      網頁編程能力

      測試 1:動效交互

      promtps:為一家叫 PW 的 AI 寫作工具設計一個產品落地頁,要有科技感。需要包含:首屏 hero 區塊、功能介紹區、用戶評價區。滾動到不同區塊時有入場動畫,hero 區有視差效果,CTA 按鈕有 hover 動效。

      K2.6 生成的整體水準很高。配色用了 oklch 色彩空間,間距和字體用 clamp() 響應式縮放,設計 token 抽得很系統,說明不是隨手填的。

      動效有層次,視差用鼠標位置 + 滾動雙驅動加 lerp 插值,GSAP 入場用了 stagger 錯開時序,feature card hover 做了跟手光效,這些細節大多數輸出不會主動加。

      弱的地方是內容層,三張功能卡片的圖標都是通用 SVG,用戶評價頭像只用了漢字首字,視覺上偏模板化。結構和動效的完成度高,內容設計的差異化不足。

      測試 2:視覺輸入

      那些眼花繚亂的特效,很難用語言描述出來,這時候,多模態視頻就是一個很好的輸入方式。

      我們錄屏了 lusion.co 網頁的交互,滾動特效相當復雜,我們讓 K2.6 根據視頻寫一個網頁。(在 Claude Code 環境中)

      prompts:根據視頻,做一個特效一樣的網頁。

      我們先看一下原網站。

      第一次生成時,K2.6 只看了 17 幀的視頻,做出來的效果并不好,經過第二輪對話,K2.6 頁看到了更多細節。


      我們可以看一下 K2.6 僅僅通過視頻生成的網頁,雖然和原網頁的動效還有差距,但網頁的元素結構,尤其是宇航員滑動效果基本都有模有樣。

      分析一下操作流程,可以發現,在 ClaudeCode 環境下,K2.6 只能靠抽幀圖片來學習視頻,如果 harness 搭建的更加完善,K2.6 可能可以更好還原。

      Agent 集群

      這一項能力在 Kimi 官網進行測試,采用 K2.6 Agent 集群分析 K2.6 本身的能力。


      Kimi 首先對任務做整體判斷,分析涉及哪些環節,這一步不聯網,因此將 K2.6 識別為 2025 年發布的模型。


      初步規劃完成后,K2.6 加載相應技能,進入初步研究階段,并將研究任務拆解成多個維度。



      前兩步由 K2.6 單一模型執行,第三步則根據拆解出的維度,每個維度派出一個 agent 并行展開研究。


      例如,"陸研究員"負責研究 K2.6 的推理能力,"陳研究員"負責研究長文本能力。


      每個 agent 可獨立調用不同技能、聯網搜索,并以 plan 模式生成 todo 推進任務,最后將結果匯總共享。

      匯總后,Kimi 會對各 agent 產出的內容進行交叉驗證,以糾正類似"K2.6 發布于 2025 年"這類錯誤。


      進入報告撰寫階段后,同樣派出多個報告撰寫員 agent,并行完成各部分內容。

      這套流程在工程上有一個值得注意的設計決策,交叉驗證不是甩給用戶的,而是內嵌在流程里自動完成的。單個 agent 在獨立運行時不可避免地會產生幻覺,Kimi 的應對方式不是試圖消滅這個問題,而是在架構層接受它的存在,用并行制造冗余,再用驗證層消化誤差。

      這與人類團隊的協作邏輯高度相似,分頭調研、匯總對齊、分工執筆。更重要的是,這套流程對用戶來說是全程透明的,每個 agent 在做什么、發現了什么、被糾正了什么,都可以追溯。

      這在當前多 agent 產品普遍是黑箱的背景下,是一個實際的差異點。

      1

      DeepSeek 沒來,K2.6 先來了

      最近一段時間,AI 圈都在等 DeepSeek 的下一張牌。上一次它抬高了國內模型競爭的基準線,這一次,所有人也都默認,下一個高潮還會從“誰的模型更強”開始。

      但 K2.6 有意思的地方,恰恰在于它沒有只回答這個問題。

      長周期 coding、網頁生成、Agent Swarm,看上去是三項能力,其實月之暗面已經不滿足于把模型做得更聰明,而是想讓模型去組織更多 agent、接管更長流程、吞下更完整的任務鏈條。參數規模、benchmark 排名、單輪對話質量,當然還重要,但它們開始退到第二層。真正被推到臺前的,是調度、協作、驗證和交付等。

      如果說過去的大模型競爭,比的是誰更像一個更強的大腦,那么 K2.6 想證明的,是另一個方向:未來真正有分量的產品,也許不只是一個模型,而是一群 agent,外加一個會指揮它們的中樞。

      這個方向最后能不能跑通,現在還不能下結論。但至少,月之暗面已經先把問題改寫了。


      點個愛心,再走 吧

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      亨得利希望2029年世錦賽留在謝菲爾德!特魯姆普:找不到任何理由

      亨得利希望2029年世錦賽留在謝菲爾德!特魯姆普:找不到任何理由

      世界體壇觀察家
      2026-05-08 08:12:17
      香港第一風水師陳朗,因助人改命受天譴,李嘉誠花費千萬為他續命

      香港第一風水師陳朗,因助人改命受天譴,李嘉誠花費千萬為他續命

      郁郁乎文
      2024-07-07 22:25:36
      凌晨咳到吐!全國多地中招“干咳毒株”,患者猜疑新冠病毒新變種

      凌晨咳到吐!全國多地中招“干咳毒株”,患者猜疑新冠病毒新變種

      譚談社會
      2026-05-08 23:19:21
      今年五一,全球旅游業傻眼了,中國人長假不再“爆買”全球了

      今年五一,全球旅游業傻眼了,中國人長假不再“爆買”全球了

      魔都姐姐雜談
      2026-05-07 12:53:33
      世體:皇馬更衣室認定,是維尼修斯一直向阿韋洛亞“告密”

      世體:皇馬更衣室認定,是維尼修斯一直向阿韋洛亞“告密”

      懂球帝
      2026-05-08 14:21:05
      這下真讓外國人驚呆了!外交部發言人毛寧曬武漢地鐵無人看管“行李箱墻”

      這下真讓外國人驚呆了!外交部發言人毛寧曬武漢地鐵無人看管“行李箱墻”

      極目新聞
      2026-05-09 00:28:08
      工作幾年后才發現:越是草臺班子,越沉迷毫無意義的精細化

      工作幾年后才發現:越是草臺班子,越沉迷毫無意義的精細化

      細說職場
      2026-05-06 13:45:18
      “紙上安全”VS現實噩夢:華為問界產業鏈為何淪為“忽悠型”造車的重災區?

      “紙上安全”VS現實噩夢:華為問界產業鏈為何淪為“忽悠型”造車的重災區?

      SmartHey
      2026-05-08 10:10:02
      女環衛工被毆再升級!警方出手,施暴者老底被扒,勢力大也得坐牢

      女環衛工被毆再升級!警方出手,施暴者老底被扒,勢力大也得坐牢

      阿鳧愛吐槽
      2026-05-08 16:06:49
      萬萬沒想到!國際足聯主動降價三次,央視咬死6200萬絕不松口

      萬萬沒想到!國際足聯主動降價三次,央視咬死6200萬絕不松口

      落雪聽梅a
      2026-05-08 20:13:20
      太陽報:卡塞米羅將生涯下一站交給一直支持他的妻子決定

      太陽報:卡塞米羅將生涯下一站交給一直支持他的妻子決定

      懂球帝
      2026-05-08 22:09:49
      再見了CBA?徐昕已被美國球隊高薪挖墻腳:年薪有望超過2000萬?

      再見了CBA?徐昕已被美國球隊高薪挖墻腳:年薪有望超過2000萬?

      籃球快餐車
      2026-05-08 00:46:53
      辛納與德約科維奇力挺薩巴倫卡:大滿貫獎金之爭關乎尊重

      辛納與德約科維奇力挺薩巴倫卡:大滿貫獎金之爭關乎尊重

      賽場速報局
      2026-05-08 03:03:06
      整條未拆香煙能放多久?煙草員工實錘真相,90%煙民都錯了

      整條未拆香煙能放多久?煙草員工實錘真相,90%煙民都錯了

      老特有話說
      2026-05-08 14:47:21
      中國油輪在霍爾木茲海峽遇襲

      中國油輪在霍爾木茲海峽遇襲

      輦轂
      2026-05-08 11:31:30
      小米辣制造羅馬首起慘案追平萊巴一紀錄,鄭欽文哭稱感覺被針對了

      小米辣制造羅馬首起慘案追平萊巴一紀錄,鄭欽文哭稱感覺被針對了

      網球之家
      2026-05-08 12:44:16
      外交部:中國駐俄羅斯使館代表將應邀出席勝利日閱兵儀式

      外交部:中國駐俄羅斯使館代表將應邀出席勝利日閱兵儀式

      新京報
      2026-05-08 15:57:15
      五一過后徹底清醒:越來越多人頓悟,旅游不是花錢找罪受

      五一過后徹底清醒:越來越多人頓悟,旅游不是花錢找罪受

      老特有話說
      2026-05-08 16:15:20
      皇馬球員對哈維·阿隆索難以容忍的不尊重行為:"他們故意……"

      皇馬球員對哈維·阿隆索難以容忍的不尊重行為:"他們故意……"

      綠茵情報局
      2026-05-08 17:21:25
      中方關鍵時刻伸出援手,給處于生死存亡的老杜家族,送出一絲希望

      中方關鍵時刻伸出援手,給處于生死存亡的老杜家族,送出一絲希望

      云上烏托邦
      2026-05-08 20:39:26
      2026-05-09 05:39:00
      硅星人 incentive-icons
      硅星人
      硅(Si)是創造未來的基礎,歡迎來到這個星球。
      3063文章數 10496關注度
      往期回顧 全部

      科技要聞

      SK海力士平均獎金600萬 工服成相親神器

      頭條要聞

      美公布首批UFO文件 視頻公開:阿聯酋現水母狀物體

      頭條要聞

      美公布首批UFO文件 視頻公開:阿聯酋現水母狀物體

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經要聞

      估值3000億 DeepSeek尋求500億元融資

      汽車要聞

      MG 4X實車亮相 將于5月11日開啟盲訂

      態度原創

      旅游
      家居
      親子
      教育
      數碼

      旅游要聞

      社評:中國的“Country Walk”何以吸引西方年輕人

      家居要聞

      流動的尺度 打破家的形式主義

      親子要聞

      北京兒童配眼鏡指南:從看得清到管得住,守住孩子的視力第一條防線

      教育要聞

      家委會里“藏龍臥虎”:教育內卷新現象背后的隱憂

      數碼要聞

      華碩京東重磅新品日,華碩天選7系列游戲本開啟預約

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 人妻少妇精品中文字幕AV蜜桃 | 欧美顶级metart祼体全部自慰| 亚洲精品v欧美精品动漫精品 | 精品无码一区二区三区在线| 免费三A级毛片视频| 91视频首页| 日韩一区二区三| 亚洲精品久久一区二区无卡| aa片在线观看视频在线播放| 欧美成人一区二区三区在线观看 | 欧美成人精品三级在线观看| 国产成人av无码精品天堂| 5个黑人躁我一个视频| 麻豆乱码国产一区二区三区| 亚洲免费成年女性毛视频| 大香伊蕉日本一区二区| 久久精品亚洲日本波多野结衣| www.亚洲无码| 亚洲综合区小说区激情区噜噜 | 色九月亚洲综合网| 男男乱体育生yin高h肉汁视频| 九九国产精品无码免费视频| 亚洲综合网站色伊人| 亚洲mv国产mv在线mv综合天堂| 人人妻人人澡人人爽欧美二区| 午夜福利国产盗摄久久性| 国产亚洲一区二区av| 日韩欧美一中文字暮专区| 奇米777四色影视在线看| 毛片亚洲AV无码精品国产午夜| 无码人妻一区二区三区免费手机| 免费无码久久成人网站入口 | 久久天堂av综合色无码专区| yjizz视频最新网站在线| 一二三四社区在线中文视频| 日无码| 十八岁污网站在线观看| 在线一区二区三区av| 99热国产在线精品99| 国产麻豆精品av在线观看| 国产成人高清精品亚洲|