<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      生成率從8%到60%:快手智能測試用例生成系統的四階進化

      0
      分享至


      轉載來源 | 快手技術

      概 況

      在《采納率從 7.9% 到 54%:快手智能 Code Review 的三階進化》中,快手研發效能團隊重點分享了智能代碼審查系統如何通過質量過濾與知識沉淀,將 AI 能力嵌入研發交付鏈路,使其從個人輔助工具升級為團隊級的協作生產力。但要真正實現從“個人提效”到“組織效能”的閉環,僅優化代碼合并前的質量關口仍然不夠,AI 能力還需要進一步向研發流程的前后環節延展。

      在全面推進「AI 研發范式升級」的進程中,如何將個人 AI 工具的零散提效沉淀為組織級的交付能力,是當前效能升級的核心命題。在需求評審之后、測試執行之前,用例設計這一關鍵環節,正是影響交付質量與效率的另一瓶頸。圍繞這一問題,我們構建了智能用例生成系統,實現從手動編寫到審核校驗的模式轉變,這種轉變不僅釋放了測試人員的構思壓力,更讓 AI 升級為流程中穩定、可信的生產力環節。

      以往寫用例全靠人工硬磨,效率低且難保全。為此,快手研發效能團隊復盤了智能用例生成系統的演進路徑,總結了快手智能用例生成系統從「Prompt 工程探索」到「Multi-Agent 人機協作」,再到「知識增強策略」,最終走向「自檢測 & 自進化」的四階架構演進。

      針對生成質量不穩、業務理解淺、維護成本高這三大難題,我們通過「人機協作」兜底質量、「知識工程」對齊業務場景、「自檢測 & 自進化」降低人工維護負擔。這套思路直接將用例生成率從 8% 拉升至 60%+,累計生成測試用例逾 120 萬條;該系統已經成為全公司測試人員日常使用的標準化生產力工具,真正跑通了從個人 AI 提效到組織交付效能提升的閉環路徑。


      背 景

      在快手持續推進研發效能提升的過程中,我們對測試階段各環節的耗時進行了深入分析,測試用例設計階段(即測試用例編寫階段)在整個測試周期中占據了 13.69% 的時間成本,與用例執行、回歸測試并列為耗時最高的三大環節;這一數據揭示了傳統測試模式下的瓶頸:測試人員將大量精力投入在重復性的用例撰寫工作中,而非聚焦于更具價值的測試策略設計和缺陷挖掘。


      在用例設計提效方面,快手此前主要通過 KCase 平臺的用例編寫在線化能力進行優化。該方案實現了用例模板的規范化與標準化、多人協作編輯與版本管理、用例資產的結構化沉淀。

      然而,這種模式本質上仍依賴人工逐條編寫,效率提升存在明顯天花板。面對快手業務的高速迭代和海量的功能需求,測試團隊面臨以下挑戰:


      2023 年以來,以 GPT 系列為代表的大語言模型(LLM)在代碼理解、邏輯推理和文本生成方面實現了質的飛躍。快手質量工程團隊敏銳捕捉到這一技術拐點,從 2024 年正式開始啟動 AI 生成手工測試用例的探索項目,目標是將「人工編寫」升級為「AI 生成 + 人工審核」的全新模式,釋放測試人員的生產力。

      效 果

      快手智能用例生成系統從 V1.0 到 V4.0 的演進歷程,涵蓋從初期的 Prompt 工程探索(生成率 8%),到 Multi-Agent 人機協作模式(生成率 12%),再到知識增強策略(生成率 35%),最終通過自檢測與自進化實現突破性提升(生成率超 60%)。目前,該系統已在快手實現公司級 60% 以上的用例生成率,累計生成測試用例逾 120 萬條。


      從 8% 到 60%+ 的生成率躍升,體現了快手技術理念的持續演進:

      1. V1.0:驗證了“AI 能夠生成測試用例”的可行性

      2. V2.0:確立了“人機協作生成優于純自動化生成”的實踐路徑

      3. V3.0:揭示了“知識比算法更關鍵”的本質規律

      4. V4.0:實現了“AI 自我進化”的能力突破

      我們不再糾結于 AI 是否能夠替代人類,而是為“AI 如何賦能人類更高效工作”尋求解法。

      實踐 1:從 V1.0 到 V4.0 的技術架構演進實踐

      3.1 V1.0 版本:Prompt 工程探索階段

      3.1.1 初版設計思路

      • 核心假設:大模型已具備足夠的“測試常識”,只需通過精心設計的 Prompt 引導,即可生成高質量測試用例。

      • 技術方案:V1.0 單體生成流程


      3.1.2 核心技術實現

      • 技術架構


      • Prompt 結構設計

        • 初版 Prompt 架構


      • 存在的問題


      • 第一輪優化:Few-shot Learning

      • 問題分析:生成的用例質量仍參差不齊,主要原因是模型對“高質量用例”的標準理解不足。

      • 解決方案:引入來自業務真實場景的高質量測試用例作為樣本,提升模型輸出的一致性和專業性。

      • Few-shot Prompt 架構:


      • 關鍵發現:

        • 提供 3 個樣例為性價比最優選擇(邊際收益趨于平緩)

        • 樣例質量遠重于數量(1 個高質量樣例 > 5 個低質量樣例)

      • 實際生成效果對比:


      • 第二輪優化:場景化 Prompt 模板

      • 問題分析:不同類型的需求文檔(如 PRD、技術方案 等)需要匹配差異化的測試策略,通用 Prompt 難以覆蓋多樣化測試目標與表達要求。

      • 解決方案:構建多場景路由機制,依據輸入文檔的類型自動匹配最優的 Prompt 模板,實現精準化、專業化測試用例生成。



      3.1.3 效果測評

      為了驗證 Prompt 優化策略的有效性,我們針對多個關鍵動作開展了系統性測評。測評基于真實業務場景中的 PRD 和技術方案文檔,采用統一測試集進行對比評估。


      • 測評一:Few-shot Learning 效果驗證

        • 測試場景: 基于 PRD 生成功能測試用例(禮物貼紙玩法模塊)

        • 對比組:

        • 對照組: 無 Few-shot 的初始版本 Prompt

        • 實驗組:引入 3 個高質量樣例的 Few-shot Prompt

        • 測評結果:


      • 關鍵發現:


      • 測評二:場景化 Prompt 模板效果驗證

        • 測試場景: 基于不同類型文檔生成測試用例

        • 對比組:

        • 對照組:通用 Prompt(不區分文檔類型)

        • 實驗組: 場景化 Prompt(根據文檔類型自動匹配專用模板)

      場景 1:PRD 功能用例生成


      典型改進案例:


      場景 2:技術方案用例生成


      典型改進案例:


      3.1.4 核心問題

      盡管經過多輪優化,V1.0 仍面臨三大難以突破的瓶頸:

      • 問題 1:長文檔理解能力不足


      • 問題 2:缺乏業務背景知識


      • 問題 3:生成過程“黑盒”


      3.1.5 階段總結


      結論:需要從系統架構層面重新設計解決方案

      3.2 V2.0 版本:Multi-Agent 協作與人機交互階段

      3.2.1 設計理念轉變

      QA 編寫測試用例的真實思維過程并非“一步到位”,而是分階段逐步推進的,具體如下:


      1. QA 會先“拆解測試點(模塊)”再“細化為具體用例”

      2. 每個階段都存在 Review 環節,便于及時糾偏

      3. 若前期階段出現偏差,后續將越走越偏

      基于此,我們對于 V2.0 采用了新的設計思路,即模擬人類思維方式,引入 Multi-Agent 協作機制,并在關鍵節點支持人工介入。

      3.2.2 Multi-Agent 架構設計

      • 業務流程


      • 技術架構


      3.2.3 核心 Agent

      • 文檔解析 Agent

      這一 Agent 的職責是,對多種格式的輸入文檔進行標準化處理,提取其中的有效信息。

      • 文檔解析流程:


      • 實際案例:


      • 效果示例:


      • 模塊生成 Agent

      這一 Agent 的職責是從清洗后的文檔中提取測試點,生成結構化的測試模塊樹。


      • 用例生成 Agent

      這一 Agent 的職責是,基于用戶確認的測試模塊,生成詳細的測試用例。


      3.2.4 效果測評

      為驗證 Multi-Agent 架構與人機協作機制的有效性,我們針對 V2.0 版本的關鍵動作開展了基于真實業務場景的系統性測評,從多個維度對比 V1.0 與 V2.0 的表現差異。

      • 測評指標說明


      • 測評一:文檔解析 Agent 效果驗證

      • 測試場景: 處理不同長度和復雜度的 PRD 文檔

      • 對比組:

      • 對照組:V1.0 直接輸入完整文檔

      • 實驗組:V2.0 經文檔解析 Agent 預處理后輸入

      • 測評結果:


      • 關鍵發現:


      • 測評二:模塊生成 Agent 效果驗證

        • 測試場景: 基于預處理后的文檔生成測試模塊樹

        • 測評結果:


      • 關鍵發現:


      • 測評三:人機協作機制效果驗證

        • 測試場景: 對比 V1.0(黑盒模式)與 V2.0(分階段 Review)的用戶體驗與效率

        • 測評結果:


      • 關鍵發現:


      3.2.5 階段總結


      3.3 V3.0 版本:知識工程階段

      3.3.1 設計動機

      我們發現,V2.0 遺留著一個核心問題,即生成的用例缺乏“業務深度”。


      基于此,我們調整了 V3.0 的設計目標,即構建體系化的知識引入機制,使 AI 具備“懂業務”的能力。

      3.3.2 架構設計

      • 技術架構


      • 知識引入的四個維度


      3.3.3 RAG 檢索增強生成

      • RAG 整體架構


      召回結果的價值:

      1. 提供了詳細的步驟參考(如“URL 參數攜帶 need_amount”)

      2. 補充了業務規則(如“充值后自動返回”)

      3. 最重要:帶入了歷史缺陷經驗(并發重復扣款、支付超時重復訂單)

      • 基于 RAG 增強的用例生成


      3.3.4 效果測評

      為驗證體系化知識引入機制的有效性,我們針對 V3.0 的關鍵功能進行了基于真實業務場景的系統性測評,從多個維度對比 V2.0 與 V3.0 的表現差異。

      • 測評指標說明


      • 測評一:RAG 檢索增強生成效果驗證

        • 測試場景: 基于 PRD 生成測試用例,對比有無 RAG 增強的效果

        • 對比組:

        • 對照組:V2.0 僅基于 PRD + Few-shot 樣例生成用例

        • 實驗組:V3.0 基于 PRD + RAG 檢索的歷史用例和業務知識生成用例

        • 測評結果:


      • 關鍵發現:


      • 測評二:知識引入綜合效果驗證

        • 測試場景: 對比 V2.0 和 V3.0 在整體用例生成質量上的差異

        • 測評結果:


      典型改進案例:【直播禮物需求】


      3.3.5 階段總結


      3.4 V4.0 版本:自主性 & 自進化階段

      3.4.1 技術架構


      3.4.2 核心突破一:自主評審,Review-Critique 生成模式

      • 設計動機

      傳統的 AI 生成采用“單次直出”模式,類似于只會答題而不會檢查的學生。為提升生成質量,需賦予 AI “自我反思”能力,構建“生成 - 評審 - 優化”的自主評審閉環機制。

      關鍵設計理念:


      • Critic(判別):AI 扮演“評審員”角色,對生成結果進行系統性審查并給出專業指導建議

      • Generator(生成):根據評審意見自動調整與優化輸出內容

      • 離線異步:因多輪迭代耗時較長,采用后臺處理結合通知機制,保障效率與響應性

      • 完整技術流程

        • 整體架構


      階段一:模塊級評審 ->優化閉環(結構治理)

      自主評審 Agent —— 模塊審查維度詳解:


      輸出示例(未通過):


      階段二:用例級評審 ->優化閉環(細節打磨)

      自主評審 Agent

      • 用例審查策略:全局 Review + 逐條細節檢查

      • 用例審查維度:


      輸出示例(未通過):


      • 質量指標與效果

      對比傳統模式的提升:


      3.4.3 核心突破二:基于測試計劃的自進化場景規則模板

      • 問題背景:知識維護的困境

      在 V3.0 階段,為了讓 AI 理解業務,需人工編寫大量團隊業務模板(業務已維護 170+ 套業務定制的團隊模板),但該模式存在三大痛點:

      1. 維護成本高:每個新業務場景均需人工梳理規則

      2. 知識更新慢:歷史缺陷經驗無法及時同步至模板

      3. 專家依賴強:需資深 QA 才能總結高質量模板

      因此,我們的核心設計理念是讓系統從歷史數據中自動學習,實現隱性知識顯性化。

      • 技術方案:雙層模板體系

      我們構建了兩種層級的自進化模板:


      • 單一場景知識:精準規則提取

        • 定位:針對特定微場景(如“直播間送禮”、“評論輸入框”)的精確規則

        • 作用:作為 RAG 鏈路中的上下文參考;自動補齊測試點,降低遺漏率

        • 場景模版生成流程


      • RAG 召回流程


      • 通用場景模板:聚類與抽象

        • 定位:多個相似場景聚合而成的通用規范(如“消費端評論發布通用模板”)

        • 作用:支持手動召回的 RAG 鏈路;作為明確的生成規則,提升精度

        • 生成策略:


      • AI 聚合核心邏輯:

        • 提取共性:保留出現在兩個及以上場景中的規則

        • 去除個性:過濾僅屬于特定需求的特殊邏輯

        • 保留具體細節:避免籠統表述如“參考歷史模板”,必須明確列出具體的驗證點

      • 核心價值與成效

        • 降低知識維護成本


      • 提升生成質量


      3.4.4 階段總結


      實踐 2: 四層架構驅動的方法論實踐

      圖片

      AI 測試用例生成系統的成功,往往依賴于一套分層遞進的架構體系。基于此,我們在實踐中提煉出“四層架構”模型:場景分層 → 用戶運營 → 知識運營 → Agentic 架構,自上而下指導決策方向,自下向上提供能力支撐。

      4.1 四層架構全景


      4.2 場景分層 —— 選對戰場

      我們的核心原則是不追求“全覆蓋”,而是基于價值 x 復雜度矩陣進行精準突破。


      4.3 用戶運營 —— Badcase 驅動閉環

      Badcase 是最好的老師,通過系統化收集與分析用戶反饋,驅動持續迭代優化。

      • Badcase 分類與解決路徑


      • 閉環運營流程


      關鍵指標演進:


      4.4 四層協同:從 Badcase 到系統進化

      我們以一個 Badcase 如何驅動四層協同進化來示例。

      • 【觸發】用戶反饋:直播送禮場景缺少“并發送禮”測試點

      • 【第一層 - 場景分層】

        判定:直播送禮屬于“高價值”場景,值得深入優化

      • 【第二層 - 用戶運營】

        Badcase 分類:覆蓋類問題

        根因分析:知識庫缺少并發場景的歷史缺陷數據

      • 【第三層 - 知識運營】

        補充缺陷庫:新增“并發送禮重復扣款”歷史 Bug 記錄

        更新規則庫:提取“支付場景必須驗證并發”規則

        自動更新模板:直播送禮模板中新增并發測試點

      • 【第四層 - Agentic 架構】

        RAG 檢索:后續生成自動召回并發相關知識

        Critique Agent:自動檢查是否覆蓋并發場景

      • 【結果】同類 Badcase 不再出現,場景覆蓋率提升至 92%

      4.5 方法論總結


      核心啟示:

      • 自頂向下做決策:通過場景分層明確資源投入方向,確保戰略聚焦

      • 自底向上建能力:以 Agentic 架構支撐知識運營,推動能力持續沉淀與復用

      • Badcase 是進化燃料:每個問題都是優化契機,形成“反饋→改進→提升”的持續進化飛輪

      展 望

      經過從 V1.0 到 V4.0 的持續演進,快手智能測試用例生成系統已完成了從「實驗性工具」到「標準化生產力工具」的跨越。


      然而,我們也認識到,測試效率提升空間遠不止于「生成」環節,測試人員仍需投入大量時間在手工用例執行上,這是下一階段的核心突破方向。未來,我們將核心突破聚焦于「AI 智能執行用例」場景,構建從用例生成到用例執行的全鏈路智能化能力。

      具體包含如下三個方向:


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      海關總署:前4個月我國貨物貿易進出口總值增長14.9% 外貿延續良好增長態勢

      海關總署:前4個月我國貨物貿易進出口總值增長14.9% 外貿延續良好增長態勢

      財聯社
      2026-05-09 10:57:06
      急瘋了!國際足聯三降轉播費求央視,6200萬紅線絕不退讓

      急瘋了!國際足聯三降轉播費求央視,6200萬紅線絕不退讓

      黑鷹觀軍事
      2026-05-08 15:32:42
      演了 10 年的吳媽走了,陳翔六點半的沉默,有多諷刺?

      演了 10 年的吳媽走了,陳翔六點半的沉默,有多諷刺?

      娛貝勒
      2026-05-09 21:14:52
      明目張膽造假,中國電影還有救嗎?

      明目張膽造假,中國電影還有救嗎?

      閑人電影
      2026-05-08 18:31:17
      多項研究顯示:性生活頻率過低,男女容易早衰且患癌風險增高!

      多項研究顯示:性生活頻率過低,男女容易早衰且患癌風險增高!

      燈錦年
      2026-05-05 21:55:51
      “漢坦病毒”來勢洶洶,建議:每家備好6樣東西,關鍵時刻能救命

      “漢坦病毒”來勢洶洶,建議:每家備好6樣東西,關鍵時刻能救命

      岐黃傳人孫大夫
      2026-05-09 09:08:44
      隨著長春亞泰3-2逆轉,梅州客家0-2,中甲最新積分榜出爐

      隨著長春亞泰3-2逆轉,梅州客家0-2,中甲最新積分榜出爐

      側身凌空斬
      2026-05-09 21:32:03
      男子16歲時便出軌嫂子,婚后瞞著妻子繼續出軌,還與嫂子生下一子

      男子16歲時便出軌嫂子,婚后瞞著妻子繼續出軌,還與嫂子生下一子

      老貓觀點
      2026-05-07 07:12:10
      不拼最大只拼最狠:中國狂造054B,美軍開始坐不住了

      不拼最大只拼最狠:中國狂造054B,美軍開始坐不住了

      杰絲聊古今
      2026-05-09 15:28:20
      14歲神童手搓發動機被曝造假!漏洞百出吹上天,普通人拿什么比?

      14歲神童手搓發動機被曝造假!漏洞百出吹上天,普通人拿什么比?

      社會日日鮮
      2026-05-08 04:18:01
      吳宜澤世錦賽奪冠后首秀!4-5惜敗,輸球原因揭曉,獲希金斯致敬

      吳宜澤世錦賽奪冠后首秀!4-5惜敗,輸球原因揭曉,獲希金斯致敬

      球場沒跑道
      2026-05-09 17:52:41
      熱議成都勝河南:奪冠懸念最早破解的賽季,拜合拉木漲球了

      熱議成都勝河南:奪冠懸念最早破解的賽季,拜合拉木漲球了

      懂球帝
      2026-05-09 23:01:02
      殺人誅心!澤連斯基簽法令“允許”紅場閱兵,并附上精準GPS!

      殺人誅心!澤連斯基簽法令“允許”紅場閱兵,并附上精準GPS!

      老馬拉車莫少裝
      2026-05-09 08:02:47
      海參崴的街頭,誰在出賣我們的歷史尊嚴?

      海參崴的街頭,誰在出賣我們的歷史尊嚴?

      迷世書童H9527
      2026-05-07 14:55:09
      我在家里裝了廣告攔截器,卻發現6.5萬次查詢去了不該去的地方

      我在家里裝了廣告攔截器,卻發現6.5萬次查詢去了不該去的地方

      我是一個養蝦人
      2026-05-08 22:21:22
      全網瘋傳的“八段錦神話”破滅了,網友:太毒了……

      全網瘋傳的“八段錦神話”破滅了,網友:太毒了……

      人格志
      2026-05-09 20:17:27
      下周A股重要看點:中央三部委連發大利好!涉及2類股將迎放量大漲

      下周A股重要看點:中央三部委連發大利好!涉及2類股將迎放量大漲

      丁丁鯉史紀
      2026-05-09 20:14:07
      堅決反對穆里尼奧回歸!皇馬傳奇態度鮮明:皇馬應該請回阿隆索

      堅決反對穆里尼奧回歸!皇馬傳奇態度鮮明:皇馬應該請回阿隆索

      夜白侃球
      2026-05-09 10:16:15
      實在沒辦法了,伊朗疑似將大量原油倒入海中!

      實在沒辦法了,伊朗疑似將大量原油倒入海中!

      阿龍聊軍事
      2026-05-09 11:10:25
      真實事件!普京女婿被俄羅斯億萬富翁欺負,普京助理找上門

      真實事件!普京女婿被俄羅斯億萬富翁欺負,普京助理找上門

      馬爾科故事會
      2024-11-05 13:56:12
      2026-05-09 23:52:51
      InfoQ incentive-icons
      InfoQ
      有內容的技術社區媒體
      12350文章數 51880關注度
      往期回顧 全部

      科技要聞

      美國政府強力下場 蘋果英特爾達成代工協議

      頭條要聞

      演員文章面館大火后又開酒吧 多位明星到場母親也現身

      頭條要聞

      演員文章面館大火后又開酒吧 多位明星到場母親也現身

      體育要聞

      成立128年后,這支升班馬首奪頂級聯賽冠軍

      娛樂要聞

      50歲趙薇臉頰凹陷滄桑得認不出!

      財經要聞

      多地號召,公職人員帶頭繳納物業費

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態度原創

      游戲
      教育
      親子
      家居
      軍事航空

      《明末》被收購后國內首條動態:江湖又見!

      教育要聞

      @2026高三畢業生,高中畢業證正在印刷!附:檔案封裝、打印教程

      親子要聞

      告別每日一針!兒童長高治療迎來“周制劑”時代,全新專家共識在滬發布

      家居要聞

      菁英人居 全能豪宅

      軍事要聞

      美伊突然再次交火 伊朗外長:戰爭準備程度是1000%

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 秋霞在线观看秋| 亚洲综合久久国产一区二区 | 蜜桃网站视频在线观看| 久久亚洲2019中文字幕| 亚州无码人妻| 西西大胆午夜人体视频| 日韩精品一区二区在线视频 | 永久免费的AV在线电影网无码| 国产精品欧美久久久久久日木一道| 真实国产乱子伦精品一区二区三区| 国色天香国产精品| 色欲综合一区二区三区| 免费无码又爽又刺激动态图| 亚洲国产精品久久艾草| 欧美熟妇喷潮xxxx| 人妻精品久久久久中文字幕69| 国产特级毛片aaaaaaa高清| 鲁丝片一区二区三区免费| 99白浆| 成人精品日本亚洲77777| 亚洲午夜成人av电影| 亚洲国产成人久久综合碰| 国产天堂亚洲国产碰碰| 亚洲GV天堂无码男同在线观看| 国产亚洲精久久久久久久91| 91黄| 欧美老少配性行为| 国产亚洲精品2021自在线| 国产尤物精品自在拍视频首页| 男女羞羞| 成人午夜天| 色噜噜噜亚洲男人的天堂| 强被迫伦姧高潮无码bd电影| 九九综合色| 国产精品原创av片国产日韩| 人妻熟妇乱又伦精品HD| 日本三级香港三级三级人!妇久| 视频一区二区不中文字幕| 日本国产一区| 中文人妻不卡| 久久99精品视香蕉蕉|