上個(gè)月看LLM賬單時(shí),最肉疼的不是那些復(fù)雜問題。是"你好""謝謝""查余額"——這些簡單查詢被你用旗艦?zāi)P吞幚恚灰蛘麄€(gè)產(chǎn)品只接了一個(gè)模型ID。每個(gè)簡單請求都走最貴的通道,賬單自然難看。
路由能解決這個(gè)問題。不是負(fù)載均衡,不是故障轉(zhuǎn)移,不是功能開關(guān)。是像CDN那樣路由:每個(gè)請求發(fā)給能正確回答它的最便宜模型,其余的走強(qiáng)模型。在B2B客服場景里,短問題占很大比例,把底部30%流量(按復(fù)雜度)發(fā)給小模型,能在不降低評估質(zhì)量的前提下砍掉約三分之一成本。這里的數(shù)字只是示意起點(diǎn),你需要根據(jù)自己的評估調(diào)整。關(guān)鍵是:怎么判斷這30%是哪些。
![]()
四種路由模式反復(fù)出現(xiàn)。它們的搭建成本、出錯(cuò)時(shí)的爆炸半徑、能分流的上限各不相同。選錯(cuò)要么省不下錢,要么質(zhì)量回退一周后才被發(fā)現(xiàn)。
一、長度截?cái)啵阂恍写a
最便宜的方案。一個(gè)條件判斷。前提假設(shè):30個(gè)token的問題很少是難的,6000個(gè)token帶三個(gè)PDF附件的幾乎肯定是難的。這個(gè)假設(shè)大體成立,就夠了。
400字符大概是一段話。低于這個(gè)數(shù),請求可能是問候、確認(rèn)、單行查詢。高于這個(gè)數(shù),就進(jìn)入強(qiáng)模型值得加價(jià)的領(lǐng)域。
為什么對某些工作負(fù)載有效:多數(shù)B2B聊天產(chǎn)品的輸入長度分布是重尾的。眾數(shù)在短的那頭。如果分布的頭部夠胖——多數(shù)工作負(fù)載確實(shí)如此——僅靠長度截?cái)嗑湍馨颜鎸?shí)流量移到便宜通道,無需改動(dòng)其他。
為什么失效:短不等于簡單。"用Rust反轉(zhuǎn)二叉樹"又短又難。"把一萬字文檔翻譯成要點(diǎn)"又長又簡單。長度只是難度的代理。代理成立的工作負(fù)載,一行代碼就能上線。不成立的,得往列表下方看。
二、級聯(lián)路由:需要評估、監(jiān)控、可信的信心信號
下一級。訓(xùn)練(更常見的是手寫)一個(gè)微型分類器,在請求觸碰LLM之前給它打標(biāo)簽。標(biāo)簽是"簡單/復(fù)雜"或具體模型名。分類器可以基于關(guān)鍵詞、正則、輕量嵌入,或一個(gè)微調(diào)的BERT級模型。
級聯(lián)的核心是信心閾值。分類器輸出概率,概率高于閾值走便宜模型,低于閾值走強(qiáng)模型。閾值調(diào)得太激進(jìn),簡單問題漏給強(qiáng)模型,浪費(fèi)錢;調(diào)得太保守,復(fù)雜問題發(fā)給弱模型,用戶遭殃。
監(jiān)控是關(guān)鍵。需要記錄每個(gè)路由決策、實(shí)際調(diào)用的模型、用戶后續(xù)行為(是否重問、是否投訴)。沒有反饋回路,分類器漂移了你都不知道。
三、模型級聯(lián):用強(qiáng)模型驗(yàn)證弱模型
更重的方案。先走便宜模型,再用強(qiáng)模型檢查答案。如果檢查通過,交付;不通過,用強(qiáng)模型重跑。
成本結(jié)構(gòu)變了:簡單問題付兩次(便宜+檢查),復(fù)雜問題付兩次(便宜+強(qiáng)模型重跑)。只有當(dāng)便宜模型正確率夠高、檢查成本夠低時(shí),才劃算。檢查可以用規(guī)則、輕量模型,或強(qiáng)模型的低采樣版本。
延遲是明顯代價(jià)。簡單問題本來毫秒級,現(xiàn)在可能翻倍。對延遲敏感的場景需要權(quán)衡。
四、在線學(xué)習(xí)路由:動(dòng)態(tài)適應(yīng)
最復(fù)雜的方案。不預(yù)設(shè)規(guī)則,讓系統(tǒng)自己學(xué)。記錄每個(gè)請求的特征、路由決策、結(jié)果質(zhì)量,持續(xù)優(yōu)化路由策略。
需要基礎(chǔ)設(shè)施:特征存儲、模型服務(wù)、A/B測試框架、延遲和質(zhì)量的雙重評估。團(tuán)隊(duì)得有ML工程能力,不是調(diào)prompt的級別。
天花板最高。工作負(fù)載變化時(shí),策略自動(dòng)適應(yīng)。季節(jié)性波動(dòng)、新產(chǎn)品上線、用戶行為遷移,都能捕捉。
工作量越大,越值得往下走這個(gè)列表。幾百個(gè)請求/天的場景,長度截?cái)嗫赡芫蛪蛄恕0偃f級/天的場景,在線學(xué)習(xí)的投入能被攤薄。
路由不是一次性設(shè)置。評估集要持續(xù)更新,覆蓋新出現(xiàn)的查詢類型。便宜模型升級了,路由策略要重調(diào)。強(qiáng)模型降價(jià)了,整個(gè)計(jì)算邏輯可能翻轉(zhuǎn)。
省錢的本質(zhì)是把合適的請求發(fā)給合適的模型。不是追求最便宜的方案,而是追求給定質(zhì)量目標(biāo)下的成本最優(yōu)。質(zhì)量目標(biāo)不能妥協(xié)時(shí),路由幫你守住底線;質(zhì)量目標(biāo)有緩沖時(shí),路由幫你挖掘空間。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.