網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

應(yīng)對(duì)異構(gòu)芯片部署下的AI挑戰(zhàn)F5助企業(yè)推理服務(wù)更快、更省、更承壓

2026-04-29 12:01:38　來(lái)源: 過(guò)往看客

江西舉報(bào)

分享至

隨著人工智能（AI）大模型及智能體應(yīng)用在企業(yè)端的全面落地，產(chǎn)業(yè)競(jìng)爭(zhēng)的核心維度正發(fā)生深刻演變。據(jù)統(tǒng)計(jì)，截至2026年3月，中國(guó)日均詞元（Token）調(diào)用量已超過(guò)140萬(wàn)億，相比2024年初的1000億增長(zhǎng)超過(guò)千倍。這意味著AI已經(jīng)從早期的模型展示、能力驗(yàn)證，走向以實(shí)際調(diào)用、成本控制與產(chǎn)業(yè)落地為導(dǎo)向的新階段。

但與此同時(shí)，由于中國(guó)企業(yè)普遍采用異構(gòu)芯片混合部署，在廣泛開(kāi)展推理服務(wù)應(yīng)用過(guò)程中的資源調(diào)度問(wèn)題愈加凸顯，甚至成為AI應(yīng)用規(guī)模化落地的關(guān)鍵挑戰(zhàn)。作為全球領(lǐng)先的應(yīng)用交付和API安全解決方案提供商，F(xiàn)5中國(guó)率先推出本地化的基于詞元（Token）的負(fù)載均衡解決方案（ Token Based Load Balancing，以下簡(jiǎn)稱“TBLB方案”），用于AI智能推理網(wǎng)關(guān)，幫助中國(guó)企業(yè)在算力資源高度復(fù)雜、異構(gòu)基礎(chǔ)設(shè)施共存以及高并發(fā)需求常態(tài)化的情況下，確保推理服務(wù)更快、更省、更承壓，從而在AI時(shí)代創(chuàng)造更大的業(yè)務(wù)價(jià)值。

破局大模型落地挑戰(zhàn):基于詞元（Token）的自適應(yīng)調(diào)度

隨著DeepSeek、Qwen等大模型全面進(jìn)入企業(yè)生產(chǎn)環(huán)境，算力過(guò)載、服務(wù)中斷以及高并發(fā)下的延遲波動(dòng)，正逐漸成為制約AI應(yīng)用規(guī)模化落地的關(guān)鍵因素。

特別是在異構(gòu)芯片混合部署環(huán)境下，算力資源的使用效率與調(diào)度能力成為關(guān)鍵變量。一方面，算力、模型與推理框架之間的適配程度不一，使部分資源難以在實(shí)際業(yè)務(wù)中充分釋放性能；另一方面，不同算力之間存在結(jié)構(gòu)性性能差距，增加了統(tǒng)一調(diào)度與資源匹配的復(fù)雜度；同時(shí)，傳統(tǒng)基于請(qǐng)求分發(fā)的負(fù)載均衡方式難以反映底層算力的實(shí)時(shí)狀態(tài)，容易造成資源分配不均，進(jìn)一步放大性能波動(dòng)與資源浪費(fèi)。在多重因素疊加下，企業(yè)面臨的核心問(wèn)題，已從“算力是否充足”轉(zhuǎn)向“算力能否被高效、穩(wěn)定地調(diào)度與使用”。

F5 中國(guó)首推的TBLB方案就是為了破解這一難題，推動(dòng)AI時(shí)代算力交付方式的升級(jí)。不同于傳統(tǒng)負(fù)載均衡（SLB）以“請(qǐng)求數(shù)”為核心的分發(fā)邏輯，TBLB方案以詞元（Token）數(shù)量及其對(duì)應(yīng)的計(jì)算成本為基礎(chǔ)，對(duì)推理請(qǐng)求進(jìn)行精細(xì)化調(diào)度，將不同長(zhǎng)度、不同復(fù)雜度的任務(wù)分配至與之匹配的算力節(jié)點(diǎn)，從而有效避免資源空轉(zhuǎn)或局部過(guò)載。

在此基礎(chǔ)上，該方案引入基于詞元（Token）感知與GPU 動(dòng)態(tài)壓力的自適應(yīng)調(diào)度機(jī)制，能夠在運(yùn)行過(guò)程中綜合評(píng)估推理任務(wù)特征與算力狀態(tài)，包括詞元（Token）規(guī)模、實(shí)時(shí)負(fù)載與利用率、隊(duì)列長(zhǎng)度、KV Cache使用情況以及實(shí)例健康狀態(tài)等關(guān)鍵指標(biāo)，并據(jù)此動(dòng)態(tài)調(diào)整調(diào)度策略。通過(guò)這一機(jī)制，TBLB方案將復(fù)雜多變的推理負(fù)載轉(zhuǎn)化為可感知、可調(diào)度的算力資源，為企業(yè)AI業(yè)務(wù)構(gòu)建起更加穩(wěn)定、高效的推理服務(wù)基礎(chǔ)。

TBLB方案帶來(lái)三大價(jià)值：更快、更省、更承壓

依托以詞元（Token）為基礎(chǔ)的調(diào)度能力，F(xiàn)5中國(guó)首推的TBLB方案將原本復(fù)雜多變的推理負(fù)載轉(zhuǎn)化為更加可控的算力使用方式。借助這一能力，企業(yè)可以同時(shí)實(shí)現(xiàn)響應(yīng)效率提升、資源利用優(yōu)化以及高峰期業(yè)務(wù)保障，使“更快、更省、更承壓”從單點(diǎn)優(yōu)化走向整體能力提升。

更快：以推理狀態(tài)感知驅(qū)動(dòng)低延時(shí)體驗(yàn)

AI應(yīng)用的用戶體驗(yàn)，主要取決于首詞元（Token）響應(yīng)時(shí)間（TTFT）、單詞元（Token）生成時(shí)間（TPOT）以及端到端時(shí)延（E2EL）。傳統(tǒng)負(fù)載均衡無(wú)法感知推理過(guò)程中的真實(shí)運(yùn)行狀態(tài)，而TBLB方案則通過(guò)對(duì)GPU負(fù)載、詞元（Token）隊(duì)列等關(guān)鍵指標(biāo)的實(shí)時(shí)監(jiān)測(cè)，避免請(qǐng)求被調(diào)度至“看似空閑、實(shí)際擁塞”的節(jié)點(diǎn)，從而有效降低等待時(shí)間。

在實(shí)際測(cè)試中，TBLB方案在多個(gè)行業(yè)場(chǎng)景中均表現(xiàn)出顯著效果：在新能源汽車場(chǎng)景中，TTFT降低約30%；在金融異構(gòu)算力環(huán)境中，TTFT降低超過(guò)40%，同時(shí)推理吞吐能力同步提升。這表明，延時(shí)優(yōu)化不再依賴單點(diǎn)性能提升，而是來(lái)自整體調(diào)度效率的系統(tǒng)性優(yōu)化。

更省：釋放既有算力潛力，實(shí)現(xiàn)零成本擴(kuò)容

在AI推理場(chǎng)景中，算力成本高昂已成為企業(yè)普遍面臨的現(xiàn)實(shí)問(wèn)題。但在許多情況下，瓶頸并非絕對(duì)算力不足，而是算力資源未被有效利用。傳統(tǒng)調(diào)度策略容易導(dǎo)致資源分布不均：部分節(jié)點(diǎn)負(fù)載過(guò)高，部分節(jié)點(diǎn)利用率不足，整體效率難以提升。TBLB方案通過(guò)對(duì)算力池的動(dòng)態(tài)感知與精準(zhǔn)分配，使每一個(gè)請(qǐng)求都能匹配到當(dāng)前最合適的執(zhí)行節(jié)點(diǎn)，從而顯著提升GPU利用率。

在運(yùn)營(yíng)商測(cè)試場(chǎng)景中，在不增加任何GPU投入的情況下，系統(tǒng)并發(fā)能力從400 提升至 700，時(shí)延從20秒降低至180毫秒。這一結(jié)果表明，TBLB方案的價(jià)值不僅在于降低成本，更在于將原本被浪費(fèi)的算力，轉(zhuǎn)化為可釋放的業(yè)務(wù)能力。

更承壓：高峰期優(yōu)先保障關(guān)鍵業(yè)務(wù)

在企業(yè)實(shí)際環(huán)境中，多類AI應(yīng)用通常共享同一算力資源池。系統(tǒng)在高負(fù)載狀態(tài)下的表現(xiàn)，決定了其是否具備生產(chǎn)級(jí)能力。如果缺乏有效的優(yōu)先級(jí)調(diào)度機(jī)制，高峰期往往會(huì)出現(xiàn)“整體變慢”的情況，關(guān)鍵業(yè)務(wù)難以得到保障。

TBLB方案支持基于API Key、應(yīng)用識(shí)別及策略規(guī)則的優(yōu)先級(jí)控制機(jī)制，可在資源緊張時(shí)實(shí)現(xiàn)優(yōu)先調(diào)度高優(yōu)先級(jí)請(qǐng)求、限制或延遲低優(yōu)先級(jí)任務(wù)，并在資源恢復(fù)后動(dòng)態(tài)恢復(fù)流量。這一能力，使系統(tǒng)在高峰場(chǎng)景下不再被動(dòng)承壓，而是具備可控的資源分配能力。

AI競(jìng)爭(zhēng)的下半場(chǎng)：從模型能力走向調(diào)度能力

隨著AI從技術(shù)探索階段走向規(guī)模化應(yīng)用，企業(yè)之間的競(jìng)爭(zhēng)焦點(diǎn)也在發(fā)生轉(zhuǎn)移。模型能力依然重要，但決定AI能否真正進(jìn)入生產(chǎn)系統(tǒng)并穩(wěn)定運(yùn)行的，是推理基礎(chǔ)設(shè)施的整體能力。響應(yīng)是否足夠快速，資源是否得到高效利用，系統(tǒng)在高峰時(shí)是否仍然可控，這些因素正在成為新的關(guān)鍵指標(biāo)。

在這一背景下，調(diào)度能力正成為新的關(guān)鍵變量。F5中國(guó)首推的TBLB方案并不只是一項(xiàng)產(chǎn)品創(chuàng)新，更代表了一種面向 AI 推理時(shí)代的基礎(chǔ)設(shè)施思路。以詞元（Token）為單位理解負(fù)載，以算力調(diào)度定義性能，正在成為新的技術(shù)共識(shí)。當(dāng)詞元（Token）逐漸取代傳統(tǒng)流量成為核心計(jì)量單位，企業(yè)真正需要掌控的，將不只是模型能力本身，而是如何高效、穩(wěn)定地調(diào)度每一次計(jì)算。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.