![]()
AI 在不斷演進,推理模型對 Token 的需求不斷增加,對 AI 基礎(chǔ)設(shè)施的每一層都提出了新的要求。如今,計算能力比以往任何時候都更需要實現(xiàn)高效擴展,以最大化 Token 產(chǎn)出,并提高模型創(chuàng)作者和用戶的工作效率。
現(xiàn)代 GPU 已在接近峰值容量下運行,每一代產(chǎn)品都在推動吞吐量的不斷提升,但系統(tǒng)性能越來越多地受限于智能體循環(huán)中由 CPU 負責(zé)的串行任務(wù),這是核心計算機科學(xué)原理“阿姆達爾定律”的典型體現(xiàn)。
這一趨勢在兩類工作負載中尤為明顯:用于訓(xùn)練模型掌握編程或工程等新專業(yè)技能的強化學(xué)習(xí)(RL),以及智能體操作,使 AI 智能體能夠使用網(wǎng)頁瀏覽器、數(shù)據(jù)庫、代碼解釋器和其他軟件等工具來完成現(xiàn)實環(huán)境或沙盒中的任務(wù)。
這兩類工作負載融合了兩種過去截然不同的 CPU 特性。單個環(huán)境需要強大的單線程性能,像工作站一樣快速執(zhí)行復(fù)雜的代碼。與此同時,現(xiàn)代 AI 系統(tǒng)會同時啟動數(shù)千個此類環(huán)境,從而產(chǎn)生典型的服務(wù)器基礎(chǔ)設(shè)施大規(guī)模吞吐量需求。
NVIDIA Vera CPU 專為現(xiàn)代 AI 工作負載而設(shè)計,其關(guān)鍵設(shè)計特性包括:
- 極致單核性能
單個任務(wù)的快速執(zhí)行至關(guān)重要,并且必須在大量并發(fā)用戶和智能體任務(wù)的恒定負載下維持性能。
- 每核心的高顯存和網(wǎng)絡(luò)帶寬
確保在負載下一致的服務(wù)等級協(xié)議(SLA),從而高效傳輸海量數(shù)據(jù),以執(zhí)行實時分析和上下文切換任務(wù)。
- 高效的機架級協(xié)同設(shè)計
AI 工廠必須快速部署和管理容量,以滿足智能體需求,同時最大化能效。
無論是將 Vera CPU 直接連接到加速器,還是在網(wǎng)絡(luò)末端的獨立 CPU 上執(zhí)行任務(wù),基于 Vera CPU 構(gòu)建的數(shù)據(jù)中心都能最大化 AI 基礎(chǔ)設(shè)施的投資價值。
本文將從以下幾個方面,詳細介紹 Vera CPU:
- 后訓(xùn)練的現(xiàn)實情況
NVIDIA Olympus 核心
NVIDIA 可擴展一致性結(jié)構(gòu)和內(nèi)存子系統(tǒng)
- AI 工廠全棧性能表現(xiàn)
- 基于機架的智能體運行環(huán)境
- Vera 平臺和配置
以上為摘要內(nèi)容,點擊鏈接閱讀完整內(nèi)容:NVIDIA Vera CPU 為 AI 工廠提供高性能、高帶寬和高效率 - NVIDIA 技術(shù)博客
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.