網易首頁 > 網易號 > 正文申請入駐

把超算裝進背包：ThinkStation PGX重新定義AI開發者的生產力邊界

2026-04-29 18:23:07　來源: CSDN

北京舉報

分享至

隨著AI浪潮的襲來，筆者本人以及團隊都及時的調整了業務方向，轉型為一名AI開發者和AI產品開發團隊，常常需要微調大模型注入業務場景依賴的私域知識，然后再把大模型部署上線進行推理，以支撐業務智能體或智能問答產品的邏輯流程。

相信有相同轉型經歷的朋友們都會感同身受，轉型之路必然是伴隨著陣痛的，好在對技術的熱情以及對職業發展的理性分析促使我們克服各方面的困難，包括：大模型知識的學習和積累、AI產品的需求定義和開發交付，以及最困難的是GPU資源的協調與實驗室建設。

為什么說獲取GPU資源非常困難呢？首先，沒有卡就沒有實踐，沒有卡就開展不了研究，更不用說開展產品原型的設計工作了。然而事實上，由于GPU價格高昂，公司只會分配一個公共GPU服務器給多個團隊輪流使用。這樣的情況下存在2個關鍵問題：

1）GPU服務器要申請時段輪流使用，無法第一時間驗證新的想法和代碼實現，導致產品迭代效率低下；

2）GPU服務器的軟件環境經常被改變了配置和版本，每次使用前還得浪費時間先恢復配置，實際用于生產的時間并不多，還容易引入環境變化導致的Bug等問題。

可見，就像以前傳統應用開發需要CPU開發機一樣，AI時代的AI開發者也需要自己的GPU開發機，這是可以持續穩定且高效產出工作成果的前提。那么，采購個人電腦的消費級GPU行不行呢？其實不大可行，因為消費級

GPU并不是為大模型而設計的，只有幾十GB顯存很難流暢的運行一個大模型及其開發框架。

經過筆者長時間的實踐后證明公用的GPU服務器和個人的消費級GPU卡都難以滿足筆者個人日常進行AI開發工作的算力需求，直到我發現了聯想ThinkStationPGX——聯想和NVIDIA聯合推出的AIPC（桌面上的AI超級計算機）產品，它是一款開發者個人能獨占的且能夠穩定運行200B~400B參數量大模型的AI開發機。

聯想ThinkStationPGX——個人AI算力基礎設施

聯想ThinkStationPGX的定位是GPU工作站，處于GPU服務器和GPU個人電腦之間，它面向AI開發者提供一個在本地進行大模型開發和測試的平臺。可以號稱是“全球迄今最小的AI超算”。

聯想ThinkStationPGX產品的發布標志著AI算力正從大型機構向個人開發者或小型團隊滲透。隨著產品生態的逐漸成熟，相信越來越多的AI開發者都可以人手一臺趁手的開發機，可以在本地直接開展AI模型開發、調試與部署工作。從此我不必再申請GPU服務器的時間，不必再爭搶資源。如果想要更改環境的軟件配置以滿足各種需求，

它就在那里，我隨時可以動手。

PGX除了讓AI開發者可以“隨心所欲”之外，更重要的是讓我們的研究和產出可以持續演進，比方說業務智能體團隊要求我們通過微調的方式注入特定的私域知識數據集，此時我們立即就可以選擇合適的模型分支在本地進行微調訓練，然后部署推理驗證效果。如果效果符合預期，我們就會部署上線。如果上線后出現了問題，我們也可以立即在本地進行問題的復現和排查。

當我們在AI開發機上開發的模型，無需修改代碼即可無縫遷移至生產環境，這是一種符合CI/CD思想的產品迭代方式。換句話說，當大模型可以在個人開發機上完成微調、推理與迭代，那么開發機的角色也隨之發生改變——它不再是終端，而是個人AI基礎設施，作為桌面端與云端之間的橋梁，它與生產環境AI基礎設施具有可移植性。

顯然，PGX的核心價值在于提供了本地化的大模型運行環境，便于進行模型原型設計、微調與測試。對于單兵或小團隊作戰的開發者是革命性的生產力提升。

在售后服務上，聯想作為國內TOP1的專業工作站品牌則有很大的優勢。不僅為用戶提供了ThinkStationPGX專享售后服務，可以支持長達三年的上門服務、保修和技術支持，這對于注重服務喜歡省事省力的用戶非常有吸引力。此外還可以提供三年一次的硬盤恢復、專享NV技術咨詢等PRC增值服務。

雖然說AI開發機較GPU服務器的價格已經非常親民，但仍屬于高價值消費品，所以還是建議要找一個國內售后服務實力較好的品牌。對此，聯想在全國擁有超過1萬名認證工程師，2300多個專業服務站，100%覆蓋1~6線城市，保證7x24小時在線支持，是非常值得信賴的。

硬件參數

在硬件層面，PGX是一款基于Grace-Blackwell芯片架構的桌面級AI超級計算機，其核心是一顆NVIDIAGB10 GraceBlackwellSoC芯片，將GraceCPU和BlackwellGPU融合于一體。如下圖所示，除了GB10之外，還配備了128GB統一內存、ConnectX-7網卡、4TBSSD存儲等服務器級硬件模塊。

下圖是一張硬件參數概覽表，接下來我們將逐一的分析每個硬件參數，以此來理解“ThinkStationPGX專為AI開發者設計的桌面級AI超級計算機”的設計理念。

BlackwellGPU

GB10SoC芯片上的GPU模組采用的是Blackwell架構。如下圖，從芯片原件排布就能看出左邊是GPU，采用臺積電的3nm工藝技術集成了48個SM、約6144個CUDAcore，以及5代的Tensorcore（張量核心）和4代的RTcore（光追核心）。

GB10的顯著特點是支持FP4/FP6/FP8低精度計算，這是專為AI開發機應用場景而設計的。特別是FP4精度，基于成熟的NVFP4大模型量化技術，采用FP4精度再結合稀疏性技術可以在一臺ThinkStationPGX上提供驚人的1PFLOP/s（1千萬億次每秒）AI算力峰值。

這意味著采用FP4精度來處理大模型推理時，ThinkStationPGX可以顯著提高了整體吞吐量，效率較FP8和FP16成幾倍的提升。顯然這是為了讓AI開發機能夠盡可能的更快微調訓練和更大吞吐推理而設計的。

Grace ARM CPU

GB10的CPU模塊采用了精簡指令集的ARM10+10架構。

其中，ARMv9.2架構在保證高性能的同時，兼具低功耗和小型化優勢。這使得ThinkStationPGX能夠使用標準的家用插座供電，無需額外的專用充電設備，使其能夠放置于桌面上使用。

另外，10+10共計20個core，包括10個Cortex-X925core（高性能核）負責高負載的通用計算任務；10個Cortex-A725core（高能效核）負責處理后臺進程和I/O調度。10+10組合是一種專門為了優化大模型訓練數據加載、數據預處理和流程編排的設計，能夠加速從數據清洗到模型調整的全流程。

128GB統一系統內存

ThinkStationPGX另一個專為AI開發機而設計的就是128GB的統一系統內存（UMA）技術，使得CPU和GPU能夠在保證訪存尋址一致性的前提下共享128GBLPDDR5X內存，而不再是分開為各自獨立的主存和顯存。

128GBUMA從根本上解決了消費級GPU只有24GB/48GB顯存容量受限的關鍵痛點。這意味著訓練和推理數據無需在CPU主存和GPU顯存之間拷貝，降低了延遲。處理大模型時，也避免了傳統GPU因為顯存不足反復交換主存的開銷，提高了效率。

另外，結合FP4精度可以將一個更大的模型塞入到一臺ThinkStationPGX中。例如，在扣除CPU的操作系統占用空間后，128GB中的100GB能夠提供給GPU使用。在使用FP4精度量化模型后，原本需要200GB顯存的200B大模型，現在只需100GB左右即可部署，使得在桌面端部署和運行超大規模模型成為了可能。

容量之外的帶寬層面，128GBUMA和CPU/GPU之間的訪存總線寬256bit，帶寬約273GB/s。并且，如下圖所示，GB10的CPU和GPU模塊之間采用了最先進的NVLink-C2C互聯技術，CPU和GPU之間的數據傳輸不再需要經過PCIe，而是Chip-2-Chip直連，總線帶寬最高可達141GB，是PCIe5.0的5倍。NVLink-C2C技術突破了傳統PCIe的瓶頸，帶來更快的協同運算性能。這也是GBXX架構被稱為SuperChip的原因。

綜上，GB10SuperChip、128GBUMA、FP4精度這3者之間的組合，使得專為NVIDIANVFP4優化過的vLLM等AI框架會根據實際負載動態地分配UMA內存資源，讀寫模型參數、KVCache等數據，而且過程中的中間激活值也不再需要在CPU主存與GPU顯存之間反復搬運，不僅降低了內存拷貝帶來的時延，也顯著簡化了大模型部署與調優的復雜度。這意味著可以在單機環境中承載更大的模型規模——最終實現了一臺ThinkStationPGX最大可以承載200B規模的大模型進行推理，或對70B規模的大模型進行微調。

通常情況下，要實現這一目標，我們往往需要在GPU服務器上輪流協調2~4張卡來實現。而有了ThinkStation PGX后我們就可以隨時隨地的開展工作了。

值得一提的是，128GBUMA對MoE（混合專家）模型的適用性很強，例如：Qwen3-235B-A22B等MoE模型，雖然其總參數龐大，但實際上單次激活參數較少。這一特性與PGX的大內存優勢高度匹配。無需復雜的顯存優化操作，即可實現此類模型的穩定運行，拓展了硬件的應用場景。

另外，實際上273GB/s內存帶寬是偏低的，這是進行大規模推理時的主要性能瓶頸。但PGX的128GB大內存確實為部署超大MoE模型提供了很好的支撐。可見PGX的價值在于容量而非速度，其性能雖然受限于內存帶寬，但綜合效果也遠超消費級GPU個人電腦方案。

高性能的存算分離網絡連接

ThinkStationPGX在一臺小小的設備上也實現了GPU服務器級別的高性能存算分離網絡連接。包括：

1個10GbE的RJ-45萬兆以太網接口：作為管理網絡和存儲網絡，用于加載大模型的權重數據以及存儲訓練過程中的Checkpoint數據。

1張200Gbps的ConnectX-7智能網卡：雙QSFP接口，作為RDMA高性能計算網絡，用于連接2臺ThinkStationPGX組成雙機集群后進行NCCL集合通信交換分布式訓練或推理過程中的梯度數據。

通過CX7組成雙機集群后，可以實現256GB的UMA擴容，這種擴展能力為超大規模模型的本地部署提供了顯存容量的基礎，可以部署如LLama3.1 405B和Qwen3 235B此等量級的大模型推理而無需擔心內存溢出。

更進一步的，通過MicroickCRS812DDQ交換機，可以將進一步擴展PGX集群至6個或更多的系統。

PC化設計

前文中我們著重介紹了ThinkStationPGX在“GPU服務器化”方面的能力，接下來我們轉而介紹ThinkStationPGX在“PC化”方面的設計。

首先是尺寸，ThinkStationPGX是一個只有巴掌大小的金屬殼盒子，體積為150×150×50.5mm，重量僅1.2kg。整機采用緊湊式設計，金屬外殼兼具質感與耐用性，放置于辦公室桌面上的體積非常小。充分體現了NVIDIA旗艦級硬件的工業設計水準，第一次拿到手的時候不禁為其精湛的工藝感到不可思議。

其次是功耗，ThinkStationPGX滿載功耗理論上只有240W左右，其中GB10SoC芯片本身TDP約140W，其余的100W留給網卡、SSD等組件。所以標配了240W外置電源適配器供電，適用于任何辦公桌上的電源插槽，無需額外的供電設備。

然后是散熱，ThinkStationPGX的散熱系統非常講究，采用了靜音散熱設計，運行過程中風扇噪音控制很好，空閑時約13dB，滿載時約35dB。非常安靜，適用于辦公環境。

再來是各類外設的輸入輸出接口，ThinkStationPGX配備了4個USBType-C，其中一個用于供電輸入。還配備了1個HDMI2.1a顯示器接口，支持多聲道音頻輸出和最高8K的顯示輸出。無線方面，ThinkStationPGX集成Wi-Fi7和BT5.3藍牙模塊，方便無線聯網和外設連接，很好的覆蓋了無線辦公的使用場景，而無需配備特殊的外設接口轉換器。

可見，以上都是完全標準的“PC化”設計，使我能夠經常背著ThinkStationPGX上下班。在實際使用中，我只需要插上電源和視頻轉接器就可以繼續我在辦公室或家里的工作進展。

最后不得不提的是ThinkStationPGX采用了1TB或4TBNVMeM.2SSD存儲，一方面避免了模型訓練中的I/O瓶頸，另一方面還支持自加密（Self-Encrypting）功能，為大模型權重數據和代碼資產的安全提供了全面的保護。這也使得我相對放心的帶著ThinkStationPGX出去參加交流和學習等活動。

軟件堆棧

前文中我們從硬件參數設計的層面逐一分析了為什么將PGX稱之為“專為AI開發者設計的桌面級AI超級計算機”，接下來我想從軟件堆棧設計的層面來說明為什么PGX不僅僅是AI開發機，而是一個個人級的AI基礎設施。

端云協同一致性的軟件環境

AI開發機和個人級AI基礎設施的核心區別在于其是否真正融入到了生產環境的CI/CD工作流程中，這取決于個人環境和生產環境是否具有一致性的軟件堆棧，使得代碼和模型參數是否可以無縫的在個人環境和生產環境流轉起來。

ThinkStationPGX在軟件方面盡量做到了開箱即用，初次配置只需聯網更新并簡單設置用戶信息，即可得到一個完整的NVIDIAAI開發環境。后續使用中，通過NVIDIA提供的Dashboard工具等，即可以方便地維護系統狀態并獲取最新優化。

PGX已經預先安裝了和GPU服務器一致的NVIDIAAI軟件棧，包括經過優化的GPU驅動、CUDA庫以及NVIDIA提供的各種AI工具和框架支持等等。如下圖所示，開發者可直接訪問NVIDIANIM、NVIDIABlueprint和AI Workbench平臺，可以拉取NVIDIA提供的容器鏡像，其中包含經過測試的PyTorch/TensorFlow+CUDA運行環境，在PGX上直接運行。

并且也可以在PGX上立即使用PyTorch、TensorFlow、TensorRT-LLM等主流框架和JupyterNotebook、Ollama等主流開發工具。開發者在PGX上開發調試的代碼和容器，可無縫移植到企業級GPU服務器或NGC（NVIDIAGPUCloud）云服務上運行。

PGX實際上就是生產環境CI/CD流程中的一個開發環境，在本地重現了生產級GPU服務器的架構和軟硬件環境，讓開發者“所見即所得”地進行開發和調試。在日常工作中，我們會先用單機PGX驗證，然后小規模集群進一步測試，最后再上線到生產環境GPU服務器集群中。

桌面操作系統

首先是操作系統。區別于純粹指令行的GPU服務器，PGXOS是基于Ubuntu24.04LTS定制發行的桌面操作系統。

因為對于模型可視化、模型性能優化、圖形圖像開發等工作的開發者而言，經常需要使用到NsightSystems等GUI工具對GPU程序進行調試，只有指令行顯然無法滿足所有工作的實際需求。所以PGXOS桌面操作系統為了能夠讓開發者在一臺電腦上完成所有工作而設計的。

此外，為了讓習慣在macOS或Windows操作系統上工作的開發者也能獲得較好的使用體驗，PGX也預先安裝并啟用了xRDP圖形遠程桌面服務。可建立穩定順暢的遠程GUI連接，在自己習慣的筆記本上訪問PGX的桌面環境。如下圖所示。

啟動操作系統之后，我們需要做一些基礎的軟件環境檢查。

1.查看GraceCPU信息：

2.查看128GBUMA內存容量：free和nvidia-smi看見的內存容量信息是一致的，因為是UMA架構。

3.查看SSD硬盤容量：

4.查看GPU信息：nvidia-smi的MemoryUsage一欄會顯示“NotSupported”，這是正常情況，因為UMA架構下GPU無獨立顯存，此信息不適用。

5.查看預安裝的Docker版本：

6.查看預安裝的CUDA工具鏈版本：

NVIDIAContainerRuntime&Toolkit

如果我們直接運行Docker容器，那么在容器內是看不見GPU設備的，所以需要安裝NVIDIAContainerRuntime和Toolkit來支持dockerrun--gpus選項。NVIDIAContainerRuntime運行HostOS中，是一種用于在DockerContainers中無縫使用GPU的關鍵技術。

NVIDIAContainerToolkit則運行在Containers內部，提供了必要的組件，以便為容器化應用動態配置并接入GPU設備和CUDA庫。具有以下優勢：

1.容器內無縫訪問GPU設備；

2.自動管理GPU驅動程序與CUDA庫；

3.支持自動配置Multi-GPU；

4.與Docker等主流的容器編排平臺兼容。

如下圖所示，NVIDIAContainerRuntime與NVIDIAContainerToolkit相互結合使用，實現了在Dockerd與NVIDIADriver驅動程序之間建立協同交互，能夠讓Containers直接高效地調用GPU資源。

在PGX系統中已經預先完成了NVIDIAContainerRuntime&Toolkit的安裝和配置，包括：與Docker集成、配置GPU設備訪問、配置CUDA庫等。所以PGX操作系統可以開箱即用，立即開始處理AI工作負載、CUDA應用程序以及其他GPU加速軟件。

測驗證證是否可以正常調用GPU設備和CUDA庫。

1.啟動容器，使用--gpusall參數讓容器直接使用主機GPU。

2.在容器內輸入nvidia-smi、nvcc--version等命令，如果均能獲取正常輸出，即說明Docker容器內GPU和CUDA環境已就緒。

默認情況下，PGXOS執行docker指令需要sudo權限。為了方便可以將pgx用戶添加到docker用戶組，即可無需使用sudo直接運行了。

值得注意的是，PGXCPU是ARM64平臺，所以我們自行安裝軟件和啟動容器時，需要選擇對應的arm64版本。

例如：

直接dockerpullpytorch/pytorch:latest默認拉的是x86_64鏡像，在ARMCPU上運行會報非法指令。因此要使用NVIDIANGC提供的鏡像或在DockerHub上標記支持arm64平臺的鏡像。

NVIDIA官方提供了可以直接應用到PGX上的容器鏡像，涵蓋CUDA13、PyTorch等。拉取nvcr.io/nvidia/cuda:13.0.1-devel-ubuntu24.04作為基礎鏡像，然后在其中安裝AI框架就可以保證兼容。

鏈接如下：https://catalog.ngc.nvidia.com/

NVIDIADashboard

NVIDIADashboard是NVIDIA提供的軟件管理工具，用于檢查軟件更新、安裝補丁、升級GPU驅動、NIC固件等。NVIDIA會定期（每半年左右）發布OS的重要更新，以及不定期的安全補丁，為了獲得更好的穩定性和性能，建議定期檢查系統更新。通過NVIDIADashboard可以方便地查看并一鍵安裝可用更新。

非常建議優先使用Dashboard執行系統更新，因為NVIDIA針對PGX的軟件棧進行的特殊的更新驗證和優化，使用Dashboard可避免不兼容更新導致的問題。

另外，NVIDIASync桌面程序能夠實時顯示PGX設備的資源利用率，并集成命令行終端，為用戶提供統一界面來管理SSH訪問以及在PGX上啟動開發工具。

LLM推理實踐

NVFP4量化技術

隨著大模型參數量的增長，顯存優化技術之一的低精度量化技術得到了飛速發展。從行業的整體趨勢來看，大模型正朝著低位寬浮點數的方向演進（FP32=>FP16=>FP8=>FP4）。并且在業內經過長期的測試發現，不同低精度格式的效果排序為FP8 >FP4 >INT8 >INT4。由于FP4兼具了體積和精度的綜合優勢，現在已經成為了大模型量化技術的主流趨勢。

PGX的BlackwellGPU支持NVIDIA專為推理優化的NVFP4（4-bit浮點）格式，結合FP4量化技術，能夠實現接近FP8的精度（僅降低1%）。NVFP4量化技術可以將模型權重壓縮至原始大小的約3到3.5倍（相比FP16），或1.8倍（相比FP8），同時將吞吐量提升。從而在不犧牲準確性的前提下，可以放下更大參數規模的模型。在NVFP4的加持下，一臺PGX才得以實現最大承載200B規模的大模型進行推理。

并且由于FP4的數據占用空間更小，系統性能也得以提升。因此，應用了NVFP4量化技術后的PGX可在不犧牲模型精度的前提下實現：

1.更高的推理吞吐

2.更低的響應延遲

3.更快的Token生成速度

4.更順暢的Prompt處理能力

而高效的Prompt處理能力有助于提升token響應速度，加快端到端的吞吐量，改善用戶體驗。下表展示了PGX在NVFP4 +TensorRT-LLM/llama.cpp環境下多款大模型的測試表現。

ISL（輸入序列長度）：輸入提示詞的數量，即Prefilltokens。

OSL（輸出序列長度）：模型在響應過程中生成token數量，即Decodetokens。

所以在本文的推理實踐中采用了NVIDIA官方發布的NVFP4量化模型nvidia/Qwen3-30B-A3B-NVFP4，總參數量30B、單次激活參數量3B的MoE模型，可以最大化發揮硬件的內存與算力優勢，是PGX的理想應用場景。

TensorRT-LLM+Qwen3-30B-A3B-NVFP4

采用NVIDIA官方推薦的TensorRT-LLM框架搭配NVFP4量化模型進行測試。

https://huggingface.co/nvidia/Qwen3-30B-A3B-NVFP4

啟動命令如下：

注意，官方推薦的--backendpytorch參數，會讓模型跳過TensorRT的CUDAGraph優化與Kernel算子融合功能，僅以PyTorch原生模式運行，未能發揮TensorRT-LLM的核心加速優勢。

vLLM+Qwen3-30B-A3B-NVFP4

在v0.12.0版本以前，使用vLLM+Qwen3-30B-A3B-NVFP4組合在執行CUTLASSFP4MoE矩陣乘法操作時會遇見RuntimeError:

FailedtoinitializeGEMM錯誤。這是因為舊版本的vLLMMoE模型對GB10SM12.1架構NVFP4格式的適配并不成熟，有些關鍵Kernel核函數適配沒有完成。

直到v0.12.0版本，vLLM就正式支持了NVFP4，標志著FP4格式逐漸被主流認可。

https://github.com/vllm-project/vllm/releases

https://github.com/vllm-project/vllm/pull/29242/commits

NGC已經提供了vLLMv0.12.0版本的鏡像我們可以直接使用。

如果想使用自己的鏡像時，可以手動編譯v12版本。

啟動vLLM

vLLM+Qwen3-30B-A3B-AWQ

如果使用較久的vLLM版本時，推薦可以使用AWQ量化的Qwen3-30B-A3B-AWQ模型。

AWQ作為成熟的量化技術，擁有完善的社區支持與大量實踐驗證。vLLM框架對AWQ的適配經過多輪優化，具有穩定高效的運行鏈路。

性能壓測對比

使用第三方壓測工具：

https://evalscope.readthedocs.io/zh-cn/v0.7.1/user_guides/stress_test/quick_start.html

壓測參數設置：

url：請求URL

parallel：并行請求數量

model：使用的模型名稱

number：請求數量

api：使用的API服務類型

dataset：數據集名稱

stream：是否啟用流式處理

對比測試結果：

TensorRT-LLM+Qwen3-30B-A3B-NVFP4

vLLM+Qwen3-30B-A3B-NVFP4‘

vLLM+Qwen3-30B-A3B-AWQ

Latency（延遲）：整體響應時間。

Throughput（吞吐量）：每秒處理的請求數和token數。

TTFT（TimetoFirstToken）：首token時間，用戶感知體驗。

ITL：token間延遲，生成流暢度的關鍵指標。

TPOT（TimeperOutputToken）：每token輸出時間，生成效率的直接體現。

E2EL（End-to-EndLatency）：端到端延遲，完整請求的時間開銷。

對比測試分析：

可見，軟件生態成熟度通常是滯后于硬件迭代的。GB10SM12.1屬于新型架構，TensorRT-LLM框架對其優化仍處于初期階段，所以部分性能優化實現無法啟用，整體軟件棧尚未完成與新硬件的深度適配。

相較于AWQ量化技術，雖然NVFP4具備理論技術優勢，但NVFP4針對MoE模型推理所需的FusedMoEKernel尚未完成全場景適配。從報錯日志可見，FlashInferkernels的缺失導致TensorRT-LLM即便能運行模型，也無法調用最優Kernel實現，限制了性能發揮。

另外，NVIDIA官方目前還沒有針對batchsize、KVcache等vLLM參數配置給出最佳實踐方案。可見NVFP4的軟件生態仍處于建設階段，尚未形成成熟的應用閉環。不過好在NVIDIA已經明確NVFP4的全面優化將會很快上線。

性能剖析工具

在模型開發的日程工作中離不開性能剖析的工作，尤其是NsightSystem和NsightCompute這兩款NVIDIA性能剖析工具的使用，這些工具都被預先安裝在PGX上了，我們可以方便的通過GUI桌面進行使用。

例如，上述性能測試對比我們知道，在同等條件下NVIDIA官方提供了TensorRT-LLM+Qwen3-30B-A3B-NVFP4方案的TTPT比較高，此時我們會就需要使用性能剖析的工具和方法來進行調查。這里主要介紹如何在PGX上使用nsys等工具的流程。

方式1：在容器內部抓取性能剖析數據。注意在容器內抓取GPUMetrics需要修改推理進程的啟動指令，添加nsyslaunch指令，并且需要為容器啟用特權模式，還需要為GPU配置可訪問模式。

方式2：在容器外部抓取。注意因為在容器外部無法不能指定容器內部的具體進程，所以抓不了--trace指向的CUDAHW數據，只能抓取GPUMetrics數據。

nsys性能剖析數據抓取完成之后就可以直接在PGXGUI桌面上查看了，如下圖，我們可以用可視化的方式觀測到TensorRT-LLM的Kernel核函數的執行過程Timeline圖，對理解其執行流程有至關重要的作用。這些工具在PGX上都是預先安裝好的，非常方便。

LLM微調實踐

微調是指在已經訓練好的大型預訓練模型的基礎上，進一步訓練該模型以適應特定任務或特定領域的數據。可以在特定任務上取得更好的性能，因為模型在微調過程中會重點學習與任務相關的特性。還可以在多種領域（如情感分析、問答系統等）上進行微調，從而快速適應不同應用場景。另外，相比從零開始訓練一個模型，微調所需的數據和計算資源顯著減少了。

在實際大模型應用場景中，高效微調主要用于以下四個方面：

1.改變對話風格：根據特定需求調整模型的對話風格。比如客服、虛擬助理等場景，通過微調少量的參數（例如對話生成的策略、情感表達等），可以使模型適應不同的語氣、禮貌程度或回答方式。

2.注入私域知識：將外部知識或領域特定的信息快速集成到預訓練模型中。比如法律、醫療、IT等專業領域，

通過少量的標注數據對預訓練模型進行微調，幫助模型理解特定行業的術語、規則和知識，進而提升專業領域的問答能力。

3.提升推理能力：在處理復雜推理任務時，微調使模型能夠更高效地理解長文本、推理隱含信息，或者從數據中提取邏輯關系，進而在多輪推理任務中提供更準確的答案。這種微調方式可以幫助模型在解答復雜問題時，提高推理準確性并減少錯誤。

4.支撐Agent需求：通過Agent使得模型能夠有效地與其他系統進行交互、調用外部API執行特定任務。通過針對性微調，模型可以學會更精準的FunctionCalling策略、參數解析和操作指令，從而支撐Agent的能力。

現在絕大多數開源模型，在開源的時候都會公布兩個版本的模型。一個是Base模型，該模型只經過了預訓練，沒有經過指令微調。其二則是微調模型，是在Base模型的基礎上進一步進行全量指令微調之后的對話模型。

微調技術原理

從廣義上講，微調可以分為2種主要方式：全量微調和高效微調。選擇哪種微調方法，取決于開發者希望對原始模型進行多大程度的調整。

參數高效微調：

工作原理：僅更新模型的一小部分，以更快、更低成本完成訓練。這是一種在不大幅改變模型的情況下提升能力的高效方式。

適用場景：幾乎適用于所有傳統需要完整微調的場景，包括引入領域知識、提升代碼準確性、使模型適配法律或科學任務、改進推理能力，或對語氣和行為進行對齊。

要求：小到中等規模的數據集（100~1000組示例提示詞對）。

完整微調：

工作原理：更新模型的所有參數，適用于訓練模型遵循特定格式或風格。

適用場景：高級應用場景，例如構建AI智能體和聊天機器人，這些系統需要圍繞特定主題提供幫助、遵循既定的約束規則，并以特定方式進行響應。

要求：大規模數據集（1000+組示例提示詞對）。

LLM微調是一種對GPU顯存和計算要求極高的工作負載，在每個訓練步驟中都需要進行以數十億次量級的矩陣乘法來更新模型權重。即使是像Mistral7B這樣的小型LLM進行全面微調，也可能需要高達100GB的內存。所以，在進行微調前，需要考慮的因素是各種微調方法的GPU顯存需求。

并且顯然的，相較于LoRA和QLoRA高效微調，完整微調對內存和吞吐量要求更高。盡管完全微調可以對模型的能力進行深度改造，但要帶入模型全部參數進行訓練，需要消耗大量的算力，且有一定的技術門檻。相比之下，在絕大多數場景中，如果我們只想提升模型某個具體領域的能力，那高效微調會更加合適。

由于微調需要消耗大量的顯存，因此參數規模超過30B的大模型往往無法在32GB消費級GPU上運行，但卻可以輕松在擁有128GBUMA的PGX上隨時進行。下表展示了在PGX上對Llama系列模型進行微調的性能表現。

Llama3.2 3B完全微調：每秒82739.2tokens的處理速度。

Llama3.1 8BLoRA微調：每秒53657.6tokens的處理速度。

Llama3.3 70BQLoRA微調：每秒5079.4tokens的處理速度。

LoRA

LoRA（Low-RankAdaptation，低秩適應）旨在通過引入低秩矩陣來減少微調時需要調整的參數數量，從而顯著降低顯存和計算資源的消耗。具體來說，LoRA微調并不直接調整原始模型的所有參數，而是通過在某些層中插入低秩的適配器（Adapter）層來對低秩矩陣進行訓練。

LoRA的原理：

在完全微調中，會修改模型的所有權重，而在LoRA中，只有某些低秩矩陣（適配器）會被訓練和調整。這意味著原始模型的參數保持不變，只是通過少量的新參數來調整模型的輸出。

低秩矩陣的引入可以在顯存和計算能力有限的情況下，依然有效地對大型預訓練模型進行微調，從而讓LoRA成為顯存較小的設備上的理想選擇。

LoRA的優勢：

1.顯存優化：只需要調整少量的參數（適配器），顯著減少了顯存需求，適合顯存有限的GPU。

2.計算效率：微調過程中的計算負擔也更輕，因為減少了需要調整的參數量。

3.靈活性：可以與現有的預訓練模型輕松結合使用，適用于多種任務，如文本生成、分類、問答等。

QLoRA

QLoRA（QuantizedLow-RankAdaptation）是LoRA的一個擴展版本，它結合了LoRA的低秩適配器技術和量化技術。在LoRA的基礎上再進一步優化了計算效率和顯存需求，特別是在極端顯存受限的環境下。

QLoRA的原理：

與LoRA不同的是，QLoRA會將插入的低秩適配器層的部分權重進行量化，通常是量化為FP4、INT4或INT8等低精度格式，在保持性能的同時顯著降低模型的存儲和計算需求。

可見，QLoRA涉及量化（quantization）技術，將模型的一部分權重參數存儲在較低精度的數值格式中，以此減少內存使用和計算量，同時結合LoRA的低秩調整，讓適應過程更加高效。

QLoRA的優勢：

1.在顯存非常有限的情況下仍能進行微調。

2.可以處理更大規模的模型。

3.適合用于邊緣設備和需要低延遲推理的場景。

LLaMA-Factory+Qwen3-7B +LoRA

安裝部署

容器安裝

編譯安裝

測試

測試推理

測試WebUI

model_name_or_path：huggingface或modelscope的模型名稱，如meta-llama/Meta-Llama-3-8B-Instruct；或者是本地下載的絕對路徑。

template：模型問答時所使用的prompt模板，不同模型使用各自的模版，否則會出現回答結果重復生成等奇怪現象。比如Meta-Llama-3-8B的template就是llama3。

準備數據集

打開WebUI：

魔搭社區集成了相當豐富的中文數據集，有很多分類可以選。

https://www.modelscope.cn/datasets

找一個角色扮演的數據集來微調（方便查看效果）。

https://www.modelscope.cn/datasets/kmno4zx/huanhuan-chat

在數據預覽這里查看詳細數據。

注意，llama-factory目前只支持兩種格式的數據集：Alpaca和Sharegpt格式。

https://github.com/hiyouga/LlamaFactory/tree/v0.9.1/data

切換到數據集文件這邊，打開huanhuan.json文件，看到它其實就是Alpaca格式的數據集，僅下載這一個文件即可。

在llama-factory添加數據集，不僅要把數據文件放到data目錄下，還需要在配置文件dataset_info.json里面添加一條該數據集的記錄。這樣，新添加的數據集才能被llama-factory識別到。

這里保存之后，webui那邊會實時更新，不需要重啟

執行微調

微調Qwen3-1.7B-Base基礎大模型，方法選用LoRA。

Base基礎預訓練模型。

沒有經過指令微調。

適合繼續預訓練或指令微調。

Base通常情況下輸出質量不如Instruct版本。

使用huanhuan數據集，先訓練1輪看看效果，如果效果不理想再多訓練幾輪。由于數據集都是一些短問答，可以把截斷長度設置小一點，為1024（默認是2048）。梯度累計設置為4。注意，計算類型選擇BF16，暫不支持FP4。

繼續設置LoRA微調參數：

LoRA秩：可以看作學習的廣度，越大學習的東西越多，微調之后的效果可能會越好，但是也不是越大越好。太大的話容易造成過擬合（書呆子，照本宣科，不知變通），這里設置為8。

LoRA縮放系數：可以看作學習強度，越大效果可能會越好，對于一些用于復雜場景的數據集可以設置更大一些，簡單場景的數據集可以稍微小一點。這里設置256。

預覽訓練指令并開始訓練。

stage：指示當前訓練的階段，枚舉值sft、pt、rm、ppo等，這里我們是有監督指令微調，所以是sft。

do_train：是否是訓練模式。

dataset：使用的數據集。

dataset_dir：數據集所在目錄，這里是data。

finetuning_type：微調訓練的類型，枚舉值lora、full、freeze等，這里使用lora。

output_dir：訓練Checkpoint保存的位置。

cutoff_len：訓練數據集的長度截斷。

per_device_train_batch_size：每個設備上的batchsize，最小是1，如果GPU顯存夠大，可以適當增加。

bf16：訓練數據精度格式。

max_samples：每個數據集采樣多少數據。

val_size：隨機從數據集中抽取多少比例的數據作為驗證集。

logging_steps：定時輸出訓練日志，包含當前loss，訓練進度等。

adapter_name_or_path：LoRA適配器路徑。

開始之后，會啟動一個新的訓練進程。

如果本地沒有找到模型，會先自動下載模型：

開始訓練后可以查看進度條和損失值曲線。

看到類似下面"訓練完畢"就代表微調成功。

微調成功后，我們得到了一個Checkpoint記錄，下拉可以選擇剛剛微調好的模型。

Checkpoing在后臺的存儲位置是saves/Qwen3-1.7B-Base/lora/：

adapter開頭的是LoRA適配器結果，后續用于模型推理融合。

training_loss和trainer_log等記錄了訓練過程中的指標。

其他是訓練時各種參數的備份。

把窗口切換到chat，可以點擊加載模型。

加載好之后就可以在輸入框發送問題，測試微調模型的效果。

對LoRA微調模型進行推理，需要應用動態合并LoRA適配器的推理技術。需要通過finetuning_type參數告訴使用了LoRA訓練，然后將LoRA的模型位置通過adapter_name_or_path參數即可。

但是渲染只訓練了一次的效果很差。

如果想切換回微調之前的模型，只需先卸載模型，選擇想要的Checkpoint，然后再加載模型即可。如果想重新微調，需要修改紅框中的兩個值。

在經過3個Epoch的訓練之后，效果也越好越好了。

批量推理和訓練效果評估

上文中的人工交互測試實際上并不嚴謹，通常我們需要進行自動化的批量測試。例如：使用自動化的bleu和rouge等常用的文本生成指標來做評估。

與訓練腳本主要的參數區別如下3個：

do_predict：現在是預測模式。

predict_with_generate：現在用于生成文本。

max_samples：每個數據集采樣多少用于預測對比。

完成后查看微調質量評估結果，下面是訓練效果評估指標。

質量類指標：BLEU-4 +ROUGE-1/2/L，衡量模型生成文本的好壞、和標準答案的匹配度、內容質量優劣。

BLEU-4：是一種常用的用于評估機器翻譯質量的指標。BLEU-4表示四元語法BLEU分數，它衡量模型生成文本與參考文本之間的n-gram匹配程度，其中n=4。值越高表示生成的文本與參考文本越相似，最大值為100%。如下，BLEU-4=0.8539屬于高分，說明模型生成的文本，和標準答案的語義貼合度極高、核心信息無遺漏、表達邏輯一致，對于8B量級的開源大模型，這個分數是優秀水平。

predict_rouge-1：是一種用于評估自動摘要和文本生成模型性能的指標。ROUGE-1表示一元ROUGE分數，衡量模型生成文本與參考文本之間的單個詞序列的匹配程度，即：詞匯層面的匹配度，看生成文本有沒有用到標準答案里的核心詞。值越高表示生成的文本與參考文本越相似，最大值為100。如下，rouge-1=10.37屬于高分，模型能精準捕捉到標準答案里的核心關鍵詞，生成內容不會偏離主題，這是優質模型的核心特征。

predict_rouge-2：ROUGE-2表示二元ROUGE分數，衡量模型生成文本與參考文本之間的雙詞序列的匹配程度，即：短語/短句層面的匹配度。同上，最大值為100。如下，rouge-2=1.67分數偏低，但這是正常現象，ROUGE-2要求連續兩個詞和標準答案完全一致，而大模型的優勢是語義一致但表達多樣化的泛化能力。大模型使用不同的短語表達相同的意思，這是生成能力的體現，不是缺陷。如果rouge-2分數很高，反而說明模型在的泛化能力極差。

predict_rouge-l：ROUGE-L表示最長公共子序列匹配率，衡量模型生成文本與參考文本之間最長公共子序列的匹配程度，即：整句的語義連貫性和語序一致性。同上，最大值為100。如下，rouge-L=4.10中等分數，表示模型生成的文本語義完整、邏輯通順，雖然句式和標準答案不同，但核心信息完整、語序合理，能準確回答問題。

如果是文本摘要任務，那么rouge-1一般20-40，rouge-2 5-15，rouge-L10-25；如果是開放問答/對話/指令遵循任務，那么rouge-1 8-15，rouge-21-3，rouge-L 3-6。下列數值完全落在這個區間內，是標準水平。

性能類指標：耗時/吞吐量/加載時間，衡量模型推理速度、效率、硬件利用率。

predict_model_preparation_time：表示模型加載和預熱（顯存初始化）的耗時。如下，0.002s是優秀的數值。

predict_runtime：本次批量推理的總耗時，單位為秒。如下，15356秒= 4小時16分鐘。

predict_samples_per_second：每秒推理生成的樣本數量，推理吞吐量核心指標的核心指標，表示模型每秒鐘能夠生成的樣本數量。用于評估模型的推理速度。如下，0.243樣本/秒，表示模型平均每4.1秒處理1條推理樣本。

predict_steps_per_second：每秒執行的step數量，模型每秒鐘能夠執行的step數量。模型每生成一個token就是一個step。如下，0.061step/s表示每秒生成約0.061個token。

通過對比1Epoch和3Epoch微調的結果可以看出，多輪訓練后的效果會更好一些。

1Epoch

3Epoch

訓練后也會在output_dir下看到如下新文件：

generated_predictions.jsonl：輸出了要預測的數據集的原始label和模型predict的結果。

predict_results.json：給出了原始label和模型predict的結果，用自動計算的指標數據。

LoRA模型合并導出：

通過不斷“煉丹”直到效果滿意后就可以導出模型了。即：把訓練的LoRA模型和原始Base模型進行融合，輸出一個完整的模型文件。

檢查點路徑選擇我們剛剛微調好的模型，切換到export，填寫導出目錄output/qwen3-1.7b-huanhuan。

導出完成之后就可以在output目錄下看到qwen3-1.7b-huanhuan目錄了。

部署運行微調后的大模型

這里用Ollama + GGUF進行部署。

其中，GGUF是大模型的存儲格式，可以對模型進行高效的壓縮，減少模型的大小與內存占用，從而提升模型的推理速度和效率。如下，安裝GGUF并將微調后大模型的格式進行轉換。

另外，Ollama是大模型推理框架，適用于個人環境使用，簡單而高效。

為什么ThinkStationPGX是AI開發者的創新加速器？

相信很多AI開發者都經歷過和筆者同樣的困境：一方面，公司僅有的公共GPU服務器要排隊申請，好不容排到時段卻發現環境被改得面目全非，調試半天才能跑代碼；另一方面，想用消費級顯卡本地驗證想法，卻發現小幾十GB顯存連70B的大模型都加載不動。資源短缺和環境割裂，讓我們80%的時間浪費在等待和折騰上，而非真正的創新。

ThinkStationPGX這臺巴掌大的設備確實能夠解決我們從事AI開發時的關鍵痛點：

1.獨占算力，不再排隊：128GB統一內存+FP4量化技術，單機支持200B模型推理或70B模型微調，相當于把2-4張高端顯卡的算力濃縮進桌面設備。從此不必再爭搶資源，想研究什么AI技術，想安裝什么AI框架，想開發什么AI應用，都可以立刻開始。

2.開箱即用的生產級環境：預裝與NVIDIA數據中心完全一致的軟件棧（CUDA、PyTorch），本地調試的模型和容器可直接部署到云端服務器，告別“開發環境能跑，生產環境崩掉”的尷尬。

3.移動式超算工作站：1.2kg重量+ 35dB靜音設計，插上電源和顯示器就能在工位、實驗室甚至咖啡廳繼續工作，研究進程不再被地點束縛。

在深度使用和體驗之后，筆者覺得ThinkStationPGX會非常適用于以下人群和場景：

個人AI開發者/小團隊：獨占資源，加速創新。

高校實驗室/教育機構：低成本構建實驗室內部AI研究和教學平臺，研究經費投入比GPU服務器更低。

企業研發部門：敏感數據本地微調，結合快速原型驗證，兼顧安全與效率。

邊緣計算：體積小巧，移動方便，算力強大，能夠塞進200B模型在邊緣推理，促進AI邊緣化應用。

簡而言之，如果你厭倦了在共享GPU的等待隊列中消磨創造力，受夠了消費級顯卡的顯存天花板，ThinkStation PGX就是那臺能夠讓我們把“超算裝進背包”的終極武器——讓開發環境沉默而可靠，讓創新專注且自由。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.