隨著 Reasoning AI 的需求暴增,基礎架構更為強調 Scaling 能力與反聚合(Disaggrated)設計,因而主要用於 AI Workload 所需的東西向資料交換需求更為突出。這對傳統上依賴 CPU 運算資源來處理資料交換的方式將會成為整個 AI 運算發展的瓶頸。
AI Workload 所需的資料流
DPU(Data Processing Unit)是 NVIDIA SmartNIC 技術的自然演進,採用全新設計理念:將數據中心基礎架構的處理任務從通用 CPU 中分離出來,透過專用處理單元來處理網路、儲存、安全等基礎設施功能。
這種架構創新的核心價值在於釋放 CPU 資源。當基礎設施相關的工作負載被卸載到 DPU 後,CPU 就能專注於處理應用程式層面的運算任務,大幅提升整體系統效率。DPU 創造了隔離的執行環境,確保基礎設施服務與應用服務之間的相互獨立性,進而提升系統安全性和可靠性。
NVIDIA 的 BlueField 系列是其 DPU 產品線核心代表。從 BlueField-2 到最新的 BlueField-3,每代產品都在網路處理能力、安全功能和運算性能方面有顯著提升。BlueField-3 特別在網路安全功能方面實現質的飛躍,為企業級數據中心提供更全面的解決方案。
Nvidia Bluefield 系列
本文撰寫時,當前 BlueField-3 的傳輸速度最高可達 400Gbps,預計今年(2025)將會發表的 BlueField-4 更達到 800Gbps 之譜!
DOCA(Data Center-on-a-Chip Architecture)是一個完整的軟體框架,專門設計來簡化 DPU 功能的開發和部署過程。DOCA 的設計哲學與 NVIDIA 的 CUDA 平台相似:
| 正如 CUDA 讓開發者能夠輕鬆利用 GPU 的並行處理能力,DOCA 讓開發者充分發揮 DPU 的基礎設施加速功能。 |
DOCA 架構
DOCA 運行時環境包含了所有必要的驅動程式和程式庫,就像 NVIDIA 顯示驱動程式套件為 CUDA 提供支援一樣。
DOCA 體現了模組化設計精髓。SDK 組件提供完整開發環境,運行時組件專注於部署環境需求,只包含執行必需的最小組件集合。程式庫層面的設計更是亮點,以深度封包檢測(DPI)程式庫為例,它整合了複雜的封包解析、正規表達式匹配和後處理邏輯,開發者只需透過簡潔的 API 呼叫就能實現高效能封包檢測功能。
DOCA 在硬體驅動和應用程式之間建立穩定的抽象層,確保即使底層 DPU 硬體發生變化,現有 DOCA 應用程式仍能正常運行而無需修改。這種前瞻性的設計為長期的技術演進提供了保障。
DOCA 支援多種部署架構。應用程式可在 x86 主機上運行,透過 DOCA 程式庫呼叫利用 DPU 加速功能;也可直接部署在 DPU 的 Arm 核心上,實現更緊密的硬體整合。DOCA 應用程式能夠充分利用主機 CPU 的運算能力,同時透過 DPU 處理基礎設施相關的任務。這種架構特別適合需要大量 CPU 運算的應用場景,如機器學習推理或大數據分析。
BlueField DPU 預先包含完整的 DOCA 開發和運行環境,讓開發者能夠直接進行應用程式開發、測試和部署。這種部署方式特別適合邊緣運算場景或對延遲要求極為嚴格的應用。
DOCA 提供的服務基本上已全部採用容器封裝,大幅提高了服務的可移植性與高可用性。只要客戶環境支援容器技術便可直接從 Nvidia NGC Catalog 拉取部署。
NVIDIA NGC™ 是企業服務、軟體、管理工具以及端對端 AI 和數位孿生工作流程支援的入口網站。透過完全託管的服務,您可以更快地將您的解決方案推向市場,或利用效能優化的軟體在您首選的雲端、本機和邊緣系統上建置和部署解決方案。 關於 NGC 以及更多的 Nvidia AI 應用方案,請參考另外一篇技術專欄文章:『當代企業 AI 應用導入策略』 |
NVIDIA 推出的 DOCA Platform Framework(DPF)專門設計用於在雲環境中配置和編排 BlueField DPU。DPF 透過 Kubernetes API 簡化 DPU 配置和管理,並能有效部署和編排 DPU 上的服務,同時簡化 Kubernetes 集群中 DPU 的管理。
DPF 與 K8S 關係架構
Kubernetes 在 DPU 生態中具有不可替代的關鍵地位。透過 Custom Resource Definitions(CRD)和 Controller 模式,DPU 資源可以像 Pod、Service 等標準 Kubernetes 資源一樣被宣告式地管理,大幅降低學習和部署成本。
Kubernetes 的編排能力為 DPU 服務提供強大的生命週期管理。DPU 上運行的網路安全服務、數據處理服務或 AI 推理服務,都可透過 Kubernetes 的 Deployment、StatefulSet 等原生對象來管理,享受自動擴縮容、健康檢查、滾動更新等企業級功能。
透過與 Kubernetes 的深度整合,DPF 實現了 DPU 資源的彈性配置和動態調度。新一代的 DPU-aware CNI 插件不僅能配置容器網路,還能將特定網路處理任務卸載到 DPU 上,實現更高效能和更低延遲。

K8S CNI
當 Envoy proxy 的流量處理邏輯在 DPU 上以硬體速度執行時,微服務間的通信延遲降至最低,同時釋放大量 CPU 資源用於業務邏輯處理,提高整個集群的資源利用率。
DOCA 平台應用範圍極為廣泛。在網路安全方面,DOCA Argus 為 BlueField-3 DPU 提供先進的網路安全功能,包括即時威脅檢測、深度封包檢測和自動化回應機制。在數據中心基礎設施層面,DOCA 支援軟體定義網路(SDN)的硬體加速實現,同時對 NVMe-oF 等現代儲存協定的支援讓儲存系統達到前所未有的效能水準。
AI 工廠概念的實現需要大量數據預處理和後處理工作,這些任務非常適合在 DPU 上執行。透過將基礎設施工作負載卸載到 DPU,CPU 和 GPU 資源就能完全專注於模型訓練和推理任務,顯著提升整體 AI 處理效率。
DOCA 平台的技術優勢體現在效能提升、可擴展性設計和安全性增強三個層面。透過專業化硬體處理基礎設施任務,整體系統效率得到質的提升。硬體級的隔離和加速為企業級應用提供可靠保障。展望未來,隨著生成式 AI 技術快速發展,DOCA 將提供更多專門針對 AI 工作負載最佳化的功能。雲原生技術的深度整合也是重要發展方向,讓 DOCA 應用程式能更好融入現代容器化和微服務架構中。
此外,DPU 更將進一步改變數據中心的演進,從集中式向分散式計算的轉變的同時伴隨著網路負載的指數級增長和零信任安全架構的興起。
數據中心演進
特別值得關注的是從 GPU 加速計算到 DPU 加速數據中心基礎設施的重要轉變。GPU 加速階段主要專注於提升計算密集型任務的處理能力,特別是在 AI 和機器學習領域。而 DPU 加速階段則代表了更全面的基礎設施優化方向,DPU 不僅能處理網路、存儲和安全功能,還能卸載 CPU 的基礎設施工作負載,實現真正的軟硬體分離。這種演進使數據中心能夠更好地應對現代雲端運算、邊緣計算和AI工作負載的複雜需求,同時提供更高的效能、安全性和靈活性。
NVIDIA DPU 與 DOCA 的發展軌跡表明,任何顛覆性基礎設施技術都必須與現有生態系統和諧共存才能獲得成功。Kubernetes 不僅為 DPU 提供管理和編排平台,更為 DPU 技術普及提供標準化和社群化的路徑。
DOCA Platform Framework 的推出標誌著 DPU 技術從技術驗證階段進入企業級應用階段。透過與 Kubernetes 的深度整合,DPU 成為雲原生架構不可或缺的重要組成部分。這種相互促進的關係將推動整個雲運算產業向著更加高效、安全和智慧的方向發展,最終實現真正的軟硬體協同優化的雲原生基礎設施願景。
END
聲明:文章圖片主要引用自 Nvidia 官網文件與手冊內容。