NFS over RDMA 終結 AI 儲存瓶頸

問題診斷

你的 GPU 有多少時間
在空轉等資料？

AI 訓練的成本由 GPU 時間決定，但超過 40% 的運算時間，正因為儲存 I/O 瓶頸被白白浪費。

TCP 協議棧的隱藏稅

每一次資料讀取，CPU 都要處理 TCP 封包分片、校驗和計算、核心上下文切換。這些開銷不產生任何 AI 計算價值，卻默默消耗掉 99% 的 CPU 核心。

CPU 佔用 ≥ 99%

記憶體複製的四重代價

傳統 NFS 路徑中，同一份資料在抵達 GPU 之前，需要在核心緩衝區與用戶空間之間複製 4–6 次。每一次複製都是延遲，每一次延遲都是算力損耗。

延遲 100–500 μs

GPU 閒置的真實成本

以 8×H100 集群為例，每小時雲端費用超過 $24 USD。當 GPU 利用率因 I/O 瓶頸僅達 60%，意味著每小時有將近 $10 被徹底浪費。

GPU 閒置 > 40%

規模越大、瓶頸越深

單 GPU 時勉強可用，但當訓練節點擴展到 4、8、16 個 GPU 並行讀取同一儲存系統，傳統 TCP NFS 的競爭延遲呈指數級惡化。

多節點並發崩潰點

技術解方

兩條路徑，
完全不同的結局

NFS over RDMA 不是對傳統協議的微調，而是從根本上重構了資料如何從儲存抵達 GPU 記憶體的整條路徑。

傳統 NFS over TCP 效能瓶頸

①

應用程式發出讀取請求 AI 訓練任務請求下一批次資料

進入核心模式 — Context Switch #1 應用程式切換至核心，CPU 需儲存/恢復所有暫存器狀態，耗時 1–10 μs

TCP/IP 協議棧全程處理 TCP 封包分片、重傳機制、校驗和計算——全部由 CPU 執行，無法卸載

②

網卡傳送資料 資料封裝後送上網路

返回核心 — Context Switch #2 接收端再次進入核心模式，第二次上下文切換

資料複製 ×4–6 次 核心緩衝區 → DMA 緩衝 → 用戶空間，每次複製消耗 CPU 與記憶體頻寬

③

應用程式終於取得資料 GPU 等待期間全程空轉

端對端延遲100 – 500 μs

CPU 使用率≈ 99%

GPU 等待比例> 40%

NFS over RDMA（RoCE） TS-h1290FX

✓

應用程式發出讀取請求 AI 訓練任務請求下一批次資料

✓

Kernel Bypass — 直接控制 HCA 應用程式繞過作業系統核心，直接與 RDMA 網卡（HCA）通訊，零上下文切換

✓

硬體卸載全部協議處理 HCA 在硬體層執行所有網路協議計算，CPU 完全釋放，專注 AI 運算

✓

Zero-Copy 直接記憶體寫入 資料從 NAS 的 NVMe 直接寫入 AI 伺服器的應用程式記憶體，無任何中間複製

✓

資料就緒，GPU 立即開始運算 整條路徑無核心切換、無冗餘複製、無協議棧 CPU 損耗

端對端延遲1 – 2 μs

CPU 使用率≈ 15%

GPU 等待比例< 5%

規格比較

看清楚，
差異在哪裡

規格項目	QNAP TS-h1290FX	競品 A（SATA NAS）	競品 B（企業 AFA）
CPU	AMD EPYC™ 7302P 16C / 3.3 GHz 最強	Intel Xeon D-1541 8C / 2.7 GHz	高階 Intel 系列
儲存介面	NVMe PCIe Gen 4 ×4 U.2 最快	SATA 6 Gb/s	NVMe / SAS / FC
NVMe 插槽	12 × 2.5" U.2 PCIe Gen 4	無原生（需轉接卡）不支援	48 × 2.5" NVMe
NFS over RDMA	✓ 完全優化支援原生	✗ 不支援不支援	△ 部分支援
內建網路	2× 25GbE SFP28 + 2× 2.5GbE	2× 10GbE + 4× 1GbE	多組 25/100GbE（視配置）
PCIe 擴充	4× PCIe Gen 4 Gen 4	2× PCIe Gen 3	高密度多槽
最大記憶體	1 TB DDR4 ECC 3200 MHz	64 GB DDR4 2666 MHz	1,280 GB
ZFS 檔案系統	✓ QuTS hero 原生整合	✗	視廠商而定
S3 物件儲存	✓ QuObjects（含 Object Lock）	✗	視廠商而定
多租戶隔離	✓ NFS 共享 + ZFS 快照隔離	有限支援	支援

適用場景

這些人正在
用它解決什麼問題

🤖

AI / LLM 模型訓練

多個 GPU 節點並行讀取數百 GB 訓練集，傳統 NFS 下 I/O 等待時間超過運算時間。RDMA 讓資料跟上 GPU 的胃口。

GPU 利用率提升 40% → >95%

單輪訓練時間縮短 30–60%

儲存 CPU 負擔 99% → 15%

🏥

智慧醫療影像 AI

病理切片、3D DICOM 影像動輒數 GB，AI 輔助診斷若卡在讀取，臨床效益大打折扣。低延遲儲存讓診斷 AI 如虎添翼。

影像預處理加速多路並行不降速

報告生成等待顯著縮短反應時間

資料完整性 ZFS 自我修復保護

🏭

半導體良率大數據分析

生產線每秒產生海量製程數據，AI 模型需即時分析歷史數據找出良率關鍵變數。I/O 延遲就是分析延遲，就是良率損失。

歷史數據回溯速度毫秒 → 微秒級存取

24/7 不間斷分析全快閃低耗能支援

TCO 精簡硬體達企業效能

常見問題

你可能想問的，
都在這裡

RDMA 需要特殊的網路交換機嗎？我現有的機房架構能用嗎？ ▾

NFS over RDMA（RoCE v2）運作在標準以太網路上，但需要支援 PFC（Priority Flow Control，優先級流控）的交換機，以實現無損以太網環境。大多數現代企業級交換機（如 Mellanox/NVIDIA Spectrum、Cisco Nexus、Arista 系列）都支援此功能。QNAP 可提供網路規劃建議，協助確認您的現有環境是否相容。

NFS over RDMA 和傳統 NFS over TCP 的實際延遲差距有多大？ ▾

在實驗室條件下，NFS over TCP 的端對端延遲通常在 100–500 微秒（μs）之間，主要瓶頸來自核心上下文切換與記憶體複製。NFS over RDMA 可將延遲壓縮至 1–2 μs，改善幅度約 100 倍。對於 AI 訓練中頻繁的小批次隨機讀取場景，這種差距會直接反映在 GPU 利用率與整體訓練週期上。

ZFS 的空間效率如何？壓縮和去重對 AI 訓練集有效嗎？ ▾

ZFS 內建即時 LZ4/Zstandard 壓縮與區塊級重複刪除。對於含大量相似樣本的圖像訓練集，壓縮比通常可達 1.3–2×；文字型資料集（如 tokenized 語料）壓縮效益更顯著。去重則特別適合多版本模型 checkpoint 儲存場景，可大幅節省空間。壓縮在 ZFS 中為硬體輔助執行，對 I/O 效能影響極小。

我們只有 4 張 GPU，TS-h1290FX 值得投資嗎？ ▾

4 張高端 GPU（如 H100/A100）的每小時算力成本已非常可觀。即使是小規模集群，若儲存 I/O 導致 GPU 利用率低於 70%，意味著超過 30% 的算力支出是無效的。TS-h1290FX 的投資，通常可在 GPU 利用率提升帶來的效能增益中，於數個月至一年內完成 ROI 回收。如需具體 TCO 試算，歡迎聯繫我們的銷售團隊。

TS-h1290FX 是否支援多個團隊同時使用（多租戶）？ ▾

完全支援。TS-h1290FX 可設定多組獨立 NFS 共享、獨立用戶帳戶與網路隔離。結合 ZFS 的 Dataset 與快照機制，可為每個團隊或部門建立獨立的儲存空間、備份策略與存取控管，非常適合服務提供商（MSP）或大型企業內部多部門共用場景。

和純雲端 AI 訓練平台相比，地端 TS-h1290FX 的優勢是什麼？ ▾

雲端平台的主要挑戰在於：資料傳輸費用高昂（egress cost）、敏感訓練資料的法規合規風險、以及長期算力成本難以預測。TS-h1290FX 提供地端高速儲存，資料不離開您的機房，同時搭配 RDMA 達到接近雲端高性能存儲的 I/O 表現，是兼顧效能、資料主權與 TCO 的最佳平衡點。

TS-h1290FX 是否能整合進現有的 MLOps 工作流（如 Kubernetes、Kubeflow）？ ▾

可以。TS-h1290FX 提供標準 NFS v4.1 掛載，Kubernetes 可透過 PersistentVolume (PV) 直接使用。在支援 RDMA 的 Kubernetes 節點上，搭配 RDMA Device Plugin 即可啟用 NFS over RDMA 的全速連線。此外，透過 QuObjects 提供的 S3 相容端點，也可整合至使用 S3 協議的 MLOps 工具鏈（如 MLflow artifact store、DVC remote storage）。

如何做模型 Checkpoint 的備份與災難恢復？ ▾

TS-h1290FX 提供多層次保護策略：ZFS 快照可設定每小時自動建立，提供細粒度還原點；搭配另一台 ZFS NAS，可透過 SnapSync 進行區塊級即時同步，實現異地災難恢復；針對長期歸檔，HBS 3 支援將資料備份至雲端（AWS S3、Azure Blob、B2 等）。三層保護可根據 RTO/RPO 需求靈活組合配置。

TS-h1290FX 是否支援 S3 物件儲存協議？ ▾

支援。安裝 QuObjects 後，TS-h1290FX 可作為地端 S3 相容物件儲存端點，支援 Object Lock（WORM）不可變儲存。這讓 AI 工作流可以混合使用：訓練階段透過 NFS over RDMA 高速讀取資料集，推論階段的模型版本與分析結果則透過 S3 協議安全存放與管理。

GPU 不應該
等你的硬碟

你的 GPU 有多少時間
在空轉等資料？

TCP 協議棧的隱藏稅

記憶體複製的四重代價

GPU 閒置的真實成本

規模越大、瓶頸越深

兩條路徑，
完全不同的結局

TS-h1290FX
的數字語言

看清楚，
差異在哪裡

這些人正在
用它解決什麼問題

AI / LLM 模型訓練

智慧醫療影像 AI

半導體良率大數據分析

你可能想問的，
都在這裡

讓 GPU 不再等待

GPU 不應該等你的硬碟

你的 GPU 有多少時間在空轉等資料？

TCP 協議棧的隱藏稅

記憶體複製的四重代價

GPU 閒置的真實成本

規模越大、瓶頸越深

兩條路徑，完全不同的結局

TS-h1290FX的數字語言

看清楚，差異在哪裡

這些人正在用它解決什麼問題

AI / LLM 模型訓練

智慧醫療影像 AI

半導體良率大數據分析

你可能想問的，都在這裡

讓 GPU 不再等待

GPU 不應該
等你的硬碟

你的 GPU 有多少時間
在空轉等資料？

兩條路徑，
完全不同的結局

TS-h1290FX
的數字語言

看清楚，
差異在哪裡

這些人正在
用它解決什麼問題

你可能想問的，
都在這裡