NFS over RDMA · QuTS hero · TS-h1290FX

GPU 不應該
等你的硬碟

每一毫秒的 I/O 等待,都是在燒掉你的 GPU 算力。
TS-h1290FX 搭載 NFS over RDMA,讓儲存速度追上運算速度。

100× 延遲降低倍數
85% CPU 負載下降
100Gbps 接近線速吞吐
<5% GPU 等待時間
Scroll

你的 GPU 有多少時間
在空轉等資料?

AI 訓練的成本由 GPU 時間決定,但超過 40% 的運算時間,正因為儲存 I/O 瓶頸被白白浪費。

01

TCP 協議棧的隱藏稅

每一次資料讀取,CPU 都要處理 TCP 封包分片、校驗和計算、核心上下文切換。這些開銷不產生任何 AI 計算價值,卻默默消耗掉 99% 的 CPU 核心。

CPU 佔用 ≥ 99%
02

記憶體複製的四重代價

傳統 NFS 路徑中,同一份資料在抵達 GPU 之前,需要在核心緩衝區與用戶空間之間複製 4–6 次。每一次複製都是延遲,每一次延遲都是算力損耗。

延遲 100–500 μs
03

GPU 閒置的真實成本

以 8×H100 集群為例,每小時雲端費用超過 $24 USD。當 GPU 利用率因 I/O 瓶頸僅達 60%,意味著每小時有將近 $10 被徹底浪費。

GPU 閒置 > 40%
04

規模越大、瓶頸越深

單 GPU 時勉強可用,但當訓練節點擴展到 4、8、16 個 GPU 並行讀取同一儲存系統,傳統 TCP NFS 的競爭延遲呈指數級惡化。

多節點並發崩潰點

兩條路徑,
完全不同的結局

NFS over RDMA 不是對傳統協議的微調,而是從根本上重構了資料如何從儲存抵達 GPU 記憶體的整條路徑。

傳統 NFS over TCP 效能瓶頸
應用程式發出讀取請求 AI 訓練任務請求下一批次資料
進入核心模式 — Context Switch #1 應用程式切換至核心,CPU 需儲存/恢復所有暫存器狀態,耗時 1–10 μs
TCP/IP 協議棧全程處理 TCP 封包分片、重傳機制、校驗和計算——全部由 CPU 執行,無法卸載
網卡傳送資料 資料封裝後送上網路
返回核心 — Context Switch #2 接收端再次進入核心模式,第二次上下文切換
資料複製 ×4–6 次 核心緩衝區 → DMA 緩衝 → 用戶空間,每次複製消耗 CPU 與記憶體頻寬
應用程式終於取得資料 GPU 等待期間全程空轉
端對端延遲100 – 500 μs
CPU 使用率≈ 99%
GPU 等待比例> 40%
NFS over RDMA(RoCE) TS-h1290FX
應用程式發出讀取請求 AI 訓練任務請求下一批次資料
Kernel Bypass — 直接控制 HCA 應用程式繞過作業系統核心,直接與 RDMA 網卡(HCA)通訊,零上下文切換
硬體卸載全部協議處理 HCA 在硬體層執行所有網路協議計算,CPU 完全釋放,專注 AI 運算
Zero-Copy 直接記憶體寫入 資料從 NAS 的 NVMe 直接寫入 AI 伺服器的應用程式記憶體,無任何中間複製
資料就緒,GPU 立即開始運算 整條路徑無核心切換、無冗餘複製、無協議棧 CPU 損耗
端對端延遲1 – 2 μs
CPU 使用率≈ 15%
GPU 等待比例< 5%

TS-h1290FX
的數字語言

隨機讀取 81.6萬
4K 隨機讀取 IOPS
消除訓練資料的 I/O 等待
最大容量 737TB
12 × 61.44 TB NVMe U.2
PCIe Gen 4 全快閃陣列
記憶體上限 1 TB
DDR4 ECC RDIMM 3200 MHz
8 槽 × 128 GB
CPU 16C
AMD EPYC™ 7302P
最高 3.3 GHz Boost
內建網路 2×25G
SFP28 + 2×2.5GbE
4× PCIe Gen 4 擴充槽
擴充至 100G
加裝 QNAP QXG-100G2SF
實現全速 RDMA 連線
ZFS 快照
近乎無限快照還原點
配合 WORM 不可竄改保護
功耗效率 24/7
全快閃低耗能設計
支援不間斷生產線分析

看清楚,
差異在哪裡

規格項目 QNAP TS-h1290FX 競品 A(SATA NAS) 競品 B(企業 AFA)
CPU AMD EPYC™ 7302P 16C / 3.3 GHz 最強 Intel Xeon D-1541 8C / 2.7 GHz 高階 Intel 系列
儲存介面 NVMe PCIe Gen 4 ×4 U.2 最快 SATA 6 Gb/s NVMe / SAS / FC
NVMe 插槽 12 × 2.5" U.2 PCIe Gen 4 無原生(需轉接卡)不支援 48 × 2.5" NVMe
NFS over RDMA ✓ 完全優化支援 原生 ✗ 不支援 不支援 △ 部分支援
內建網路 2× 25GbE SFP28 + 2× 2.5GbE 2× 10GbE + 4× 1GbE 多組 25/100GbE(視配置)
PCIe 擴充 4× PCIe Gen 4 Gen 4 2× PCIe Gen 3 高密度多槽
最大記憶體 1 TB DDR4 ECC 3200 MHz 64 GB DDR4 2666 MHz 1,280 GB
ZFS 檔案系統 ✓ QuTS hero 原生整合 視廠商而定
S3 物件儲存 ✓ QuObjects(含 Object Lock) 視廠商而定
多租戶隔離 ✓ NFS 共享 + ZFS 快照隔離 有限支援 支援

這些人正在
用它解決什麼問題

🤖

AI / LLM 模型訓練

多個 GPU 節點並行讀取數百 GB 訓練集,傳統 NFS 下 I/O 等待時間超過運算時間。RDMA 讓資料跟上 GPU 的胃口。

GPU 利用率提升 40% → >95%
單輪訓練時間 縮短 30–60%
儲存 CPU 負擔 99% → 15%
🏥

智慧醫療影像 AI

病理切片、3D DICOM 影像動輒數 GB,AI 輔助診斷若卡在讀取,臨床效益大打折扣。低延遲儲存讓診斷 AI 如虎添翼。

影像預處理加速 多路並行不降速
報告生成等待 顯著縮短反應時間
資料完整性 ZFS 自我修復保護
🏭

半導體良率大數據分析

生產線每秒產生海量製程數據,AI 模型需即時分析歷史數據找出良率關鍵變數。I/O 延遲就是分析延遲,就是良率損失。

歷史數據回溯速度 毫秒 → 微秒級存取
24/7 不間斷分析 全快閃低耗能支援
TCO 精簡硬體達企業效能

你可能想問的,
都在這裡

RDMA 需要特殊的網路交換機嗎?我現有的機房架構能用嗎?
NFS over RDMA(RoCE v2)運作在標準以太網路上,但需要支援 PFC(Priority Flow Control,優先級流控)的交換機,以實現無損以太網環境。大多數現代企業級交換機(如 Mellanox/NVIDIA Spectrum、Cisco Nexus、Arista 系列)都支援此功能。QNAP 可提供網路規劃建議,協助確認您的現有環境是否相容。
NFS over RDMA 和傳統 NFS over TCP 的實際延遲差距有多大?
在實驗室條件下,NFS over TCP 的端對端延遲通常在 100–500 微秒(μs)之間,主要瓶頸來自核心上下文切換與記憶體複製。NFS over RDMA 可將延遲壓縮至 1–2 μs,改善幅度約 100 倍。對於 AI 訓練中頻繁的小批次隨機讀取場景,這種差距會直接反映在 GPU 利用率與整體訓練週期上。
ZFS 的空間效率如何?壓縮和去重對 AI 訓練集有效嗎?
ZFS 內建即時 LZ4/Zstandard 壓縮與區塊級重複刪除。對於含大量相似樣本的圖像訓練集,壓縮比通常可達 1.3–2×;文字型資料集(如 tokenized 語料)壓縮效益更顯著。去重則特別適合多版本模型 checkpoint 儲存場景,可大幅節省空間。壓縮在 ZFS 中為硬體輔助執行,對 I/O 效能影響極小。
我們只有 4 張 GPU,TS-h1290FX 值得投資嗎?
4 張高端 GPU(如 H100/A100)的每小時算力成本已非常可觀。即使是小規模集群,若儲存 I/O 導致 GPU 利用率低於 70%,意味著超過 30% 的算力支出是無效的。TS-h1290FX 的投資,通常可在 GPU 利用率提升帶來的效能增益中,於數個月至一年內完成 ROI 回收。如需具體 TCO 試算,歡迎聯繫我們的銷售團隊。
TS-h1290FX 是否支援多個團隊同時使用(多租戶)?
完全支援。TS-h1290FX 可設定多組獨立 NFS 共享、獨立用戶帳戶與網路隔離。結合 ZFS 的 Dataset 與快照機制,可為每個團隊或部門建立獨立的儲存空間、備份策略與存取控管,非常適合服務提供商(MSP)或大型企業內部多部門共用場景。
和純雲端 AI 訓練平台相比,地端 TS-h1290FX 的優勢是什麼?
雲端平台的主要挑戰在於:資料傳輸費用高昂(egress cost)、敏感訓練資料的法規合規風險、以及長期算力成本難以預測。TS-h1290FX 提供地端高速儲存,資料不離開您的機房,同時搭配 RDMA 達到接近雲端高性能存儲的 I/O 表現,是兼顧效能、資料主權與 TCO 的最佳平衡點。
TS-h1290FX 是否能整合進現有的 MLOps 工作流(如 Kubernetes、Kubeflow)?
可以。TS-h1290FX 提供標準 NFS v4.1 掛載,Kubernetes 可透過 PersistentVolume (PV) 直接使用。在支援 RDMA 的 Kubernetes 節點上,搭配 RDMA Device Plugin 即可啟用 NFS over RDMA 的全速連線。此外,透過 QuObjects 提供的 S3 相容端點,也可整合至使用 S3 協議的 MLOps 工具鏈(如 MLflow artifact store、DVC remote storage)。
如何做模型 Checkpoint 的備份與災難恢復?
TS-h1290FX 提供多層次保護策略:ZFS 快照可設定每小時自動建立,提供細粒度還原點;搭配另一台 ZFS NAS,可透過 SnapSync 進行區塊級即時同步,實現異地災難恢復;針對長期歸檔,HBS 3 支援將資料備份至雲端(AWS S3、Azure Blob、B2 等)。三層保護可根據 RTO/RPO 需求靈活組合配置。
TS-h1290FX 是否支援 S3 物件儲存協議?
支援。安裝 QuObjects 後,TS-h1290FX 可作為地端 S3 相容物件儲存端點,支援 Object Lock(WORM)不可變儲存。這讓 AI 工作流可以混合使用:訓練階段透過 NFS over RDMA 高速讀取資料集,推論階段的模型版本與分析結果則透過 S3 協議安全存放與管理。

讓 GPU 不再等待

TS-h1290FX × NFS over RDMA — 地端 AI 訓練的儲存基礎設施

查看產品頁面 立即選購