每一毫秒的 I/O 等待,都是在燒掉你的 GPU 算力。
TS-h1290FX 搭載 NFS over RDMA,讓儲存速度追上運算速度。
AI 訓練的成本由 GPU 時間決定,但超過 40% 的運算時間,正因為儲存 I/O 瓶頸被白白浪費。
每一次資料讀取,CPU 都要處理 TCP 封包分片、校驗和計算、核心上下文切換。這些開銷不產生任何 AI 計算價值,卻默默消耗掉 99% 的 CPU 核心。
CPU 佔用 ≥ 99%傳統 NFS 路徑中,同一份資料在抵達 GPU 之前,需要在核心緩衝區與用戶空間之間複製 4–6 次。每一次複製都是延遲,每一次延遲都是算力損耗。
延遲 100–500 μs以 8×H100 集群為例,每小時雲端費用超過 $24 USD。當 GPU 利用率因 I/O 瓶頸僅達 60%,意味著每小時有將近 $10 被徹底浪費。
GPU 閒置 > 40%單 GPU 時勉強可用,但當訓練節點擴展到 4、8、16 個 GPU 並行讀取同一儲存系統,傳統 TCP NFS 的競爭延遲呈指數級惡化。
多節點並發崩潰點NFS over RDMA 不是對傳統協議的微調,而是從根本上重構了資料如何從儲存抵達 GPU 記憶體的整條路徑。
| 規格項目 | QNAP TS-h1290FX | 競品 A(SATA NAS) | 競品 B(企業 AFA) |
|---|---|---|---|
| CPU | AMD EPYC™ 7302P 16C / 3.3 GHz 最強 | Intel Xeon D-1541 8C / 2.7 GHz | 高階 Intel 系列 |
| 儲存介面 | NVMe PCIe Gen 4 ×4 U.2 最快 | SATA 6 Gb/s | NVMe / SAS / FC |
| NVMe 插槽 | 12 × 2.5" U.2 PCIe Gen 4 | 無原生(需轉接卡)不支援 | 48 × 2.5" NVMe |
| NFS over RDMA | ✓ 完全優化支援 原生 | ✗ 不支援 不支援 | △ 部分支援 |
| 內建網路 | 2× 25GbE SFP28 + 2× 2.5GbE | 2× 10GbE + 4× 1GbE | 多組 25/100GbE(視配置) |
| PCIe 擴充 | 4× PCIe Gen 4 Gen 4 | 2× PCIe Gen 3 | 高密度多槽 |
| 最大記憶體 | 1 TB DDR4 ECC 3200 MHz | 64 GB DDR4 2666 MHz | 1,280 GB |
| ZFS 檔案系統 | ✓ QuTS hero 原生整合 | ✗ | 視廠商而定 |
| S3 物件儲存 | ✓ QuObjects(含 Object Lock) | ✗ | 視廠商而定 |
| 多租戶隔離 | ✓ NFS 共享 + ZFS 快照隔離 | 有限支援 | 支援 |
多個 GPU 節點並行讀取數百 GB 訓練集,傳統 NFS 下 I/O 等待時間超過運算時間。RDMA 讓資料跟上 GPU 的胃口。
病理切片、3D DICOM 影像動輒數 GB,AI 輔助診斷若卡在讀取,臨床效益大打折扣。低延遲儲存讓診斷 AI 如虎添翼。
生產線每秒產生海量製程數據,AI 模型需即時分析歷史數據找出良率關鍵變數。I/O 延遲就是分析延遲,就是良率損失。
TS-h1290FX × NFS over RDMA — 地端 AI 訓練的儲存基礎設施