NFS over RDMA ・ QuTS hero ・ TS-h1290FX

GPU に無駄な待機をさせない
ストレージを待たせない

I/O の待ち時間が 1 ミリ秒増えるごとに、高価な GPU の計算能力が無駄になります。
TS-h1290FX と NFS over RDMA により、ストレージのパフォーマンスが計算速度にしっかり追従します。

100 倍 レイテンシー削減
85% CPU 負荷削減
100Gbps ほぼラインレートのスループット
<5% GPU 待機時間
スクロール

あなたの GPU はどれだけの時間を
データを待つことに費やしていますか?

AI トレーニングのコストは GPU の稼働時間で決まりますが、ストレージの I/O ボトルネックによって、計算時間の 40% 以上が無駄になっています。

01

TCP スタックの隠れたコスト

データを読み込むたびに、CPU は TCP パケットの分割やチェックサム計算、カーネルコンテキストスイッチを処理する必要があります。このオーバーヘッドは AI 計算には何の価値も生みませんが、CPU リソースの最大 99% を静かに消費します。

CPU 使用率 ≧ 99%
02

メモリコピーの 4 重コスト

従来の NFS 経路では、同じデータが GPU に届くまでにカーネルバッファとユーザー空間の間で 4~6 回コピーされます。コピーのたびに遅延が発生し、わずかな遅延でも計算能力が奪われます。

レイテンシ 100~500μs
03

GPU 遊休の本当のコスト

8×H100 クラスターを例にすると、クラウドコストは 1 時間あたり $24 を超えます。I/O ボトルネックで GPU 利用率が 60% に低下すると、1 時間あたり約 $10 が完全に無駄になります。

GPU 遊休率 > 40%
04

規模が大きいほど、ボトルネックは深刻化

GPU が 1 台なら何とか管理できますが、4、8、16 台の GPU が同時に同じストレージを読み込むと、従来の TCP NFS の競合による遅延が指数的に悪化します。

マルチノード並行処理の限界点

2 つの経路、
まったく異なる結果

NFS over RDMA は従来プロトコルの単なる微調整ではありません。ストレージから GPU メモリまで、データの経路全体を根本から再構築します。

従来の TCP 上の NFS パフォーマンスボトルネック
アプリケーションが読み込み要求を発行 AI トレーニングタスクが次のデータバッチを要求
カーネルモードに移行 — コンテキストスイッチ #1 アプリからカーネルへスイッチ。CPU は全レジスタ状態を保存・復元する必要があり、1~10μs かかります。
TCP/IP スタック全処理 TCP の分割、再送、チェックサム計算はすべて CPU で実行され、オフロードできません。
NIC がデータを送信 データはカプセル化され、ネットワークに送信されます
カーネルに戻る — コンテキストスイッチ #2 受信側が再びカーネルモードに入り、2 回目のコンテキストスイッチが発生します。
データが 4~6 回コピーされる カーネルバッファ → DMA バッファ → ユーザースペース。各コピーで CPU とメモリ帯域が消費されます。
アプリケーションが最終的にデータを取得 待機中、GPU は完全にアイドル状態です。
エンドツーエンドのレイテンシ100~500 μs
CPU 使用率≒ 99%
GPU 待機率> 40%
RDMA(RoCE)経由の NFS TS-h1290FX
アプリケーションがリードリクエストを発行 AI トレーニングタスクが次のデータバッチを要求
カーネルバイパス — HCA への直接通信 アプリケーションが OS カーネルをバイパスし、RDMA NIC(HCA)と直接通信。コンテキストスイッチを排除。
ハードウェアがすべてのプロトコル処理をオフロード HCA がネットワークプロトコル計算をハードウェアレベルで実行し、CPU を AI 計算に完全に解放します。
ゼロコピーによるダイレクトメモリ書き込み データは NAS NVMe ドライブから AI サーバーのアプリケーションメモリへ直接書き込まれ、中間コピーは不要です。
データが準備され、GPU が即座に計算を開始 全てのデータパスでカーネルスイッチ、冗長コピー、プロトコルスタックによる CPU 負荷が排除されています。
エンドツーエンドのレイテンシ1~2 μs
CPU 使用率≒ 15%
GPU 待機率< 5%

数値で見る
TS-h1290FX

ランダムリード 816K
4K ランダムリード IOPS
トレーニングデータの I/O 待機を解消
最大容量 737TB
12 × 61.44 TB NVMe U.2
PCIe Gen 4 オールフラッシュアレイ
最大メモリ 1 TB
DDR4 ECC RDIMM 3200 MHz
8 スロット × 128 GB
CPU 16 コア
AMD EPYC™ 7302P
最大 3.3 GHz ブースト
内蔵ネットワーキング 2×25G
SFP28 + 2×2.5GbE
4× PCIe Gen 4 拡張スロット
拡張可能 100G
QNAP QXG-100G2SF をインストール
フルスピード RDMA 接続に対応
ZFS スナップショット
ほぼ無制限のスナップショット復元ポイント
WORM イミュータビリティと組み合わせ可能
省電力性能 24 時間 365 日
オールフラッシュ低消費電力設計
生産ラインの継続的な分析をサポート

違いを比較
明確に

仕様項目 QNAP TS-h1290FX 競合 A(SATA NAS) 競合 B(エンタープライズ AFA)
CPU AMD EPYC™ 7302P 16 コア / 3.3 GHz 最強 Intel Xeon D-1541 8 コア / 2.7 GHz ハイエンド Intel シリーズ
ストレージインターフェース NVMe PCIe Gen 4 ×4 U.2 最速 SATA 6 Gb/s NVMe / SAS / FC
NVMe スロット 12 × 2.5 インチ U.2 PCIe Gen 4 ネイティブ非対応(アダプター必要)非対応 48 × 2.5 インチ NVMe
NFS over RDMA ✓ 完全最適化されたネイティブサポート ネイティブ ✗ 非対応 非対応 △ 一部対応
内蔵ネットワーキング 2× 25GbE SFP28 + 2× 2.5GbE 2× 10GbE + 4× 1GbE 複数の 25/100GbE(構成による)
PCIe 拡張 4× PCIe Gen 4 Gen 4 2× PCIe Gen 3 高密度マルチスロット
最大メモリ 1 TB DDR4 ECC 3200 MHz 64 GB DDR4 2666 MHz 1,280 GB
ZFS ファイルシステム ✓ QuTS hero ネイティブ統合 ベンダーによる
S3 オブジェクトストレージ ✓ QuObjects(Object Lock 含む) ベンダーによる
マルチテナント隔離 ✓ NFS 共有 + ZFS スナップショットによる隔離 限定的なサポート 対応

利用ユーザー
および解決できる課題

🤖

AI/LLM モデル学習

複数の GPU ノードが数百 GB の学習データを並列で読み込みます。従来の NFS では、I/O 待機時間が計算時間を上回ります。RDMA によりデータの転送速度が GPU の要求に追従します。

GPU 利用率向上 40% → >95%
1 エポックの学習時間 30〜60% 短縮
ストレージ CPU 負荷 99% → 15%
🏥

スマートヘルスケア画像 AI

病理スライドや 3D DICOM 画像は数 GB に及ぶこともあります。AI 支援診断が画像読込で停滞すると、臨床効果が大きく損なわれます。低遅延ストレージにより、診断 AI が最大効率で動作します。

画像前処理の高速化 マルチパス並列処理でも速度低下なし
レポート生成待ち時間 応答時間を大幅短縮
データの整合性 ZFS の自己修復保護
🏭

半導体歩留まりビッグデータ分析

生産ラインは毎秒大量のプロセスデータを生成します。AI モデルは過去のデータをリアルタイムで分析し、歩留まりの鍵となる変数を特定します。I/O の遅延は分析の遅れにつながり、最終的に歩留まり損失となります。

過去データの検索速度 ミリ秒 → マイクロ秒アクセス
24 時間 365 日の継続分析 オールフラッシュ低消費電力対応
TCO エンタープライズ性能のためのハードウェア最適化

知りたいことはすべて
ここでご確認いただけます

RDMA には専用のネットワークスイッチが必要ですか?既存のデータセンターのアーキテクチャは利用できますか?
NFS over RDMA(RoCE v2)は標準のイーサネットネットワーク上で動作しますが、損失のないイーサネット環境を実現するために PFC(Priority Flow Control)対応のスイッチが必要です。多くの最新のエンタープライズ向けスイッチ(例:Mellanox/NVIDIA Spectrum、Cisco Nexus、Arista シリーズ)はこの機能をサポートしています。QNAP はネットワーク設計のアドバイスを提供し、ヘルプ既存環境が対応可能かどうか確認できます。
NFS over RDMA と従来の NFS over TCP では、実際のレイテンシー差はどれくらいありますか?
ラボ環境では、NFS over TCP のエンドツーエンドレイテンシーは通常 100~500 マイクロ秒(μs)で、主なボトルネックはカーネルコンテキストスイッチやメモリコピーに起因します。NFS over RDMA ではレイテンシーが 1~2 μs に圧縮され、約 100 倍の改善となります。AI トレーニングのような小規模バッチのランダムリードが頻繁なユースケースでは、この差が GPU の利用効率向上や学習期間の短縮に直結します。
ZFS のスペース効率はどうですか?AI トレーニングセットに対して圧縮や重複排除は効果的ですか?
ZFS は、リアルタイムの LZ4/Zstandard 圧縮とブロックレベルの重複排除を標準搭載しています。大量の類似サンプルを含む画像トレーニングセットでは、圧縮率が 1.3〜2 倍に達することもあります。テキストベースのデータセット(トークナイズ済みコーパスなど)では、さらに高い圧縮効果が期待できます。重複排除は、複数のモデルチェックポイントバージョンを保存する際に特に有効で、大幅なストレージ節約につながります。ZFS の圧縮はハードウェア支援により、I/O パフォーマンスへの影響は最小限です。
GPU が 4 基しかありません。TS-h1290FX への投資は価値がありますか?
H100 や A100 などのハイエンド GPU 4 基の時間単価はすでに高額です。小規模なクラスターでも、ストレージの I/O が原因で GPU の稼働率が 70% を下回る場合、計算コストの 30% 以上が無駄になっていることになります。TS-h1290FX への投資は、GPU の稼働率向上によるパフォーマンス改善によって、通常数か月から 1 年以内に投資回収(ROI)を実現できます。具体的な TCO 試算については、ぜひ営業担当までお問い合わせください。
TS-h1290FX は複数チームによる同時利用(マルチテナンシー)に対応していますか?
完全対応しています。TS-h1290FX は、複数の独立した NFS 共有、個別のユーザーアカウント、ネットワーク分離を設定可能です。ZFS データセットやスナップショット機能と組み合わせることで、各チームや部門ごとに独立したストレージ領域、バックアップ戦略、アクセス制御を構築できます。これにより、マネージドサービスプロバイダー(MSP)や大規模企業の社内マルチ部門環境に最適です。
クラウド専用の AI トレーニングプラットフォームと比べて、オンプレミスの TS-h1290FX にはどのような利点がありますか?
クラウドプラットフォームの主な課題は、高額なデータ転送手数料(エグレスコスト)、機密性の高いトレーニングデータに関するコンプライアンスリスク、長期的な計算コストの予測困難さです。TS-h1290FX は高速なオンプレミスストレージを提供し、データを施設外に出すことなく、RDMA によりハイエンドクラウドストレージと同等の I/O 性能を実現します。パフォーマンス、データ主権、TCO のバランスを両立する理想的な選択肢です。
TS-h1290FX は、既存の MLOps ワークフロー(例:Kubernetes、Kubeflow)に統合できますか?
はい。TS-h1290FX は標準の NFS v4.1 マウントを提供しており、Kubernetes では PersistentVolume(PV)経由で直接利用できます。RDMA 対応の Kubernetes ノードでは、RDMA Device Plugin と組み合わせることで、NFS over RDMA のフルスピード接続が簡単に実現します。さらに、QuObjects が提供する S3 互換エンドポイントを利用することで、S3 プロトコル対応の MLOps ツールチェーン(MLflow artifact store や DVC remote ストレージなど)にもシームレスに統合可能です。
モデルチェックポイントのバックアップや災害復旧はどのように対応しますか?
TS-h1290FX は多層的な保護戦略を提供します。ZFS スナップショットは毎時自動実行のスケジュール設定が可能で、きめ細かなリストアポイントを確保できます。さらに、別の ZFS NAS と組み合わせた SnapSync により、オフサイト災害復旧用のリアルタイムなブロックレベル同期が可能です。長期アーカイブには Hybrid Backup Sync(HBS 3)でデータをクラウド(AWS S3、Azure Blob、B2 など)へバックアップできます。これら三重の保護は、RTO/RPO 要件に応じて柔軟に構成できます。
TS-h1290FX は S3 オブジェクトストレージプロトコルに対応していますか?
対応しています。QuObjects をインストールすると、TS-h1290FX はオンプレミスの S3 互換オブジェクトストレージエンドポイントとして機能し、Object Lock(WORM)による不変のストレージをサポートします。これにより、AI のハイブリッドワークフローが実現します。トレーニングフェーズでは NFS over RDMA による高速なデータセット読み込み、推論フェーズでは S3 プロトコルを通じてモデルバージョンや分析結果の安全なストレージ・管理が可能です。

GPU 待機時間をゼロに

TS-h1290FX × NFS over RDMA — オンプレミス AI トレーニング向けストレージインフラ

製品ページを見る 営業チームに問い合わせる