NFS over RDMA による AI ストレージのボトルネック解消

問題診断

あなたの GPU はどれだけの時間を
データを待つことに費やしていますか？

AI トレーニングのコストは GPU の稼働時間で決まりますが、ストレージの I/O ボトルネックによって、計算時間の 40% 以上が無駄になっています。

TCP スタックの隠れたコスト

データを読み込むたびに、CPU は TCP パケットの分割やチェックサム計算、カーネルコンテキストスイッチを処理する必要があります。このオーバーヘッドは AI 計算には何の価値も生みませんが、CPU リソースの最大 99% を静かに消費します。

CPU 使用率 ≧ 99%

メモリコピーの 4 重コスト

従来の NFS 経路では、同じデータが GPU に届くまでにカーネルバッファとユーザー空間の間で 4～6 回コピーされます。コピーのたびに遅延が発生し、わずかな遅延でも計算能力が奪われます。

レイテンシ 100～500μs

GPU 遊休の本当のコスト

8×H100 クラスターを例にすると、クラウドコストは 1 時間あたり $24 を超えます。I/O ボトルネックで GPU 利用率が 60% に低下すると、1 時間あたり約 $10 が完全に無駄になります。

GPU 遊休率 > 40%

規模が大きいほど、ボトルネックは深刻化

GPU が 1 台なら何とか管理できますが、4、8、16 台の GPU が同時に同じストレージを読み込むと、従来の TCP NFS の競合による遅延が指数的に悪化します。

マルチノード並行処理の限界点

技術的な解決策

2 つの経路、
まったく異なる結果

NFS over RDMA は従来プロトコルの単なる微調整ではありません。ストレージから GPU メモリまで、データの経路全体を根本から再構築します。

従来の TCP 上の NFS パフォーマンスボトルネック

①

アプリケーションが読み込み要求を発行 AI トレーニングタスクが次のデータバッチを要求

カーネルモードに移行 — コンテキストスイッチ #1 アプリからカーネルへスイッチ。CPU は全レジスタ状態を保存・復元する必要があり、1～10μs かかります。

TCP/IP スタック全処理 TCP の分割、再送、チェックサム計算はすべて CPU で実行され、オフロードできません。

②

NIC がデータを送信 データはカプセル化され、ネットワークに送信されます

カーネルに戻る — コンテキストスイッチ #2 受信側が再びカーネルモードに入り、2 回目のコンテキストスイッチが発生します。

データが 4～6 回コピーされる カーネルバッファ → DMA バッファ → ユーザースペース。各コピーで CPU とメモリ帯域が消費されます。

③

アプリケーションが最終的にデータを取得 待機中、GPU は完全にアイドル状態です。

エンドツーエンドのレイテンシ100～500 μs

CPU 使用率≒ 99%

GPU 待機率> 40%

RDMA（RoCE）経由の NFS TS-h1290FX

✓

アプリケーションがリードリクエストを発行 AI トレーニングタスクが次のデータバッチを要求

✓

カーネルバイパス — HCA への直接通信 アプリケーションが OS カーネルをバイパスし、RDMA NIC（HCA）と直接通信。コンテキストスイッチを排除。

✓

ハードウェアがすべてのプロトコル処理をオフロード HCA がネットワークプロトコル計算をハードウェアレベルで実行し、CPU を AI 計算に完全に解放します。

✓

ゼロコピーによるダイレクトメモリ書き込み データは NAS NVMe ドライブから AI サーバーのアプリケーションメモリへ直接書き込まれ、中間コピーは不要です。

✓

データが準備され、GPU が即座に計算を開始 全てのデータパスでカーネルスイッチ、冗長コピー、プロトコルスタックによる CPU 負荷が排除されています。

エンドツーエンドのレイテンシ1～2 μs

CPU 使用率≒ 15%

GPU 待機率< 5%

仕様項目	QNAP TS-h1290FX	競合 A（SATA NAS）	競合 B（エンタープライズ AFA）
CPU	AMD EPYC™ 7302P 16 コア / 3.3 GHz 最強	Intel Xeon D-1541 8 コア / 2.7 GHz	ハイエンド Intel シリーズ
ストレージインターフェース	NVMe PCIe Gen 4 ×4 U.2 最速	SATA 6 Gb/s	NVMe / SAS / FC
NVMe スロット	12 × 2.5 インチ U.2 PCIe Gen 4	ネイティブ非対応（アダプター必要）非対応	48 × 2.5 インチ NVMe
NFS over RDMA	✓ 完全最適化されたネイティブサポートネイティブ	✗ 非対応非対応	△ 一部対応
内蔵ネットワーキング	2× 25GbE SFP28 + 2× 2.5GbE	2× 10GbE + 4× 1GbE	複数の 25/100GbE（構成による）
PCIe 拡張	4× PCIe Gen 4 Gen 4	2× PCIe Gen 3	高密度マルチスロット
最大メモリ	1 TB DDR4 ECC 3200 MHz	64 GB DDR4 2666 MHz	1,280 GB
ZFS ファイルシステム	✓ QuTS hero ネイティブ統合	✗	ベンダーによる
S3 オブジェクトストレージ	✓ QuObjects（Object Lock 含む）	✗	ベンダーによる
マルチテナント隔離	✓ NFS 共有 + ZFS スナップショットによる隔離	限定的なサポート	対応

適用シナリオ

利用ユーザー
および解決できる課題

🤖

AI／LLM モデル学習

複数の GPU ノードが数百 GB の学習データを並列で読み込みます。従来の NFS では、I/O 待機時間が計算時間を上回ります。RDMA によりデータの転送速度が GPU の要求に追従します。

GPU 利用率向上 40% → >95%

1 エポックの学習時間 30〜60% 短縮

ストレージ CPU 負荷 99% → 15%

🏥

スマートヘルスケア画像 AI

病理スライドや 3D DICOM 画像は数 GB に及ぶこともあります。AI 支援診断が画像読込で停滞すると、臨床効果が大きく損なわれます。低遅延ストレージにより、診断 AI が最大効率で動作します。

画像前処理の高速化マルチパス並列処理でも速度低下なし

レポート生成待ち時間応答時間を大幅短縮

データの整合性 ZFS の自己修復保護

🏭

半導体歩留まりビッグデータ分析

生産ラインは毎秒大量のプロセスデータを生成します。AI モデルは過去のデータをリアルタイムで分析し、歩留まりの鍵となる変数を特定します。I/O の遅延は分析の遅れにつながり、最終的に歩留まり損失となります。

過去データの検索速度ミリ秒 → マイクロ秒アクセス

24 時間 365 日の継続分析オールフラッシュ低消費電力対応

TCO エンタープライズ性能のためのハードウェア最適化

よくある質問

知りたいことはすべて
ここでご確認いただけます

RDMA には専用のネットワークスイッチが必要ですか？既存のデータセンターのアーキテクチャは利用できますか？ ▾

NFS over RDMA（RoCE v2）は標準のイーサネットネットワーク上で動作しますが、損失のないイーサネット環境を実現するために PFC（Priority Flow Control）対応のスイッチが必要です。多くの最新のエンタープライズ向けスイッチ（例：Mellanox/NVIDIA Spectrum、Cisco Nexus、Arista シリーズ）はこの機能をサポートしています。QNAP はネットワーク設計のアドバイスを提供し、ヘルプ既存環境が対応可能かどうか確認できます。

NFS over RDMA と従来の NFS over TCP では、実際のレイテンシー差はどれくらいありますか？ ▾

ラボ環境では、NFS over TCP のエンドツーエンドレイテンシーは通常 100～500 マイクロ秒（μs）で、主なボトルネックはカーネルコンテキストスイッチやメモリコピーに起因します。NFS over RDMA ではレイテンシーが 1～2 μs に圧縮され、約 100 倍の改善となります。AI トレーニングのような小規模バッチのランダムリードが頻繁なユースケースでは、この差が GPU の利用効率向上や学習期間の短縮に直結します。

ZFS のスペース効率はどうですか？AI トレーニングセットに対して圧縮や重複排除は効果的ですか？ ▾

ZFS は、リアルタイムの LZ4/Zstandard 圧縮とブロックレベルの重複排除を標準搭載しています。大量の類似サンプルを含む画像トレーニングセットでは、圧縮率が 1.3〜2 倍に達することもあります。テキストベースのデータセット（トークナイズ済みコーパスなど）では、さらに高い圧縮効果が期待できます。重複排除は、複数のモデルチェックポイントバージョンを保存する際に特に有効で、大幅なストレージ節約につながります。ZFS の圧縮はハードウェア支援により、I/O パフォーマンスへの影響は最小限です。

GPU が 4 基しかありません。TS-h1290FX への投資は価値がありますか？ ▾

H100 や A100 などのハイエンド GPU 4 基の時間単価はすでに高額です。小規模なクラスターでも、ストレージの I/O が原因で GPU の稼働率が 70% を下回る場合、計算コストの 30% 以上が無駄になっていることになります。TS-h1290FX への投資は、GPU の稼働率向上によるパフォーマンス改善によって、通常数か月から 1 年以内に投資回収（ROI）を実現できます。具体的な TCO 試算については、ぜひ営業担当までお問い合わせください。

TS-h1290FX は複数チームによる同時利用（マルチテナンシー）に対応していますか？ ▾

完全対応しています。TS-h1290FX は、複数の独立した NFS 共有、個別のユーザーアカウント、ネットワーク分離を設定可能です。ZFS データセットやスナップショット機能と組み合わせることで、各チームや部門ごとに独立したストレージ領域、バックアップ戦略、アクセス制御を構築できます。これにより、マネージドサービスプロバイダー（MSP）や大規模企業の社内マルチ部門環境に最適です。

クラウド専用の AI トレーニングプラットフォームと比べて、オンプレミスの TS-h1290FX にはどのような利点がありますか？ ▼

クラウドプラットフォームの主な課題は、高額なデータ転送手数料（エグレスコスト）、機密性の高いトレーニングデータに関するコンプライアンスリスク、長期的な計算コストの予測困難さです。TS-h1290FX は高速なオンプレミスストレージを提供し、データを施設外に出すことなく、RDMA によりハイエンドクラウドストレージと同等の I/O 性能を実現します。パフォーマンス、データ主権、TCO のバランスを両立する理想的な選択肢です。

TS-h1290FX は、既存の MLOps ワークフロー（例：Kubernetes、Kubeflow）に統合できますか？ ▼

はい。TS-h1290FX は標準の NFS v4.1 マウントを提供しており、Kubernetes では PersistentVolume（PV）経由で直接利用できます。RDMA 対応の Kubernetes ノードでは、RDMA Device Plugin と組み合わせることで、NFS over RDMA のフルスピード接続が簡単に実現します。さらに、QuObjects が提供する S3 互換エンドポイントを利用することで、S3 プロトコル対応の MLOps ツールチェーン（MLflow artifact store や DVC remote ストレージなど）にもシームレスに統合可能です。

モデルチェックポイントのバックアップや災害復旧はどのように対応しますか？ ▼

TS-h1290FX は多層的な保護戦略を提供します。ZFS スナップショットは毎時自動実行のスケジュール設定が可能で、きめ細かなリストアポイントを確保できます。さらに、別の ZFS NAS と組み合わせた SnapSync により、オフサイト災害復旧用のリアルタイムなブロックレベル同期が可能です。長期アーカイブには Hybrid Backup Sync（HBS 3）でデータをクラウド（AWS S3、Azure Blob、B2 など）へバックアップできます。これら三重の保護は、RTO/RPO 要件に応じて柔軟に構成できます。

TS-h1290FX は S3 オブジェクトストレージプロトコルに対応していますか？ ▾

対応しています。QuObjects をインストールすると、TS-h1290FX はオンプレミスの S3 互換オブジェクトストレージエンドポイントとして機能し、Object Lock（WORM）による不変のストレージをサポートします。これにより、AI のハイブリッドワークフローが実現します。トレーニングフェーズでは NFS over RDMA による高速なデータセット読み込み、推論フェーズでは S3 プロトコルを通じてモデルバージョンや分析結果の安全なストレージ・管理が可能です。

GPU に無駄な待機をさせない
ストレージを待たせない

あなたの GPU はどれだけの時間を
データを待つことに費やしていますか？

TCP スタックの隠れたコスト

メモリコピーの 4 重コスト

GPU 遊休の本当のコスト

規模が大きいほど、ボトルネックは深刻化

2 つの経路、
まったく異なる結果

数値で見る
TS-h1290FX

違いを比較
明確に

利用ユーザー
および解決できる課題

AI／LLM モデル学習

スマートヘルスケア画像 AI

半導体歩留まりビッグデータ分析

知りたいことはすべて
ここでご確認いただけます

GPU 待機時間をゼロに

GPU に無駄な待機をさせないストレージを待たせない

あなたの GPU はどれだけの時間をデータを待つことに費やしていますか？

TCP スタックの隠れたコスト

メモリコピーの 4 重コスト

GPU 遊休の本当のコスト

規模が大きいほど、ボトルネックは深刻化

2 つの経路、まったく異なる結果

数値で見るTS-h1290FX

違いを比較明確に

利用ユーザーおよび解決できる課題

AI／LLM モデル学習

スマートヘルスケア画像 AI

半導体歩留まりビッグデータ分析

知りたいことはすべてここでご確認いただけます

GPU 待機時間をゼロに

GPU に無駄な待機をさせない
ストレージを待たせない

あなたの GPU はどれだけの時間を
データを待つことに費やしていますか？

2 つの経路、
まったく異なる結果

数値で見る
TS-h1290FX

違いを比較
明確に

利用ユーザー
および解決できる課題

知りたいことはすべて
ここでご確認いただけます