Éliminez les goulets d'étranglement de l'IA Stockage grâce au NFS sur RDMA

Diagnostic du problème

Combien de temps vos GPU
passent-ils à attendre données ?

Les coûts de formation IA sont déterminés par le temps GPU, mais plus de 40 % du temps de calcul est gaspillé à cause des goulets d'étranglement d'E/S Stockage.

La taxe cachée de la pile TCP

Pour chaque lecture données, le CPU doit traiter la fragmentation des paquets TCP, les calculs de somme de contrôle et le Switch du contexte kernel. Cette surcharge ne génère aucune valeur de calcul IA mais consomme silencieusement jusqu'à 99 % des ressources CPU.

Utilisation CPU ≥ 99 %

Le coût quadruple de la copie mémoire

Dans un chemin NFS traditionnel, le même données doit être copié 4 à 6 fois entre le tampon kernel et l'espace utilisateur avant d'atteindre le GPU. Chaque copie ajoute de la latence, et chaque microseconde supplémentaire de latence réduit la puissance de calcul.

Latence 100–500 μs

Le vrai coût de l'inactivité GPU

En prenant un cluster 8×H100 comme exemple, les coûts cloud dépassent 24 $ par heure. Lorsque l'utilisation GPU tombe à 60 % à cause des goulets d'étranglement E/S, près de 10 $ par heure sont complètement gaspillés.

GPU inactif > 40 %

Plus l'échelle est grande, plus le goulet d'étranglement est profond

À peine gérable avec un seul GPU, l'expansion vers 4, 8 ou 16 GPU lisant simultanément depuis le même Stockage provoque une latence de contention TCP NFS traditionnelle qui s'aggrave exponentiellement.

Point de rupture de la concurrence multi-nœuds

Solution technique

Deux chemins,
Des résultats complètement différents

NFS sur RDMA n'est pas un simple ajustement des protocoles traditionnels ; il reconstruit fondamentalement tout le chemin données de Stockage à la mémoire GPU.

NFS traditionnel sur TCP Goulet d'étranglement de performance

①

L'application émet une demande de lecture La tâche d'entraînement IA demande le prochain lot de données

Entre en mode kernel — Switch de contexte #1 L'application Switch vers le kernel ; le CPU doit sauvegarder/restaurer tous les états des registres, prenant 1–10 μs

Traitement complet de la pile TCP/IP La fragmentation TCP, la retransmission et les calculs de somme de contrôle sont exécutés par le CPU et ne peuvent pas être déchargés.

②

Le NIC transmet données données est encapsulé et envoyé sur le réseau

Retour au Kernel — Contexte Switch #2 Le récepteur repasse en mode kernel, déclenchant un second contexte Switch.

données copié ×4–6 fois Tampon kernel → tampon DMA → espace utilisateur ; chaque copie consomme de la bande passante CPU et mémoire.

③

L’application reçoit enfin données Les GPU restent complètement inactifs pendant l’attente.

Latence de bout en bout100 – 500 μs

Utilisation CPU≈ 99%

Taux d’attente GPU> 40%

NFS sur RDMA (RoCE) TS-h1290FX

✓

L’application émet une requête de lecture La tâche d’entraînement IA demande le lot suivant de données

✓

Bypass du kernel — Communication HCA directe L’application contourne le kernel de l’OS et communique directement avec la carte RDMA (HCA), éliminant le contexte Switch.

✓

Le matériel prend en charge tout le traitement des protocoles Le HCA effectue tous les calculs de protocole réseau au niveau matériel, libérant complètement le CPU pour le calcul IA.

✓

Écriture mémoire directe zero-copy données est écrit directement depuis le NAS NVMe lecteurs vers la mémoire applicative du serveur IA, sans copie intermédiaire.

✓

données prêt, le GPU commence instantanément à calculer L’ensemble du chemin données est exempt de Switch kernel, de copies redondantes et de surcharge CPU de la pile protocolaire.

Latence de bout en bout1 – 2 μs

Utilisation CPU≈ 15%

Taux d’attente GPU< 5%

Élément de spécification	QNAP TS-h1290FX	Concurrent A (SATA NAS)	Concurrent B (AFA entreprise)
CPU	AMD EPYC™ 7302P 16 cœurs / 3,3 GHz Le plus puissant	Intel Xeon D-1541 8 cœurs / 2,7 GHz	Série Intel haut de gamme
Interface Stockage	NVMe PCIe Gen 4 ×4 U.2 Le plus rapide	SATA 6 Gbit/s	NVMe / SAS / FC
Emplacements NVMe	12 × 2,5" U.2 PCIe Gen 4	Pas de prise en charge native (adaptateur requis)Non pris en charge	48 × 2,5" NVMe
NFS sur RDMA	✓ Prise en charge native entièrement optimisée Natifs	✗ Non pris en charge Non pris en charge	△ Prise en charge partielle
Réseau intégré	2 × 25GbE SFP28 + 2 × 2,5GbE	2 × 10GbE + 4 × 1GbE	Multiples 25/100GbE (selon la configuration)
Extension PCIe	4 × PCIe Gen 4 Gen 4	2 × PCIe Gen 3	Haute densité multi-emplacements
Mémoire max	1 To DDR4 ECC 3200 MHz	64 Go DDR4 2666 MHz	1 280 Go
Système de fichiers ZFS	✓ intégration native QuTS hero	✗	Dépend du fournisseur
S3 Objet Stockage	✓ QuObjects (inclut Object Lock)	✗	Dépend du fournisseur
Isolation multi-locataire	✓ Partages NFS + isolation des snapshots ZFS	Support limité	Pris en charge

Scénarios applicables

Qui l’utilise,
et les problèmes que cela résout

🤖

Entraînement de modèles IA / LLM

Plusieurs nœuds GPU lisent des centaines de Go de jeux d’entraînement en parallèle. Avec le NFS traditionnel, le temps d’attente E/S dépasse le temps de calcul. RDMA garantit que la livraison données suit la demande GPU.

Augmentation de l’utilisation GPU 40 % → >95 %

Temps d’entraînement par époque Réduit de 30 à 60 %

Charge CPU Stockage 99 % → 15 %

🏥

Imagerie médicale intelligente IA

Les lames de pathologie et les images DICOM 3D atteignent souvent plusieurs gigaoctets. Si le diagnostic assisté par IA est ralenti à la lecture, les bénéfices cliniques sont fortement compromis. Une faible latence Stockage permet à l’IA de diagnostic de fonctionner à pleine efficacité.

Accélération du prétraitement d’images Multipath parallèle sans ralentissement

Attente de génération de rapport Temps de réponse considérablement réduit

Intégrité données Protection auto-réparatrice ZFS

🏭

Analyse big données du rendement des semi-conducteurs

Les lignes de production génèrent d’énormes volumes de données de processus par seconde. Les modèles IA doivent analyser les données historiques en temps réel pour trouver les variables clés du rendement. La latence E/S entraîne des retards d’analyse, ce qui conduit à une perte de rendement.

Vitesse de récupération des données historiques Accès milliseconde → microseconde

Analyse continue 24h/24 Support faible consommation tout-flash

TCO Matériel rationalisé pour la performance entreprise

Foire aux questions

Toutes les questions que vous pourriez vous poser,
Ici même

Le RDMA nécessite-t-il un réseau Switch spécialisé ? Puis-je utiliser mon architecture de centre données existante ? ▾

NFS sur RDMA (RoCE v2) fonctionne sur des réseaux Ethernet standards mais nécessite des Switch prenant en charge le PFC (Priority Flow Control) pour garantir un environnement Ethernet sans perte. La plupart des Switch modernes de niveau entreprise (par exemple, Mellanox/NVIDIA Spectrum, Cisco Nexus, séries Arista) prennent en charge cette fonctionnalité. QNAP peut fournir des conseils de planification réseau pour Aide confirmer la compatibilité de votre environnement existant.

Quel est l'écart réel de latence entre NFS sur RDMA et NFS traditionnel sur TCP ? ▾

Dans des conditions de laboratoire, la latence de bout en bout pour NFS sur TCP varie généralement de 100 à 500 microsecondes (μs), les principaux goulets d'étranglement provenant du contexte noyau Switch et de la copie mémoire. NFS sur RDMA peut réduire la latence à 1–2 μs—soit une amélioration d'environ 100 fois. Pour les scénarios d'entraînement IA avec de fréquentes lectures aléatoires en petits lots, cet écart se traduit directement par une meilleure utilisation du GPU et des cycles d'entraînement globalement plus courts.

Quelle est l'efficacité de l'espace avec ZFS ? La compression et la déduplication sont-elles efficaces pour les ensembles d'entraînement IA ? ▾

ZFS intègre en natif la compression en temps réel LZ4/Zstandard et la déduplication au niveau des blocs. Pour les ensembles d’images d’entraînement contenant d’énormes quantités d’échantillons similaires, le taux de compression atteint souvent 1,3 à 2× ; pour les ensembles de données textuelles (comme les corpus tokenisés), les gains de compression sont encore plus importants. La déduplication est particulièrement adaptée au stockage de plusieurs versions de points de contrôle de modèles, permettant d’économiser potentiellement d’énormes quantités d’espace. Dans ZFS, la compression est assistée par le matériel, ce qui signifie qu’elle a un impact minimal sur les performances d’E/S.

Nous n’avons que 4 GPU. Le TS-h1290FX vaut-il l’investissement ? ▾

Le coût horaire de calcul pour 4 GPU haut de gamme (comme H100/A100) est déjà conséquent. Même dans de petits clusters, si l’E/S Stockage fait chuter l’utilisation du GPU en dessous de 70 %, cela signifie que plus de 30 % de vos dépenses informatiques sont gaspillées. L’investissement dans un TS-h1290FX permet généralement d’atteindre le retour sur investissement en quelques mois à un an, uniquement grâce aux gains de performance dus à une meilleure utilisation du GPU. Pour un calcul TCO spécifique, n’hésitez pas à contacter notre équipe commerciale.

Le TS-h1290FX prend-il en charge l’utilisation simultanée par plusieurs équipes (multi-location) ? ▾

Pleinement pris en charge. Le TS-h1290FX peut être configuré avec plusieurs partages NFS indépendants, des comptes utilisateurs individuels et une isolation réseau. Associé aux mécanismes de Dataset et de Snapshot ZFS, vous pouvez établir des Espace de stockage, des stratégies de sauvegarde et des contrôles d’accès indépendants pour chaque équipe ou service, ce qui le rend idéal pour les fournisseurs de services managés (MSP) ou les scénarios multi-départements internes de grandes entreprises.

Par rapport aux plateformes d’entraînement IA purement cloud, quels sont les avantages d’un TS-h1290FX sur site ? ▾

Les principaux défis des plateformes cloud incluent des frais de transfert de données exorbitants (coûts de sortie), des risques de conformité réglementaire pour les données sensibles à l’entraînement, et des coûts informatiques à long terme imprévisibles. Le TS-h1290FX offre un Stockage local haute vitesse, garantissant que les données ne quittent jamais vos locaux tout en utilisant RDMA pour égaler les performances d’E/S des Stockage cloud haut de gamme. Il constitue l’équilibre parfait entre performance, souveraineté des données et TCO.

Le TS-h1290FX peut-il être intégré dans des workflows MLOps existants (par exemple, Kubernetes, Kubeflow) ? ▾

Oui. Le TS-h1290FX fournit un montage NFS v4.1 standard, que Kubernetes peut utiliser directement via PersistentVolume (PV). Sur les nœuds Kubernetes prenant en charge RDMA, l’association avec le RDMA Device Plugin permet facilement des connexions NFS sur RDMA à pleine vitesse. De plus, grâce aux points de terminaison compatibles S3 fournis par QuObjects, il peut être intégré de façon transparente dans les chaînes d’outils MLOps utilisant le protocole S3 (comme le magasin d’artefacts MLflow ou le Stockage distant DVC).

Comment gérons-nous la sauvegarde et la reprise après sinistre pour les checkpoints de modèles ? ▾

Le TS-h1290FX propose une stratégie de protection multi-niveaux : les snapshots ZFS peuvent être programmés pour s’exécuter automatiquement toutes les heures, offrant des points de restauration granulaires ; associé à un autre NAS ZFS, SnapSync permet une synchronisation en temps réel au niveau bloc pour la reprise après sinistre hors site ; pour l’archivage à long terme, Hybrid Backup Sync (HBS 3) prend en charge la sauvegarde des données vers le cloud (AWS S3, Azure Blob, B2, etc.). Cette protection triple couche peut être configurée de manière flexible selon vos exigences RTO/RPO.

Le TS-h1290FX prend-il en charge le protocole S3 objet Stockage ? ▾

Pris en charge. Après l’installation de QuObjects, le TS-h1290FX agit comme un point de terminaison Stockage sur site compatible S3, prenant en charge le verrouillage d’objet (WORM) Stockage immuable. Cela permet des flux de travail hybrides en IA : lecture de jeux de données à haute vitesse pendant la phase d’entraînement via NFS sur RDMA, et Stockage sécurisé ainsi que la gestion des versions de modèles et des résultats d’analyse pendant la phase d’inférence via le protocole S3.

Votre GPU ne devrait pas avoir à
Attendre votre Stockage

Combien de temps vos GPU
passent-ils à attendre données ?

La taxe cachée de la pile TCP

Le coût quadruple de la copie mémoire

Le vrai coût de l'inactivité GPU

Plus l'échelle est grande, plus le goulet d'étranglement est profond

Deux chemins,
Des résultats complètement différents

Les chiffres derrière
le TS-h1290FX

Voyez la différence
Clair

Qui l’utilise,
et les problèmes que cela résout

Entraînement de modèles IA / LLM

Imagerie médicale intelligente IA

Analyse big données du rendement des semi-conducteurs

Toutes les questions que vous pourriez vous poser,
Ici même

Éliminez les temps d’attente GPU

Votre GPU ne devrait pas avoir àAttendre votre Stockage

Combien de temps vos GPUpassent-ils à attendre données ?

La taxe cachée de la pile TCP

Le coût quadruple de la copie mémoire

Le vrai coût de l'inactivité GPU

Plus l'échelle est grande, plus le goulet d'étranglement est profond

Deux chemins,Des résultats complètement différents

Les chiffres derrièrele TS-h1290FX

Voyez la différenceClair

Qui l’utilise,et les problèmes que cela résout

Entraînement de modèles IA / LLM

Imagerie médicale intelligente IA

Analyse big données du rendement des semi-conducteurs

Toutes les questions que vous pourriez vous poser,Ici même

Éliminez les temps d’attente GPU

Votre GPU ne devrait pas avoir à
Attendre votre Stockage

Combien de temps vos GPU
passent-ils à attendre données ?

Deux chemins,
Des résultats complètement différents

Les chiffres derrière
le TS-h1290FX

Voyez la différence
Clair

Qui l’utilise,
et les problèmes que cela résout

Toutes les questions que vous pourriez vous poser,
Ici même