Elimina i colli di bottiglia dell'IA Archiviazione con NFS su RDMA

Diagnosi del problema

Quanto tempo le tue GPU
trascorrono aspettando dati?

I costi dell’addestramento AI sono determinati dal tempo GPU, ma oltre il 40% del tempo di calcolo viene sprecato a causa dei colli di bottiglia I/O di Archiviazione.

La tassa nascosta dello stack TCP

Per ogni lettura dati, la CPU deve elaborare la frammentazione dei pacchetti TCP, i calcoli del checksum e il Switch del contesto kernel. Questo overhead non genera alcun valore di calcolo AI, ma consuma silenziosamente fino al 99% delle risorse della CPU.

Utilizzo CPU ≥ 99%

Il quadruplo costo della copia della memoria

In un percorso NFS tradizionale, lo stesso dati deve essere copiato 4-6 volte tra il buffer del kernel e lo spazio utente prima di raggiungere la GPU. Ogni copia aggiunge latenza e ogni microsecondo aggiuntivo di latenza riduce la potenza di calcolo.

Latenza 100–500 μs

Il vero costo dell’inattività della GPU

Prendendo come esempio un cluster 8×H100, i costi cloud superano i 24 $ all’ora. Quando l’utilizzo della GPU scende al 60% a causa dei colli di bottiglia I/O, quasi 10 $ all’ora vengono completamente sprecati.

GPU inattiva > 40%

Maggiore è la scala, più profondo è il collo di bottiglia

Gestibile a fatica con una sola GPU, l’espansione a 4, 8 o 16 GPU che leggono contemporaneamente dallo stesso Archiviazione fa peggiorare esponenzialmente la latenza di contesa TCP NFS tradizionale.

Punto critico della concorrenza multi-nodo

Soluzione tecnica

Due percorsi,
Risultati completamente diversi

NFS over RDMA non è una semplice modifica dei protocolli tradizionali; ricostruisce fondamentalmente l’intero percorso dati da Archiviazione alla memoria GPU.

NFS tradizionale su TCP Collo di bottiglia prestazionale

①

L’applicazione invia richiesta di lettura Il task di training AI richiede il prossimo batch di dati

Entra in modalità kernel — Switch di contesto #1 L’app Switch verso il kernel; la CPU deve salvare/ripristinare tutti gli stati dei registri, impiegando 1–10 μs

Elaborazione completa dello stack TCP/IP La frammentazione TCP, la ritrasmissione e i calcoli del checksum sono eseguiti dalla CPU e non possono essere scaricati.

②

La NIC trasmette dati dati viene incapsulato e inviato alla rete

Ritorna al Kernel — Context Switch #2 Il ricevitore entra nuovamente in modalità kernel, attivando un secondo context Switch.

dati copiato ×4–6 volte Buffer kernel → buffer DMA → spazio utente; ogni copia consuma banda CPU e memoria.

③

L’applicazione riceve finalmente dati Le GPU rimangono completamente inattive durante l’attesa.

Latenza end-to-end100 – 500 μs

Utilizzo CPU≈ 99%

Rapporto di attesa GPU> 40%

NFS su RDMA (RoCE) TS-h1290FX

✓

L’applicazione invia richiesta di lettura Il task di training AI richiede il prossimo batch di dati

✓

Kernel Bypass — Comunicazione diretta HCA L’applicazione bypassa il kernel del sistema operativo e comunica direttamente con la NIC RDMA (HCA), eliminando il context Switch.

✓

L’hardware gestisce tutto l’elaborato dei protocolli L’HCA esegue tutti i calcoli di protocollo di rete a livello hardware, liberando completamente la CPU per il calcolo AI.

✓

Scrittura diretta in memoria zero-copy dati viene scritto direttamente dall’NVMe NAS unità alla memoria applicativa del server AI, senza necessità di copie intermedie.

✓

dati pronto, la GPU inizia subito il calcolo L’intero percorso dati è privo di kernel Switch, copie ridondanti e carico CPU dello stack di protocollo.

Latenza end-to-end1 – 2 μs

Utilizzo CPU≈ 15%

Rapporto di attesa GPU< 5%

Confronto specifiche

Scopri la differenza
Chiaramente

Voce specifica	QNAP TS-h1290FX	Competitor A (SATA NAS)	Competitor B (Enterprise AFA)
CPU	AMD EPYC™ 7302P 16C / 3,3 GHz Il più potente	Intel Xeon D-1541 8C / 2,7 GHz	Serie Intel high-end
Interfaccia Archiviazione	NVMe PCIe Gen 4 ×4 U.2 Più veloce	SATA 6 Gb/s	NVMe / SAS / FC
Slot NVMe	12 × 2,5" U.2 PCIe Gen 4	Nessun supporto nativo (richiesto adattatore)Non supportato	48 × 2,5" NVMe
NFS su RDMA	✓ Supporto nativo completamente ottimizzato Nativo	✗ Non supportato Non supportato	△ Parzialmente supportato
Rete integrato	2× 25GbE SFP28 + 2× 2,5GbE	2× 10GbE + 4× 1GbE	Multiple 25/100GbE (dipende dalla configurazione)
Espansione PCIe	4× PCIe Gen 4 Gen 4	2× PCIe Gen 3	Multi-slot ad alta densità
Memoria massima	1 TB DDR4 ECC 3200 MHz	64 GB DDR4 2666 MHz	1.280 GB
File system ZFS	✓ Integrazione nativa QuTS hero	✗	Dipende dal fornitore
S3 Object Archiviazione	✓ QuObjects (include Object Lock)	✗	Dipende dal fornitore
Isolamento Multi-Tenant	✓ Condivisioni NFS + isolamento snapshot ZFS	Supporto limitato	Supportato

Scenari applicabili

Chi lo utilizza,
e i problemi che risolve

🤖

Addestramento Modelli AI / LLM

Più nodi GPU leggono in parallelo centinaia di GB di set di addestramento. Con NFS tradizionale, il tempo di attesa I/O supera il tempo di calcolo. RDMA garantisce che la consegna di dati tenga il passo con la richiesta della GPU.

Aumento utilizzo GPU 40% → >95%

Tempo di addestramento per epoca singola Ridotto del 30–60%

Carico CPU Archiviazione 99% → 15%

🏥

AI Imaging per la Sanità Intelligente

Le diapositive patologiche e le immagini DICOM 3D spesso superano i gigabyte. Se la diagnosi assistita da AI si blocca in lettura, i benefici clinici sono gravemente compromessi. La bassa latenza di Archiviazione consente all’AI diagnostica di operare alla massima efficienza.

Accelerazione pre-elaborazione immagini Multi-path parallelo senza rallentamenti

Attesa generazione report Tempo di risposta notevolmente ridotto

Integrità dati Protezione auto-riparante ZFS

🏭

Analisi Big dati per la resa dei semiconduttori

Le linee di produzione generano enormi quantità di dati di processo al secondo. I modelli AI devono analizzare in tempo reale i dati storici per trovare le variabili chiave di resa. La latenza I/O si traduce in ritardi di analisi, causando infine perdita di resa.

Velocità di recupero dati storici Accesso da millisecondi a microsecondi

Analisi continua 24/7 Supporto all-flash a basso consumo

TCO Hardware ottimizzato per prestazioni enterprise

FAQ

Tutto quello che potresti voler chiedere,
proprio qui

RDMA richiede una rete Switch specializzata? Posso utilizzare la mia attuale architettura del data dati center? ▾

NFS su RDMA (RoCE v2) funziona su reti Ethernet standard ma richiede Switch che supportino PFC (Priority Flow Control) per abilitare un ambiente Ethernet lossless. La maggior parte dei Switch di livello enterprise moderni (ad es. Mellanox/NVIDIA Spectrum, Cisco Nexus, serie Arista) supporta questa funzione. QNAP può fornire consulenza sulla pianificazione della rete per Guida confermare se il tuo ambiente attuale è compatibile.

Quanto è grande il divario reale di latenza tra NFS su RDMA e il tradizionale NFS su TCP? ▾

In condizioni di laboratorio, la latenza end-to-end per NFS su TCP varia tipicamente da 100 a 500 microsecondi (μs), con i principali colli di bottiglia dovuti a Switch di contesto kernel e copia della memoria. NFS su RDMA può ridurre la latenza a 1–2 μs—un miglioramento di circa 100 volte. Per scenari di training AI con frequenti letture casuali di piccoli batch, questo divario si traduce direttamente in un migliore utilizzo della GPU e cicli di training complessivi più brevi.

Qual è l'efficienza dello spazio di ZFS? Compressione e deduplica sono efficaci per i set di training AI? ▾

ZFS offre compressione integrata in tempo reale LZ4/Zstandard e deduplicazione a livello di blocco. Per i set di dati di immagini che contengono enormi quantità di campioni simili, il rapporto di compressione spesso raggiunge 1,3–2×; per i dataset basati su testo (come i corpora tokenizzati), i benefici della compressione sono ancora più significativi. La deduplicazione è particolarmente adatta per archiviare più versioni di checkpoint di modelli, consentendo potenzialmente di risparmiare enormi quantità di spazio. In ZFS, la compressione è assistita dall'hardware, il che significa che ha un impatto minimo sulle prestazioni di I/O.

Abbiamo solo 4 GPU. Vale la pena investire nel TS-h1290FX? ▾

Il costo orario di calcolo per 4 GPU di fascia alta (come H100/A100) è già considerevole. Anche in cluster di piccole dimensioni, se l'I/O di Archiviazione fa scendere l'utilizzo della GPU sotto il 70%, significa che oltre il 30% della spesa di calcolo viene sprecata. L'investimento in un TS-h1290FX di solito raggiunge il ROI in pochi mesi fino a un anno, grazie esclusivamente ai guadagni di prestazioni derivanti dall'aumento dell'utilizzo della GPU. Per un calcolo TCO specifico, non esitare a contattare il nostro team commerciale.

Il TS-h1290FX supporta l'utilizzo simultaneo da parte di più team (multi-tenancy)? ▾

Pienamente supportato. Il TS-h1290FX può essere configurato con più condivisioni NFS indipendenti, account utente individuali e isolamento di rete. Combinato con i meccanismi ZFS Dataset e Snapshot, è possibile stabilire Spazio di archiviazione indipendenti, strategie di backup e controlli di accesso per ogni team o reparto, rendendolo ideale per Managed Service Provider (MSP) o scenari interni multi-reparto di grandi aziende.

Rispetto alle piattaforme di training AI puramente cloud, quali sono i vantaggi di un TS-h1290FX on-premises? ▾

Le principali sfide delle piattaforme cloud includono costi di trasferimento dati esorbitanti (egress cost), rischi di conformità normativa per dati sensibili e costi di calcolo a lungo termine imprevedibili. Il TS-h1290FX offre Archiviazione on-premises ad alta velocità, garantendo che i dati non lascino mai la tua struttura, mentre utilizza RDMA per eguagliare le prestazioni I/O dei Archiviazione cloud di fascia alta. Rappresenta il perfetto equilibrio tra prestazioni, sovranità dei dati e TCO.

Il TS-h1290FX può essere integrato nei flussi di lavoro MLOps esistenti (ad es. Kubernetes, Kubeflow)? ▾

Sì. Il TS-h1290FX fornisce il montaggio standard NFS v4.1, che Kubernetes può utilizzare direttamente tramite PersistentVolume (PV). Sui nodi Kubernetes che supportano RDMA, l'abbinamento con il RDMA Device Plugin consente facilmente connessioni NFS over RDMA a piena velocità. Inoltre, tramite gli endpoint compatibili S3 forniti da QuObjects, può essere integrato senza problemi nelle toolchain MLOps che utilizzano il protocollo S3 (come MLflow artifact store o DVC remote Archiviazione).

Come gestiamo il backup e il disaster recovery per i checkpoint dei modelli? ▾

Il TS-h1290FX offre una strategia di protezione multilivello: gli snapshot ZFS possono essere pianificati per essere eseguiti automaticamente ogni ora, fornendo punti di ripristino granulari; abbinato a un altro NAS ZFS, SnapSync consente la sincronizzazione in tempo reale a livello di blocco per il disaster recovery offsite; per l'archiviazione a lungo termine, Hybrid Backup Sync (HBS 3) supporta il backup dei dati sul cloud (AWS S3, Azure Blob, B2, ecc.). Questa protezione a tre livelli può essere configurata in modo flessibile in base ai requisiti RTO/RPO.

Il TS-h1290FX supporta il protocollo S3 object Archiviazione? ▾

Supportato. Dopo l'installazione di QuObjects, il TS-h1290FX funge da endpoint Archiviazione on-premises compatibile S3, supportando Object Lock (WORM) Archiviazione immutabile. Questo consente flussi di lavoro ibridi nell'AI: lettura ad alta velocità dei dataset durante la fase di training tramite NFS su RDMA, e Archiviazione sicura e gestione delle versioni dei modelli e dei risultati delle analisi durante la fase di inferenza tramite il protocollo S3.

La tua GPU non dovrebbe
aspettare il tuo Archiviazione

Quanto tempo le tue GPU
trascorrono aspettando dati?

La tassa nascosta dello stack TCP

Il quadruplo costo della copia della memoria

Il vero costo dell’inattività della GPU

Maggiore è la scala, più profondo è il collo di bottiglia

Due percorsi,
Risultati completamente diversi

I numeri dietro
il TS-h1290FX

Scopri la differenza
Chiaramente

Chi lo utilizza,
e i problemi che risolve

Addestramento Modelli AI / LLM

AI Imaging per la Sanità Intelligente

Analisi Big dati per la resa dei semiconduttori

Tutto quello che potresti voler chiedere,
proprio qui

Elimina i tempi di attesa della GPU

La tua GPU non dovrebbeaspettare il tuo Archiviazione

Quanto tempo le tue GPUtrascorrono aspettando dati?

La tassa nascosta dello stack TCP

Il quadruplo costo della copia della memoria

Il vero costo dell’inattività della GPU

Maggiore è la scala, più profondo è il collo di bottiglia

Due percorsi,Risultati completamente diversi

I numeri dietroil TS-h1290FX

Scopri la differenzaChiaramente

Chi lo utilizza,e i problemi che risolve

Addestramento Modelli AI / LLM

AI Imaging per la Sanità Intelligente

Analisi Big dati per la resa dei semiconduttori

Tutto quello che potresti voler chiedere,proprio qui

Elimina i tempi di attesa della GPU

La tua GPU non dovrebbe
aspettare il tuo Archiviazione

Quanto tempo le tue GPU
trascorrono aspettando dati?

Due percorsi,
Risultati completamente diversi

I numeri dietro
il TS-h1290FX

Scopri la differenza
Chiaramente

Chi lo utilizza,
e i problemi che risolve

Tutto quello che potresti voler chiedere,
proprio qui