Ogni millisecondo di attesa I/O spreca preziosa potenza di calcolo GPU.
Il TS-h1290FX con NFS su RDMA garantisce che le prestazioni Archiviazione siano allineate alla velocità di calcolo.
I costi dell’addestramento AI sono determinati dal tempo GPU, ma oltre il 40% del tempo di calcolo viene sprecato a causa dei colli di bottiglia I/O di Archiviazione.
Per ogni lettura dati, la CPU deve elaborare la frammentazione dei pacchetti TCP, i calcoli del checksum e il Switch del contesto kernel. Questo overhead non genera alcun valore di calcolo AI, ma consuma silenziosamente fino al 99% delle risorse della CPU.
Utilizzo CPU ≥ 99%In un percorso NFS tradizionale, lo stesso dati deve essere copiato 4-6 volte tra il buffer del kernel e lo spazio utente prima di raggiungere la GPU. Ogni copia aggiunge latenza e ogni microsecondo aggiuntivo di latenza riduce la potenza di calcolo.
Latenza 100–500 μsPrendendo come esempio un cluster 8×H100, i costi cloud superano i 24 $ all’ora. Quando l’utilizzo della GPU scende al 60% a causa dei colli di bottiglia I/O, quasi 10 $ all’ora vengono completamente sprecati.
GPU inattiva > 40%Gestibile a fatica con una sola GPU, l’espansione a 4, 8 o 16 GPU che leggono contemporaneamente dallo stesso Archiviazione fa peggiorare esponenzialmente la latenza di contesa TCP NFS tradizionale.
Punto critico della concorrenza multi-nodoNFS over RDMA non è una semplice modifica dei protocolli tradizionali; ricostruisce fondamentalmente l’intero percorso dati da Archiviazione alla memoria GPU.
| Voce specifica | QNAP TS-h1290FX | Competitor A (SATA NAS) | Competitor B (Enterprise AFA) |
|---|---|---|---|
| CPU | AMD EPYC™ 7302P 16C / 3,3 GHz Il più potente | Intel Xeon D-1541 8C / 2,7 GHz | Serie Intel high-end |
| Interfaccia Archiviazione | NVMe PCIe Gen 4 ×4 U.2 Più veloce | SATA 6 Gb/s | NVMe / SAS / FC |
| Slot NVMe | 12 × 2,5" U.2 PCIe Gen 4 | Nessun supporto nativo (richiesto adattatore)Non supportato | 48 × 2,5" NVMe |
| NFS su RDMA | ✓ Supporto nativo completamente ottimizzato Nativo | ✗ Non supportato Non supportato | △ Parzialmente supportato |
| Rete integrato | 2× 25GbE SFP28 + 2× 2,5GbE | 2× 10GbE + 4× 1GbE | Multiple 25/100GbE (dipende dalla configurazione) |
| Espansione PCIe | 4× PCIe Gen 4 Gen 4 | 2× PCIe Gen 3 | Multi-slot ad alta densità |
| Memoria massima | 1 TB DDR4 ECC 3200 MHz | 64 GB DDR4 2666 MHz | 1.280 GB |
| File system ZFS | ✓ Integrazione nativa QuTS hero | ✗ | Dipende dal fornitore |
| S3 Object Archiviazione | ✓ QuObjects (include Object Lock) | ✗ | Dipende dal fornitore |
| Isolamento Multi-Tenant | ✓ Condivisioni NFS + isolamento snapshot ZFS | Supporto limitato | Supportato |
Più nodi GPU leggono in parallelo centinaia di GB di set di addestramento. Con NFS tradizionale, il tempo di attesa I/O supera il tempo di calcolo. RDMA garantisce che la consegna di dati tenga il passo con la richiesta della GPU.
Le diapositive patologiche e le immagini DICOM 3D spesso superano i gigabyte. Se la diagnosi assistita da AI si blocca in lettura, i benefici clinici sono gravemente compromessi. La bassa latenza di Archiviazione consente all’AI diagnostica di operare alla massima efficienza.
Le linee di produzione generano enormi quantità di dati di processo al secondo. I modelli AI devono analizzare in tempo reale i dati storici per trovare le variabili chiave di resa. La latenza I/O si traduce in ritardi di analisi, causando infine perdita di resa.
TS-h1290FX × NFS su RDMA — L'infrastruttura Archiviazione per il training AI on-premises