NFS över RDMA · QuTS hero · TS-h1290FX

Din GPU ska inte behöva
Vänta på din Lagring

Varje millisekund av I/O-väntetid slösar bort dyrbar GPU-beräkningskraft.
TS-h1290FX med NFS över RDMA säkerställer att Lagring-prestandan håller jämna steg med beräkningshastigheten.

100× Fördröjnings-
reduktion
85% CPU-belastnings-
reduktion
100Gbps Nära linjehastighets-
genomströmning
<5% GPU-väntetid
Rulla

Hur mycket tid spenderar dina GPU:er
på att vänta på data?

Kostnaden för AI-träning avgörs av GPU-tid, men över 40 % av beräkningstiden slösas bort på grund av Lagring-I/O-flaskhalsar.

01

Den dolda kostnaden för TCP-stacken

Vid varje data-läsning måste CPU:n hantera TCP-paketfragmentering, checksummeberäkningar och kernel context Växel. Denna overhead ger inget AI-beräkningsvärde men förbrukar tyst upp till 99 % av CPU-resurserna.

CPU-användning ≥ 99 %
02

Den fyrdubbla kostnaden för minneskopiering

I en traditionell NFS-sökväg måste samma data kopieras 4–6 gånger mellan kernelbuffert och användarutrymme innan den når GPU:n. Varje kopiering ökar latensen, och varje extra mikrosekund latens minskar beräkningskraften.

Latens 100–500 μs
03

Den verkliga kostnaden för GPU-viloläge

Om vi tar ett 8×H100-kluster som exempel överstiger molnkostnaden 24 USD per timme. När GPU-användningen sjunker till 60 % på grund av I/O-flaskhalsar slösas nästan 10 USD per timme bort helt och hållet.

GPU-vila > 40 %
04

Ju större skala, desto djupare flaskhals

Det är knappt hanterbart med en enda GPU, men om man utökar till 4, 8 eller 16 GPU:er som samtidigt läser från samma Lagring förvärras den traditionella TCP NFS-kontentionslatensen exponentiellt.

Multi-Node Concurrency Breaking Point

Två vägar,
Helt olika resultat

NFS över RDMA är ingen liten justering av traditionella protokoll; det omstrukturerar i grunden hela data-vägen från Lagring till GPU-minne.

Traditionell NFS över TCP Prestandaflaskhals
Applikationen skickar läsbegäran AI-träningsuppgiften begär nästa batch av data
Går in i kernel-läge — Context Växel #1 App Växel till kernel; CPU:n måste spara/återställa alla registertillstånd, vilket tar 1–10 μs
Fullständig TCP/IP-stackbehandling TCP-fragmentering, omöverföring och checksummeberäkningar utförs av CPU:n och kan inte avlastas.
NIC överför data data kapslas in och skickas till nätverket
Återgår till kernel — Kontext Växel #2 Mottagaren går in i kernel-läge igen, vilket utlöser en andra kontext Växel.
data kopieras ×4–6 gånger Kernelbuffert → DMA-buffert → användarutrymme; varje kopiering förbrukar CPU- och minnesbandbredd.
Applikationen får slutligen data GPU:er förblir helt inaktiva under väntan.
End-to-end-latens100 – 500 μs
CPU-användning≈ 99%
GPU-väntetid> 40%
NFS över RDMA (RoCE) TS-h1290FX
Applikationen skickar läsbegäran AI-träningsuppgift begär nästa batch av data
Kernelbypass — Direkt HCA-kommunikation Applikationen kringgår OS-kärnan och kommunicerar direkt med RDMA-NIC (HCA), vilket eliminerar kontext Växel.
Hårdvaran avlastar all protokollhantering HCA:n utför alla nätverksprotokollberäkningar på hårdvarunivå, vilket frigör CPU:n helt för AI-beräkning.
Nollkopiering direktminnesskrivning data skrivs direkt från NAS NVMe enheter till AI-serverns applikationsminne, utan behov av mellanliggande kopiering.
data klar, GPU:n börjar räkna omedelbart Hela data-vägen är fri från kernel Växel, överflödiga kopior och CPU-belastning från protokollstacken.
End-to-end-latens1 – 2 μs
CPU-användning≈ 15%
GPU-väntetid< 5%

Siffrorna bakom
TS-h1290FX

Slumpmässig läsning 816K
4K slumpmässig läsning IOPS
Eliminerar tränings-data I/O-väntan
Maxkapacitet 737 TB
12 × 61,44 TB NVMe U.2
PCIe Gen 4 all-flash-matris
Maximalt minne 1 TB
DDR4 ECC RDIMM 3200 MHz
8 fack × 128 GB
CPU 16K
AMD EPYC™ 7302P
Upp till 3,3 GHz Boost
Inbyggd Nätverk 2×25G
SFP28 + 2×2.5GbE
4× PCIe Gen 4-expansionsfack
Utökningsbar till 100G
Installera ett QNAP QXG-100G2SF
för fullhastighets-RDMA-anslutningar
ZFS-ögonblicksbilder
Nästan obegränsade återställningspunkter för ögonblicksbilder
i kombination med WORM-immutabilitet
Energieffektivitet 24/7
All-flash-design med låg strömförbrukning
Stöder kontinuerlig analys av produktionslinje

Se skillnaden
Tydligt

Specifikationspost QNAP TS-h1290FX Konkurrent A (SATA NAS) Konkurrent B (Enterprise AFA)
CPU AMD EPYC™ 7302P 16K / 3,3 GHz Starkast Intel Xeon D-1541 8K / 2,7 GHz High-end Intel-serie
Lagring-gränssnitt NVMe PCIe Gen 4 ×4 U.2 Snabbast SATA 6 Gb/s NVMe / SAS / FC
NVMe-fack 12 × 2,5" U.2 PCIe Gen 4 Inget inbyggt stöd (adapter krävs)Stöds ej 48 × 2,5" NVMe
NFS över RDMA ✓ Fullt optimerat inbyggt stöd Inbyggt ✗ Stöds ej Stöds ej △ Delvist stöd
Inbyggd Nätverk 2× 25GbE SFP28 + 2× 2.5GbE 2× 10GbE + 4× 1GbE Flera 25/100GbE (beroende på konfiguration)
PCIe-expansion 4× PCIe Gen 4 Gen 4 2× PCIe Gen 3 Högdensitets multi-fack
Maximalt minne 1 TB DDR4 ECC 3200 MHz 64 GB DDR4 2666 MHz 1 280 GB
ZFS-filsystem ✓ QuTS hero inbyggd integration Beroende på leverantör
S3-objekt Lagring ✓ QuObjects (inkluderar Object Lock) Beroende på leverantör
Multi-tenant-isolering ✓ NFS-delningar + ZFS-ögonblicksbild-isolering Begränsat stöd Stöds

Vem använder det,
och vilka problem det löser

🤖

AI / LLM-modellträning

Flera GPU-noder läser hundratals GB träningsdata parallellt. Med traditionell NFS överstiger I/O-väntetiden beräkningstiden. RDMA säkerställer att data-leveransen håller jämna steg med GPU-behovet.

GPU-utnyttjandeökning 40 % → >95 %
Tid för träning av enstaka epok Minskat med 30–60 %
Lagring CPU-belastning 99 % → 15 %
🏥

Smart AI för medicinsk bildbehandling

Patologisnitt och 3D DICOM-bilder är ofta flera gigabyte stora. Om AI-assisterad diagnostik fastnar vid inläsning försämras de kliniska fördelarna kraftigt. Låg latens för Lagring gör att diagnostisk AI kan arbeta med högsta effektivitet.

Accelererad bildförbehandling Multipla parallella vägar utan fördröjning
Väntetid för rapportgenerering Betydligt minskad svarstid
data-integritet ZFS självläkande skydd
🏭

Storskalig data-analys av halvledarutbyte

Produktionslinjer genererar enorma mängder process-data per sekund. AI-modeller måste analysera historisk data i realtid för att hitta viktiga utbytesvariabler. I/O-latens leder till analysfördröjningar och i slutändan utbytesförlust.

Hämtningshastighet för historisk data Millisekund → mikrosekundåtkomst
Kontinuerlig analys dygnet runt Stöd för all-flash med låg strömförbrukning
TCO Optimerad hårdvara för företagsklassad prestanda

Allt du kan tänkas vilja fråga,
hittar du här

Kräver RDMA specialiserade nätverks-Växel? Kan jag använda min befintliga data-centerarkitektur?
NFS över RDMA (RoCE v2) fungerar på vanliga Ethernet-nätverk men kräver Växel som stöder PFC (Priority Flow Control) för att möjliggöra en förlustfri Ethernet-miljö. De flesta moderna företagsklassade Växel (t.ex. Mellanox/NVIDIA Spectrum, Cisco Nexus, Arista-serien) stöder denna funktion. QNAP kan ge råd om nätverksplanering för att Hjälp bekräfta om din nuvarande miljö är kompatibel.
Hur stor är den faktiska latensskillnaden mellan NFS över RDMA och traditionell NFS över TCP?
Under laboratorieförhållanden ligger end-to-end-latensen för NFS över TCP vanligtvis mellan 100–500 mikrosekunder (μs), där flaskhalsarna främst beror på kernel context-Växel och minneskopiering. NFS över RDMA kan minska latensen till 1–2 μs—en förbättring på cirka 100 gånger. För AI-träningsscenarier med frekventa små batchvisa slumpmässiga läsningar översätts denna skillnad direkt till förbättrad GPU-användning och totalt sett kortare träningscykler.
Hur är utrymmeseffektiviteten för ZFS? Är komprimering och deduplicering effektiva för AI-träningsuppsättningar?
ZFS har inbyggd realtidskomprimering med LZ4/Zstandard och blocknivå-deduplicering. För bildträningsuppsättningar med stora mängder liknande prover når komprimeringsgraden ofta 1,3–2×; för textbaserade dataset (som tokeniserade korpusar) är komprimeringsvinsterna ännu större. Deduplicering är särskilt lämpligt för att lagra flera versioner av modellkontrollpunkter och kan potentiellt spara enorma mängder utrymme. I ZFS är komprimeringen hårdvaruassisterad, vilket innebär att den har minimal påverkan på I/O-prestanda.
Vi har bara 4 GPU:er. Är TS-h1290FX värd investeringen?
Den timvisa beräkningskostnaden för 4 avancerade GPU:er (som H100/A100) är redan betydande. Även i små kluster, om Lagring I/O gör att GPU-användningen sjunker under 70 %, innebär det att över 30 % av dina beräkningskostnader går till spillo. Investeringen i en TS-h1290FX ger vanligtvis ROI inom några månader till ett år, helt tack vare prestandavinster från ökad GPU-användning. För en specifik TCO-beräkning, kontakta gärna vårt säljteam.
Stöder TS-h1290FX samtidig användning av flera team (multi-tenancy)?
Fullt stöd. TS-h1290FX kan konfigureras med flera oberoende NFS-aktier, individuella användarkonton och nätverksisolering. I kombination med ZFS Dataset- och Snapshot-mekanismer kan du skapa oberoende Lagringsutrymme, säkerhetskopieringsstrategier och åtkomstkontroller för varje team eller avdelning, vilket gör den idealisk för Managed Service Providers (MSP) eller stora företag med interna multiavdelningsscenarier.
Jämfört med rena molnbaserade AI-träningsplattformar, vilka fördelar har en lokal TS-h1290FX?
De största utmaningarna med molnplattformar inkluderar orimliga data-överföringsavgifter (egresskostnader), regelefterlevnadsrisker för känslig tränings-data samt oförutsägbara långsiktiga beräkningskostnader. TS-h1290FX erbjuder höghastighets lokal Lagring och säkerställer att data aldrig lämnar din anläggning, samtidigt som RDMA används för att matcha I/O-prestandan hos avancerad moln-Lagring. Den fungerar som den perfekta balansen mellan prestanda, data-suveränitet och TCO.
Kan TS-h1290FX integreras i befintliga MLOps-arbetsflöden (t.ex. Kubernetes, Kubeflow)?
Ja. TS-h1290FX tillhandahåller standard NFS v4.1-montering som Kubernetes kan använda direkt via PersistentVolume (PV). På Kubernetes-noder som stöder RDMA möjliggör ihopparning med RDMA Device Plugin enkelt full hastighet för NFS över RDMA-anslutningar. Dessutom kan den via de S3-kompatibla ändpunkterna från QuObjects sömlöst integreras i MLOps-verktygskedjor som använder S3-protokollet (såsom MLflow artifact store eller DVC remote Lagring).
Hur hanterar vi säkerhetskopiering och katastrofåterställning för modellkontrollpunkter?
TS-h1290FX erbjuder en flerskikts skyddsstrategi: ZFS-snapshots kan schemaläggas att köras automatiskt varje timme och ger detaljerade återställningspunkter; ihop med en annan ZFS NAS möjliggör SnapSync realtids blocknivå-synkronisering för extern katastrofåterställning; för långtidsarkivering stöder Hybrid Backup Sync (HBS 3) säkerhetskopiering av data till molnet (AWS S3, Azure Blob, B2, etc.). Detta trippelskydd kan konfigureras flexibelt efter dina RTO/RPO-krav.
Stöder TS-h1290FX S3-objekt-Lagring-protokollet?
Stöds. Efter installation av QuObjects fungerar TS-h1290FX som en lokal S3-kompatibel Lagring-slutpunkt och stöder Object Lock (WORM) oföränderlig Lagring. Detta möjliggör hybrida arbetsflöden inom AI: snabbläsning av dataset under träningsfasen via NFS över RDMA, samt säker Lagring och hantering av modellversioner och analysresultat under inferensfasen via S3-protokollet.

Eliminera GPU-väntetider

TS-h1290FX × NFS över RDMA — Den Lagring infrastrukturen för lokal AI-träning

Visa produktsida Kontakta försäljningsteamet