Stoppa AI Lagring flaskhalsar med NFS över RDMA

Problemdiagnos

Hur mycket tid spenderar dina GPU:er
på att vänta på data?

Kostnaden för AI-träning avgörs av GPU-tid, men över 40 % av beräkningstiden slösas bort på grund av Lagring-I/O-flaskhalsar.

Den dolda kostnaden för TCP-stacken

Vid varje data-läsning måste CPU:n hantera TCP-paketfragmentering, checksummeberäkningar och kernel context Växel. Denna overhead ger inget AI-beräkningsvärde men förbrukar tyst upp till 99 % av CPU-resurserna.

CPU-användning ≥ 99 %

Den fyrdubbla kostnaden för minneskopiering

I en traditionell NFS-sökväg måste samma data kopieras 4–6 gånger mellan kernelbuffert och användarutrymme innan den når GPU:n. Varje kopiering ökar latensen, och varje extra mikrosekund latens minskar beräkningskraften.

Latens 100–500 μs

Den verkliga kostnaden för GPU-viloläge

Om vi tar ett 8×H100-kluster som exempel överstiger molnkostnaden 24 USD per timme. När GPU-användningen sjunker till 60 % på grund av I/O-flaskhalsar slösas nästan 10 USD per timme bort helt och hållet.

GPU-vila > 40 %

Ju större skala, desto djupare flaskhals

Det är knappt hanterbart med en enda GPU, men om man utökar till 4, 8 eller 16 GPU:er som samtidigt läser från samma Lagring förvärras den traditionella TCP NFS-kontentionslatensen exponentiellt.

Multi-Node Concurrency Breaking Point

Teknisk lösning

Två vägar,
Helt olika resultat

NFS över RDMA är ingen liten justering av traditionella protokoll; det omstrukturerar i grunden hela data-vägen från Lagring till GPU-minne.

Traditionell NFS över TCP Prestandaflaskhals

①

Applikationen skickar läsbegäran AI-träningsuppgiften begär nästa batch av data

Går in i kernel-läge — Context Växel #1 App Växel till kernel; CPU:n måste spara/återställa alla registertillstånd, vilket tar 1–10 μs

Fullständig TCP/IP-stackbehandling TCP-fragmentering, omöverföring och checksummeberäkningar utförs av CPU:n och kan inte avlastas.

②

NIC överför data data kapslas in och skickas till nätverket

Återgår till kernel — Kontext Växel #2 Mottagaren går in i kernel-läge igen, vilket utlöser en andra kontext Växel.

data kopieras ×4–6 gånger Kernelbuffert → DMA-buffert → användarutrymme; varje kopiering förbrukar CPU- och minnesbandbredd.

③

Applikationen får slutligen data GPU:er förblir helt inaktiva under väntan.

End-to-end-latens100 – 500 μs

CPU-användning≈ 99%

GPU-väntetid> 40%

NFS över RDMA (RoCE) TS-h1290FX

✓

Applikationen skickar läsbegäran AI-träningsuppgift begär nästa batch av data

✓

Kernelbypass — Direkt HCA-kommunikation Applikationen kringgår OS-kärnan och kommunicerar direkt med RDMA-NIC (HCA), vilket eliminerar kontext Växel.

✓

Hårdvaran avlastar all protokollhantering HCA:n utför alla nätverksprotokollberäkningar på hårdvarunivå, vilket frigör CPU:n helt för AI-beräkning.

✓

Nollkopiering direktminnesskrivning data skrivs direkt från NAS NVMe enheter till AI-serverns applikationsminne, utan behov av mellanliggande kopiering.

✓

data klar, GPU:n börjar räkna omedelbart Hela data-vägen är fri från kernel Växel, överflödiga kopior och CPU-belastning från protokollstacken.

End-to-end-latens1 – 2 μs

CPU-användning≈ 15%

GPU-väntetid< 5%

Specifikationsjämförelse

Se skillnaden
Tydligt

Specifikationspost	QNAP TS-h1290FX	Konkurrent A (SATA NAS)	Konkurrent B (Enterprise AFA)
CPU	AMD EPYC™ 7302P 16K / 3,3 GHz Starkast	Intel Xeon D-1541 8K / 2,7 GHz	High-end Intel-serie
Lagring-gränssnitt	NVMe PCIe Gen 4 ×4 U.2 Snabbast	SATA 6 Gb/s	NVMe / SAS / FC
NVMe-fack	12 × 2,5" U.2 PCIe Gen 4	Inget inbyggt stöd (adapter krävs)Stöds ej	48 × 2,5" NVMe
NFS över RDMA	✓ Fullt optimerat inbyggt stöd Inbyggt	✗ Stöds ej Stöds ej	△ Delvist stöd
Inbyggd Nätverk	2× 25GbE SFP28 + 2× 2.5GbE	2× 10GbE + 4× 1GbE	Flera 25/100GbE (beroende på konfiguration)
PCIe-expansion	4× PCIe Gen 4 Gen 4	2× PCIe Gen 3	Högdensitets multi-fack
Maximalt minne	1 TB DDR4 ECC 3200 MHz	64 GB DDR4 2666 MHz	1 280 GB
ZFS-filsystem	✓ QuTS hero inbyggd integration	✗	Beroende på leverantör
S3-objekt Lagring	✓ QuObjects (inkluderar Object Lock)	✗	Beroende på leverantör
Multi-tenant-isolering	✓ NFS-delningar + ZFS-ögonblicksbild-isolering	Begränsat stöd	Stöds

Tillämpliga scenarier

Vem använder det,
och vilka problem det löser

🤖

AI / LLM-modellträning

Flera GPU-noder läser hundratals GB träningsdata parallellt. Med traditionell NFS överstiger I/O-väntetiden beräkningstiden. RDMA säkerställer att data-leveransen håller jämna steg med GPU-behovet.

GPU-utnyttjandeökning 40 % → >95 %

Tid för träning av enstaka epok Minskat med 30–60 %

Lagring CPU-belastning 99 % → 15 %

🏥

Smart AI för medicinsk bildbehandling

Patologisnitt och 3D DICOM-bilder är ofta flera gigabyte stora. Om AI-assisterad diagnostik fastnar vid inläsning försämras de kliniska fördelarna kraftigt. Låg latens för Lagring gör att diagnostisk AI kan arbeta med högsta effektivitet.

Accelererad bildförbehandling Multipla parallella vägar utan fördröjning

Väntetid för rapportgenerering Betydligt minskad svarstid

data-integritet ZFS självläkande skydd

🏭

Storskalig data-analys av halvledarutbyte

Produktionslinjer genererar enorma mängder process-data per sekund. AI-modeller måste analysera historisk data i realtid för att hitta viktiga utbytesvariabler. I/O-latens leder till analysfördröjningar och i slutändan utbytesförlust.

Hämtningshastighet för historisk data Millisekund → mikrosekundåtkomst

Kontinuerlig analys dygnet runt Stöd för all-flash med låg strömförbrukning

TCO Optimerad hårdvara för företagsklassad prestanda

Vanliga frågor

Allt du kan tänkas vilja fråga,
hittar du här

Kräver RDMA specialiserade nätverks-Växel? Kan jag använda min befintliga data-centerarkitektur? ▾

NFS över RDMA (RoCE v2) fungerar på vanliga Ethernet-nätverk men kräver Växel som stöder PFC (Priority Flow Control) för att möjliggöra en förlustfri Ethernet-miljö. De flesta moderna företagsklassade Växel (t.ex. Mellanox/NVIDIA Spectrum, Cisco Nexus, Arista-serien) stöder denna funktion. QNAP kan ge råd om nätverksplanering för att Hjälp bekräfta om din nuvarande miljö är kompatibel.

Hur stor är den faktiska latensskillnaden mellan NFS över RDMA och traditionell NFS över TCP? ▾

Under laboratorieförhållanden ligger end-to-end-latensen för NFS över TCP vanligtvis mellan 100–500 mikrosekunder (μs), där flaskhalsarna främst beror på kernel context-Växel och minneskopiering. NFS över RDMA kan minska latensen till 1–2 μs—en förbättring på cirka 100 gånger. För AI-träningsscenarier med frekventa små batchvisa slumpmässiga läsningar översätts denna skillnad direkt till förbättrad GPU-användning och totalt sett kortare träningscykler.

Hur är utrymmeseffektiviteten för ZFS? Är komprimering och deduplicering effektiva för AI-träningsuppsättningar? ▾

ZFS har inbyggd realtidskomprimering med LZ4/Zstandard och blocknivå-deduplicering. För bildträningsuppsättningar med stora mängder liknande prover når komprimeringsgraden ofta 1,3–2×; för textbaserade dataset (som tokeniserade korpusar) är komprimeringsvinsterna ännu större. Deduplicering är särskilt lämpligt för att lagra flera versioner av modellkontrollpunkter och kan potentiellt spara enorma mängder utrymme. I ZFS är komprimeringen hårdvaruassisterad, vilket innebär att den har minimal påverkan på I/O-prestanda.

Vi har bara 4 GPU:er. Är TS-h1290FX värd investeringen? ▾

Den timvisa beräkningskostnaden för 4 avancerade GPU:er (som H100/A100) är redan betydande. Även i små kluster, om Lagring I/O gör att GPU-användningen sjunker under 70 %, innebär det att över 30 % av dina beräkningskostnader går till spillo. Investeringen i en TS-h1290FX ger vanligtvis ROI inom några månader till ett år, helt tack vare prestandavinster från ökad GPU-användning. För en specifik TCO-beräkning, kontakta gärna vårt säljteam.

Stöder TS-h1290FX samtidig användning av flera team (multi-tenancy)? ▾

Fullt stöd. TS-h1290FX kan konfigureras med flera oberoende NFS-aktier, individuella användarkonton och nätverksisolering. I kombination med ZFS Dataset- och Snapshot-mekanismer kan du skapa oberoende Lagringsutrymme, säkerhetskopieringsstrategier och åtkomstkontroller för varje team eller avdelning, vilket gör den idealisk för Managed Service Providers (MSP) eller stora företag med interna multiavdelningsscenarier.

Jämfört med rena molnbaserade AI-träningsplattformar, vilka fördelar har en lokal TS-h1290FX? ▾

De största utmaningarna med molnplattformar inkluderar orimliga data-överföringsavgifter (egresskostnader), regelefterlevnadsrisker för känslig tränings-data samt oförutsägbara långsiktiga beräkningskostnader. TS-h1290FX erbjuder höghastighets lokal Lagring och säkerställer att data aldrig lämnar din anläggning, samtidigt som RDMA används för att matcha I/O-prestandan hos avancerad moln-Lagring. Den fungerar som den perfekta balansen mellan prestanda, data-suveränitet och TCO.

Kan TS-h1290FX integreras i befintliga MLOps-arbetsflöden (t.ex. Kubernetes, Kubeflow)? ▾

Ja. TS-h1290FX tillhandahåller standard NFS v4.1-montering som Kubernetes kan använda direkt via PersistentVolume (PV). På Kubernetes-noder som stöder RDMA möjliggör ihopparning med RDMA Device Plugin enkelt full hastighet för NFS över RDMA-anslutningar. Dessutom kan den via de S3-kompatibla ändpunkterna från QuObjects sömlöst integreras i MLOps-verktygskedjor som använder S3-protokollet (såsom MLflow artifact store eller DVC remote Lagring).

Hur hanterar vi säkerhetskopiering och katastrofåterställning för modellkontrollpunkter? ▾

TS-h1290FX erbjuder en flerskikts skyddsstrategi: ZFS-snapshots kan schemaläggas att köras automatiskt varje timme och ger detaljerade återställningspunkter; ihop med en annan ZFS NAS möjliggör SnapSync realtids blocknivå-synkronisering för extern katastrofåterställning; för långtidsarkivering stöder Hybrid Backup Sync (HBS 3) säkerhetskopiering av data till molnet (AWS S3, Azure Blob, B2, etc.). Detta trippelskydd kan konfigureras flexibelt efter dina RTO/RPO-krav.

Stöder TS-h1290FX S3-objekt-Lagring-protokollet? ▾

Stöds. Efter installation av QuObjects fungerar TS-h1290FX som en lokal S3-kompatibel Lagring-slutpunkt och stöder Object Lock (WORM) oföränderlig Lagring. Detta möjliggör hybrida arbetsflöden inom AI: snabbläsning av dataset under träningsfasen via NFS över RDMA, samt säker Lagring och hantering av modellversioner och analysresultat under inferensfasen via S3-protokollet.

Din GPU ska inte behöva
Vänta på din Lagring

Hur mycket tid spenderar dina GPU:er
på att vänta på data?

Den dolda kostnaden för TCP-stacken

Den fyrdubbla kostnaden för minneskopiering

Den verkliga kostnaden för GPU-viloläge

Ju större skala, desto djupare flaskhals

Två vägar,
Helt olika resultat

Siffrorna bakom
TS-h1290FX

Se skillnaden
Tydligt

Vem använder det,
och vilka problem det löser

AI / LLM-modellträning

Smart AI för medicinsk bildbehandling

Storskalig data-analys av halvledarutbyte

Allt du kan tänkas vilja fråga,
hittar du här

Eliminera GPU-väntetider

Din GPU ska inte behövaVänta på din Lagring

Hur mycket tid spenderar dina GPU:erpå att vänta på data?

Den dolda kostnaden för TCP-stacken

Den fyrdubbla kostnaden för minneskopiering

Den verkliga kostnaden för GPU-viloläge

Ju större skala, desto djupare flaskhals

Två vägar,Helt olika resultat

Siffrorna bakomTS-h1290FX

Se skillnadenTydligt

Vem använder det,och vilka problem det löser

AI / LLM-modellträning

Smart AI för medicinsk bildbehandling

Storskalig data-analys av halvledarutbyte

Allt du kan tänkas vilja fråga,hittar du här

Eliminera GPU-väntetider

Din GPU ska inte behöva
Vänta på din Lagring

Hur mycket tid spenderar dina GPU:er
på att vänta på data?

Två vägar,
Helt olika resultat

Siffrorna bakom
TS-h1290FX

Se skillnaden
Tydligt

Vem använder det,
och vilka problem det löser

Allt du kan tänkas vilja fråga,
hittar du här