Beëindig AI Opslag knelpunten met NFS over RDMA

Probleemdiagnose

Hoeveel tijd brengen uw GPU's
Door met wachten op gegevens?

AI-trainingskosten worden bepaald door GPU-tijd, maar meer dan 40% van de rekentijd gaat verloren door Opslag I/O-knelpunten.

De verborgen belasting van de TCP-stack

Voor elke gegevens-lezing moet de CPU TCP-pakketfragmentatie, checksum-berekeningen en kernelcontext-Switch verwerken. Deze overhead levert geen enkele AI-rekenwaarde op, maar verbruikt stilletjes tot 99% van de CPU-bronnen.

CPU-gebruik ≥ 99%

De viervoudige kosten van geheugen kopiëren

In een traditioneel NFS-pad moet dezelfde gegevens 4-6 keer worden gekopieerd tussen de kernelbuffer en de gebruikersruimte voordat deze de GPU bereikt. Elke kopie voegt latentie toe, en elke extra microseconde latentie vermindert de rekenkracht.

Latentie 100–500 μs

De werkelijke kosten van een stilstaande GPU

Neem als voorbeeld een 8×H100-cluster: de cloudkosten bedragen meer dan $24 per uur. Wanneer het GPU-gebruik door I/O-knelpunten daalt tot 60%, wordt bijna $10 per uur volledig verspild.

GPU inactief > 40%

Hoe groter de schaal, hoe dieper het knelpunt

Met één GPU is het nog net beheersbaar, maar bij uitbreiding naar 4, 8 of 16 GPU's die gelijktijdig van dezelfde Opslag lezen, wordt de traditionele TCP NFS-contentielatentie exponentieel erger.

Multi-node gelijktijdigheid breekpunt

Technische oplossing

Twee paden,
Volledig verschillende uitkomsten

NFS over RDMA is geen kleine aanpassing van traditionele protocollen; het reconstrueert fundamenteel het volledige gegevens-pad van Opslag naar GPU-geheugen.

Traditionele NFS over TCP Prestatieknelpunt

①

Applicatie geeft leesverzoek uit AI-trainingsopdracht vraagt de volgende batch gegevens aan

Gaat naar kernelmodus — context-Switch #1 App Switch naar kernel; CPU moet alle registertoestanden opslaan/herstellen, wat 1–10 μs duurt

Volledige TCP/IP-stackverwerking TCP-fragmentatie, retransmissie en checksum-berekeningen worden door de CPU uitgevoerd en kunnen niet worden uitbesteed.

②

NIC verzendt gegevens gegevens wordt ingekapseld en naar het netwerk verzonden

Keert terug naar kernel — context Switch #2 Ontvanger gaat opnieuw naar kernelmodus, waardoor een tweede context Switch wordt geactiveerd.

gegevens gekopieerd ×4–6 keer Kernelbuffer → DMA-buffer → gebruikersruimte; elke kopie verbruikt CPU- en geheugenbandbreedte.

③

Applicatie ontvangt uiteindelijk gegevens GPU's blijven volledig inactief tijdens het wachten.

End-to-end latentie100 – 500 μs

CPU-gebruik≈ 99%

GPU-wachtverhouding> 40%

NFS over RDMA (RoCE) TS-h1290FX

✓

Applicatie geeft leesverzoek uit AI-trainingsopdracht vraagt om de volgende batch gegevens

✓

Kernel bypass — directe HCA-communicatie De applicatie omzeilt de OS-kernel en communiceert direct met de RDMA NIC (HCA), waardoor context Switch wordt geëlimineerd.

✓

Hardware neemt alle protocolverwerking over De HCA voert alle netwerkprotocolberekeningen uit op hardwareniveau, waardoor de CPU volledig wordt vrijgemaakt voor AI-berekeningen.

✓

Zero-copy directe geheugenwrite gegevens wordt rechtstreeks vanuit de NAS NVMe stations naar het applicatiegeheugen van de AI-server geschreven, zonder tussentijdse kopie.

✓

gegevens gereed, GPU begint direct met berekenen Het volledige gegevens-pad is vrij van kernel Switch, overbodige kopieën en protocolstack-CPU-belasting.

End-to-end latentie1 – 2 μs

CPU-gebruik≈ 15%

GPU-wachtverhouding< 5%

Specificatievergelijking

Zie het verschil
Duidelijk

Specificatie-item	QNAP TS-h1290FX	Concurrent A (SATA NAS)	Concurrent B (Enterprise AFA)
CPU	AMD EPYC™ 7302P 16C / 3,3 GHz Krachtigste	Intel Xeon D-1541 8C / 2,7 GHz	High-end Intel-serie
Opslag-interface	NVMe PCIe Gen 4 ×4 U.2 Snelste	SATA 6 Gb/s	NVMe / SAS / FC
NVMe-sleuven	12 × 2,5" U.2 PCIe Gen 4	Geen native ondersteuning (adapter vereist)Niet ondersteund	48 × 2,5" NVMe
NFS over RDMA	✓ Volledig geoptimaliseerde native ondersteuning Native	✗ Niet ondersteund Niet ondersteund	△ Gedeeltelijk ondersteund
Ingebouwde Netwerken	2× 25GbE SFP28 + 2× 2.5GbE	2× 10GbE + 4× 1GbE	Meerdere 25/100GbE (afhankelijk van configuratie)
PCIe-uitbreiding	4× PCIe Gen 4 Gen 4	2× PCIe Gen 3	High-density multi-slot
Max. hoeveelheid geheugen	1 TB DDR4 ECC 3200 MHz	64 GB DDR4 2666 MHz	1.280 GB
ZFS-bestandssysteem	✓ QuTS hero native integratie	✗	Afhankelijk van leverancier
S3 Object Opslag	✓ QuObjects (inclusief Object Lock)	✗	Afhankelijk van leverancier
Multi-tenant isolatie	✓ NFS-shares + ZFS snapshot-isolatie	Beperkte ondersteuning	Ondersteund

Toepasselijke scenario's

Wie gebruikt het,
en welke problemen het oplost

🤖

AI / LLM modeltraining

Meerdere GPU-nodes lezen honderden GB aan trainingssets parallel. Bij traditionele NFS overschrijdt de I/O-wachttijd de rekentijd. RDMA zorgt ervoor dat gegevens-levering gelijke tred houdt met de GPU-vraag.

GPU-gebruik verhogen 40% → >95%

Trainingstijd per epoch Verminderd met 30–60%

Opslag CPU-belasting 99% → 15%

🏥

Smart Healthcare Imaging AI

Pathologieslides en 3D DICOM-afbeeldingen beslaan vaak gigabytes. Als AI-ondersteunde diagnose vastloopt bij het lezen, worden klinische voordelen ernstig beperkt. Low-latency Opslag stelt diagnostische AI in staat om op maximale efficiëntie te werken.

Versnelling van beeldvoorverwerking Multi-path parallel zonder vertraging

Wachttijd voor rapportgeneratie Aanzienlijk verkorte responstijd

gegevens-integriteit ZFS self-healing bescherming

🏭

Big gegevens-analyse van halfgeleideropbrengst

Productielijnen genereren enorme hoeveelheden proces-gegevens per seconde. AI-modellen moeten historische gegevens in real-time analyseren om belangrijke opbrengstvariabelen te vinden. I/O-latentie leidt tot analyservertragingen, wat uiteindelijk resulteert in opbrengstverlies.

Snelheid van ophalen van historische gegevens Milliseconde → microseconde toegang

24/7 continue analyse All-flash ondersteuning met laag energieverbruik

TCO Gestroomlijnde hardware voor enterprise-prestaties

Veelgestelde vragen

Alles wat u zou willen vragen,
Hier te vinden

Vereist RDMA gespecialiseerde netwerk-Switch? Kan ik mijn bestaande gegevens-centrumarchitectuur gebruiken? ▾

NFS over RDMA (RoCE v2) werkt op standaard Ethernet-netwerken, maar vereist Switch die PFC (Priority Flow Control) ondersteunen om een verliesloos Ethernet-omgeving mogelijk te maken. De meeste moderne enterprise-grade Switch (zoals Mellanox/NVIDIA Spectrum, Cisco Nexus, Arista-serie) ondersteunen deze functie. QNAP kan netwerkadvies geven om Help te bevestigen of uw bestaande omgeving compatibel is.

Hoe groot is het daadwerkelijke latency-verschil tussen NFS over RDMA en traditionele NFS over TCP? ▾

Onder laboratoriumomstandigheden varieert de end-to-end latency voor NFS over TCP doorgaans van 100–500 microseconden (μs), waarbij knelpunten vooral voortkomen uit kernel context-Switch en geheugen kopiëren. NFS over RDMA kan de latency comprimeren tot 1–2 μs—een verbetering van ongeveer 100 keer. Voor AI-trainingsscenario's met frequente kleine willekeurige leesbewerkingen vertaalt dit verschil zich direct in een betere GPU-benutting en kortere totale trainingstijden.

Hoe efficiënt is ZFS qua ruimte? Zijn compressie en deduplicatie effectief voor AI-trainingssets? ▾

ZFS beschikt over ingebouwde real-time LZ4/Zstandard compressie en deduplicatie op blokniveau. Voor beeldtrainingssets met enorme hoeveelheden vergelijkbare samples, bereikt de compressieverhouding vaak 1,3–2×; voor tekstgebaseerde datasets (zoals getokeniseerde corpora) zijn de compressievoordelen zelfs nog groter. Deduplicatie is bijzonder geschikt voor het opslaan van meerdere model checkpoint-versies, wat mogelijk enorme hoeveelheden ruimte bespaart. In ZFS wordt compressie hardwarematig ondersteund, wat betekent dat het minimale impact heeft op de I/O-prestaties.

We hebben slechts 4 GPU's. Is de TS-h1290FX de investering waard? ▾

De uurprijs voor het gebruik van 4 high-end GPU's (zoals H100/A100) is al aanzienlijk. Zelfs in kleinschalige clusters, als Opslag I/O ervoor zorgt dat het GPU-gebruik onder de 70% komt, betekent dit dat meer dan 30% van uw computerkosten wordt verspild. De investering in een TS-h1290FX levert meestal binnen enkele maanden tot een jaar ROI op, volledig gedreven door de prestatieverbeteringen door verhoogd GPU-gebruik. Voor een specifieke TCO-berekening kunt u contact opnemen met ons verkoopteam.

Ondersteunt de TS-h1290FX gelijktijdig gebruik door meerdere teams (multi-tenancy)? ▾

Volledig ondersteund. De TS-h1290FX kan worden geconfigureerd met meerdere onafhankelijke NFS-shares, individuele gebruikersaccounts en netwerkisolatie. In combinatie met de ZFS Dataset- en Snapshot-mechanismen kun je onafhankelijke Opslagruimte, back-upstrategieën en toegangscontroles opzetten voor elk team of elke afdeling, waardoor het ideaal is voor Managed Service Providers (MSP's) of grote ondernemingen met interne multi-afdelingsscenario's.

Wat zijn, vergeleken met pure cloud AI-trainingsplatforms, de voordelen van een on-premises TS-h1290FX? ▼

De belangrijkste uitdagingen van cloudplatforms zijn buitensporige gegevens-overdrachtskosten (egresskosten), risico's op het gebied van naleving van regelgeving voor gevoelige trainings-gegevens en onvoorspelbare langetermijnkosten voor computing. De TS-h1290FX biedt snelle on-premises Opslag, waardoor gegevens je locatie nooit verlaat en RDMA wordt gebruikt om de I/O-prestaties van high-end cloud-Opslag te evenaren. Het vormt de perfecte balans tussen prestaties, gegevens-soevereiniteit en TCO.

Kan de TS-h1290FX worden geïntegreerd in bestaande MLOps-workflows (zoals Kubernetes, Kubeflow)? ▼

Ja. De TS-h1290FX biedt standaard NFS v4.1-mounting, die Kubernetes direct kan gebruiken via PersistentVolume (PV). Op Kubernetes-nodes die RDMA ondersteunen, kan koppeling met de RDMA Device Plugin eenvoudig volledige NFS-over-RDMA-verbindingen op volle snelheid mogelijk maken. Daarnaast kan via de S3-compatibele endpoints van QuObjects naadloze integratie plaatsvinden in MLOps-toolchains die het S3-protocol gebruiken (zoals MLflow artifact store of DVC remote Opslag).

Hoe pakken we back-up en disaster recovery aan voor modelcheckpoints? ▼

De TS-h1290FX biedt een meerlaagse beschermingsstrategie: ZFS-snapshots kunnen automatisch elk uur worden gepland, wat gedetailleerde herstelpunten oplevert; gekoppeld aan een andere ZFS-NAS maakt SnapSync realtime blokniveausynchronisatie mogelijk voor offsite disaster recovery; voor langdurige archivering ondersteunt Hybrid Backup Sync (HBS 3) het back-uppen van gegevens naar de cloud (AWS S3, Azure Blob, B2, enz.). Deze drievoudige bescherming kan flexibel worden geconfigureerd op basis van je RTO/RPO-vereisten.

Ondersteunt de TS-h1290FX het S3 object-Opslag-protocol? ▾

Ondersteund. Na installatie van QuObjects fungeert de TS-h1290FX als een on-premises S3-compatibel object-Opslag-endpoint, met ondersteuning voor Object Lock (WORM) onveranderlijke Opslag. Dit maakt hybride workflows in AI mogelijk: razendsnel datasetlezen tijdens de trainingsfase via NFS over RDMA, en veilige Opslag en beheer van modelversies en analyseresultaten tijdens de inferentiefase via het S3-protocol.

Uw GPU zou niet hoeven
Wachten op uw Opslag

Hoeveel tijd brengen uw GPU's
Door met wachten op gegevens?

De verborgen belasting van de TCP-stack

De viervoudige kosten van geheugen kopiëren

De werkelijke kosten van een stilstaande GPU

Hoe groter de schaal, hoe dieper het knelpunt

Twee paden,
Volledig verschillende uitkomsten

De cijfers achter
de TS-h1290FX

Zie het verschil
Duidelijk

Wie gebruikt het,
en welke problemen het oplost

AI / LLM modeltraining

Smart Healthcare Imaging AI

Big gegevens-analyse van halfgeleideropbrengst

Alles wat u zou willen vragen,
Hier te vinden

Elimineer GPU-wachttijden

Uw GPU zou niet hoevenWachten op uw Opslag

Hoeveel tijd brengen uw GPU'sDoor met wachten op gegevens?

De verborgen belasting van de TCP-stack

De viervoudige kosten van geheugen kopiëren

De werkelijke kosten van een stilstaande GPU

Hoe groter de schaal, hoe dieper het knelpunt

Twee paden,Volledig verschillende uitkomsten

De cijfers achterde TS-h1290FX

Zie het verschilDuidelijk

Wie gebruikt het,en welke problemen het oplost

AI / LLM modeltraining

Smart Healthcare Imaging AI

Big gegevens-analyse van halfgeleideropbrengst

Alles wat u zou willen vragen,Hier te vinden

Elimineer GPU-wachttijden

Uw GPU zou niet hoeven
Wachten op uw Opslag

Hoeveel tijd brengen uw GPU's
Door met wachten op gegevens?

Twee paden,
Volledig verschillende uitkomsten

De cijfers achter
de TS-h1290FX

Zie het verschil
Duidelijk

Wie gebruikt het,
en welke problemen het oplost

Alles wat u zou willen vragen,
Hier te vinden