Ukončete úzká místa v AI úložišti pomocí NFS přes RDMA

Diagnostika problému

Kolik času vaše GPU
stráví čekáním na data?

Náklady na trénování AI jsou určovány časem GPU, ale více než 40 % výpočetního času je promarněno kvůli úzkým místům v I/O úložiště.

Skrytá daň TCP stacku

Při každém čtení dat musí CPU zpracovat fragmentaci TCP paketů, výpočty kontrolních součtů a přepínání kontextu jádra. Tato režie nevytváří žádnou hodnotu pro AI výpočty, ale tiše spotřebuje až 99 % zdrojů CPU.

Využití CPU ≥ 99 %

Čtyřnásobné náklady na kopírování paměti

U tradiční cesty NFS musí být stejná data zkopírována 4–6krát mezi vyrovnávací pamětí jádra a uživatelským prostorem, než dorazí k GPU. Každé kopírování přidává latenci a každá přidaná mikrosekunda latence snižuje výpočetní výkon.

Latence 100–500 μs

Skutečné náklady nečinnosti GPU

Na příkladu clusteru 8×H100 přesahují cloudové náklady 24 USD za hodinu. Když využití GPU kvůli I/O úzkým místům klesne na 60 %, téměř 10 USD za hodinu je zcela promarněno.

Nečinná GPU > 40 %

Čím větší škála, tím hlubší úzké místo

Při použití jedné GPU je to ještě zvládnutelné, ale při rozšíření na 4, 8 nebo 16 GPU, které současně čtou ze stejného úložiště, se latence způsobená tradičním TCP NFS zvyšuje exponenciálně.

Bod zlomu při souběžnosti více uzlů

Technické řešení

Dvě cesty,
Zcela odlišné výsledky

NFS přes RDMA není jen drobnou úpravou tradičních protokolů; zásadně rekonstruuje celý datový tok od úložiště až po paměť GPU.

Tradiční NFS přes TCP Úzké místo výkonu

①

Aplikace vydává požadavek na čtení Úloha trénování AI požaduje další dávku dat

Vstup do režimu jádra — přepnutí kontextu #1 Aplikace přepíná do jádra; CPU musí uložit/obnovit všechny stavy registrů, což trvá 1–10 μs

Kompletní zpracování TCP/IP stacku Fragmentace TCP, retransmise a výpočty kontrolních součtů provádí CPU a nelze je offloadovat.

②

NIC přenáší data Data jsou zapouzdřena a odeslána do sítě

Vrací se do kernelu — přepnutí kontextu #2 Příjemce znovu vstupuje do režimu kernelu, což vyvolává druhé přepnutí kontextu.

Data kopírována 4–6krát Kernel buffer → DMA buffer → uživatelský prostor; každé kopírování spotřebovává CPU a šířku pásma paměti.

③

Aplikace konečně získá data GPU zůstávají během čekání zcela nečinné.

End-to-End latence100–500 μs

Využití CPU≈ 99%

Poměr čekání GPU> 40%

NFS přes RDMA (RoCE) TS-h1290FX

✓

Aplikace zadává požadavek na čtení Úloha AI tréninku požaduje další dávku dat

✓

Obcházení kernelu — přímá komunikace HCA Aplikace obchází kernel OS a komunikuje přímo s RDMA NIC (HCA), čímž eliminuje přepínání kontextu.

✓

Hardware přebírá veškeré zpracování protokolu HCA provádí všechny výpočty síťového protokolu na úrovni hardwaru, čímž zcela uvolňuje CPU pro výpočty AI.

✓

Zero-copy přímý zápis do paměti Data jsou zapisována přímo z NAS NVMe disků do aplikační paměti AI serveru, bez nutnosti mezikopírování.

✓

Data připravena, GPU okamžitě zahajuje výpočty Celá datová cesta je bez kernelových přepnutí, nadbytečných kopií a zátěže CPU protokolovým zásobníkem.

End-to-End latence1–2 μs

Využití CPU≈ 15%

Poměr čekání GPU< 5%

Srovnání specifikací

Podívejte se na rozdíl
Jasně

Položka specifikace	QNAP TS-h1290FX	Konkurent A (SATA NAS)	Konkurent B (Enterprise AFA)
CPU	AMD EPYC™ 7302P 16 jader / 3,3 GHz Nejsilnější	Intel Xeon D-1541 8 jader / 2,7 GHz	Vysoce výkonná řada Intel
Rozhraní úložiště	NVMe PCIe Gen 4 ×4 U.2 Nejrychlejší	SATA 6 Gb/s	NVMe / SAS / FC
NVMe sloty	12 × 2,5" U.2 PCIe Gen 4	Bez nativní podpory (vyžaduje adaptér)Nepodporováno	48 × 2,5" NVMe
NFS přes RDMA	✓ Plně optimalizovaná nativní podpora Nativní	✗ Nepodporováno Nepodporováno	△ Částečně podporováno
Vestavěné síťové připojení	2× 25GbE SFP28 + 2× 2,5GbE	2× 10GbE + 4× 1GbE	Více 25/100GbE (závisí na konfiguraci)
Rozšíření PCIe	4× PCIe Gen 4 Gen 4	2× PCIe Gen 3	Vysoká hustota, více slotů
Max. paměť	1 TB DDR4 ECC 3200 MHz	64 GB DDR4 2666 MHz	1 280 GB
Systém souborů ZFS	✓ Nativní integrace QuTS hero	✗	Záleží na dodavateli
S3 objektové úložiště	✓ QuObjects (včetně Object Lock)	✗	Záleží na dodavateli
Izolace více nájemců	✓ Sdílení NFS + izolace snímků ZFS	Omezená podpora	Podporováno

Použitelné scénáře

Kdo to používá,
a jaké problémy to řeší

🤖

Trénování AI / LLM modelů

Více GPU uzlů čte stovky GB trénovacích sad paralelně. U tradičního NFS doba čekání na I/O převyšuje dobu výpočtu. RDMA zajišťuje, že doručování dat drží krok s požadavky GPU.

Zvýšení využití GPU 40 % → >95 %

Doba trénování jedné epochy Sníženo o 30–60 %

Zatížení CPU úložiště 99 % → 15 %

🏥

Chytré zdravotnické zobrazování AI

Patologické snímky a 3D DICOM obrázky často zabírají gigabajty. Pokud AI-asistovaná diagnostika váhá při čtení, klinické přínosy jsou vážně ohroženy. Úložiště s nízkou latencí umožňuje diagnostické AI pracovat na maximální efektivitě.

Zrychlení předzpracování obrázků Paralelní vícecestné bez zpomalení

Čekání na generování zprávy Výrazně zkrácená doba odezvy

Integrita dat Samoregenerační ochrana ZFS

🏭

Analýza velkých dat výtěžnosti polovodičů

Výrobní linky generují obrovské množství procesních dat za sekundu. AI modely musí analyzovat historická data v reálném čase, aby našly klíčové proměnné výtěžnosti. Latence I/O znamená zpoždění analýzy, což nakonec vede ke ztrátě výtěžnosti.

Rychlost načítání historických dat Přístup v milisekundách → mikrosekundách

Průběžná analýza 24/7 Podpora all-flash s nízkou spotřebou

TCO Zjednodušený hardware pro podnikový výkon

Časté otázky

Vše, na co byste se mohli chtít zeptat,
právě zde

Vyžaduje RDMA specializované síťové switche? Můžu použít svou stávající architekturu datového centra? ▾

NFS přes RDMA (RoCE v2) funguje na standardních ethernetových sítích, ale vyžaduje switche podporující PFC (Priority Flow Control) pro vytvoření bezztrátového ethernetového prostředí. Většina moderních podnikových switchů (např. Mellanox/NVIDIA Spectrum, Cisco Nexus, Arista série) tuto funkci podporuje. QNAP může poskytnout poradenství při plánování sítě a pomoci ověřit, zda je vaše stávající prostředí kompatibilní.

Jak velký je skutečný rozdíl v latenci mezi NFS přes RDMA a tradičním NFS přes TCP? ▾

Za laboratorních podmínek se end-to-end latence pro NFS přes TCP obvykle pohybuje mezi 100–500 mikrosekundami (μs), přičemž úzká místa vznikají hlavně kvůli přepínání kontextu jádra a kopírování paměti. NFS přes RDMA může stlačit latenci na 1–2 μs—zlepšení přibližně 100krát. U scénářů AI tréninku s častými náhodnými čteními malých dávek se tento rozdíl přímo promítá do lepšího využití GPU a celkově kratších tréninkových cyklů.

Jaká je efektivita využití prostoru u ZFS? Jsou komprese a deduplikace účinné pro tréninkové sady AI? ▾

ZFS nabízí vestavěnou kompresi v reálném čase pomocí LZ4/Zstandard a blokovou deduplikaci. U trénovacích sad obrázků obsahujících obrovské množství podobných vzorků dosahuje kompresní poměr často 1,3–2×; u datových sad založených na textu (například tokenizovaných korpusů) jsou přínosy komprese ještě výraznější. Deduplikace je obzvláště vhodná pro ukládání více verzí kontrolních bodů modelu, což může ušetřit obrovské množství místa. V ZFS je komprese podporována hardwarem, což znamená minimální dopad na výkon I/O.

Máme pouze 4 GPU. Vyplatí se investovat do TS-h1290FX? ▾

Hodinové náklady na výpočet pro 4 špičkové GPU (například H100/A100) jsou již značné. I v malých klastrech, pokud I/O úložiště způsobí, že využití GPU klesne pod 70 %, znamená to, že více než 30 % vašich výpočetních nákladů je promarněno. Investice do TS-h1290FX obvykle přináší návratnost během několika měsíců až jednoho roku, a to díky zvýšení výkonu díky vyššímu využití GPU. Pro konkrétní výpočet TCO nás neváhejte kontaktovat.

Podporuje TS-h1290FX současné použití více týmy (multi-tenancy)? ▾

Plně podporováno. TS-h1290FX lze nakonfigurovat s více nezávislými NFS sdíleními, individuálními uživatelskými účty a síťovou izolací. V kombinaci s mechanismy ZFS Dataset a Snapshot můžete vytvořit nezávislé úložné prostory, zálohovací strategie a přístupové kontroly pro každý tým nebo oddělení, což je ideální pro poskytovatele spravovaných služeb (MSP) nebo interní scénáře velkých podniků s více odděleními.

Jaké jsou výhody lokálního TS-h1290FX oproti čistě cloudovým AI tréninkovým platformám? ▾

Hlavní výzvy cloudových platforem zahrnují vysoké poplatky za přenos dat (egress), rizika souladu s předpisy u citlivých trénovacích dat a nepředvídatelné dlouhodobé náklady na výpočet. TS-h1290FX poskytuje vysokorychlostní lokální úložiště, zajišťuje, že data nikdy neopustí vaši budovu, a díky RDMA dosahuje výkonu I/O srovnatelného s špičkovým cloudovým úložištěm. Představuje ideální rovnováhu mezi výkonem, suverenitou dat a TCO.

Lze TS-h1290FX integrovat do stávajících MLOps workflow (např. Kubernetes, Kubeflow)? ▾

Ano. TS-h1290FX poskytuje standardní připojení NFS v4.1, které může Kubernetes přímo využít prostřednictvím PersistentVolume (PV). Na Kubernetes uzlech podporujících RDMA lze ve spojení s RDMA Device Plugin snadno umožnit plnou rychlost NFS přes RDMA. Navíc díky S3-kompatibilním endpointům poskytovaným QuObjects lze TS-h1290FX bez problémů integrovat do MLOps nástrojů využívajících S3 protokol (například MLflow artifact store nebo DVC remote storage).

Jak řešíme zálohování a obnovu po havárii pro kontrolní body modelu? ▾

TS-h1290FX nabízí vícevrstvou strategii ochrany: snímky ZFS lze naplánovat tak, aby se spouštěly automaticky každou hodinu a poskytovaly detailní body obnovy; ve spojení s dalším ZFS NAS umožňuje SnapSync synchronizaci na úrovni bloků v reálném čase pro obnovu po havárii mimo pracoviště; pro dlouhodobou archivaci podporuje Hybrid Backup Sync (HBS 3) zálohování dat do cloudu (AWS S3, Azure Blob, B2 atd.). Tato třívrstvá ochrana může být flexibilně nakonfigurována podle vašich požadavků na RTO/RPO.

Podporuje TS-h1290FX protokol objektového úložiště S3? ▾

Podporováno. Po instalaci QuObjects funguje TS-h1290FX jako lokální S3-kompatibilní objektové úložiště s podporou neměnného úložiště Object Lock (WORM). To umožňuje hybridní pracovní postupy v AI: rychlé čtení datových sad během tréninkové fáze přes NFS přes RDMA a bezpečné ukládání a správu verzí modelů a výsledků analýz během fáze inference pomocí protokolu S3.

Vaše GPU by nemělo
Čekat na vaše úložiště

Kolik času vaše GPU
stráví čekáním na data?

Skrytá daň TCP stacku

Čtyřnásobné náklady na kopírování paměti

Skutečné náklady nečinnosti GPU

Čím větší škála, tím hlubší úzké místo

Dvě cesty,
Zcela odlišné výsledky

Čísla v pozadí
TS-h1290FX

Podívejte se na rozdíl
Jasně

Kdo to používá,
a jaké problémy to řeší

Trénování AI / LLM modelů

Chytré zdravotnické zobrazování AI

Analýza velkých dat výtěžnosti polovodičů

Vše, na co byste se mohli chtít zeptat,
právě zde

Odstraňte čekací doby na GPU

Vaše GPU by neměloČekat na vaše úložiště

Kolik času vaše GPUstráví čekáním na data?

Skrytá daň TCP stacku

Čtyřnásobné náklady na kopírování paměti

Skutečné náklady nečinnosti GPU

Čím větší škála, tím hlubší úzké místo

Dvě cesty,Zcela odlišné výsledky

Čísla v pozadíTS-h1290FX

Podívejte se na rozdílJasně

Kdo to používá,a jaké problémy to řeší

Trénování AI / LLM modelů

Chytré zdravotnické zobrazování AI

Analýza velkých dat výtěžnosti polovodičů

Vše, na co byste se mohli chtít zeptat,právě zde

Odstraňte čekací doby na GPU

Vaše GPU by nemělo
Čekat na vaše úložiště

Kolik času vaše GPU
stráví čekáním na data?

Dvě cesty,
Zcela odlišné výsledky

Čísla v pozadí
TS-h1290FX

Podívejte se na rozdíl
Jasně

Kdo to používá,
a jaké problémy to řeší

Vše, na co byste se mohli chtít zeptat,
právě zde