NFS přes RDMA · QuTS hero · TS-h1290FX

Vaše GPU by nemělo
Čekat na vaše úložiště

Každá milisekunda čekání na I/O znamená plýtvání drahým výpočetním výkonem GPU.
TS-h1290FX s NFS přes RDMA zajišťuje, že výkon úložiště drží krok s výpočetní rychlostí.

100× Snížení latence
85% Snížení zátěže CPU
100Gb/s Téměř linková propustnost
<5% Čas čekání GPU
Posunout

Kolik času vaše GPU
stráví čekáním na data?

Náklady na trénování AI jsou určovány časem GPU, ale více než 40 % výpočetního času je promarněno kvůli úzkým místům v I/O úložiště.

01

Skrytá daň TCP stacku

Při každém čtení dat musí CPU zpracovat fragmentaci TCP paketů, výpočty kontrolních součtů a přepínání kontextu jádra. Tato režie nevytváří žádnou hodnotu pro AI výpočty, ale tiše spotřebuje až 99 % zdrojů CPU.

Využití CPU ≥ 99 %
02

Čtyřnásobné náklady na kopírování paměti

U tradiční cesty NFS musí být stejná data zkopírována 4–6krát mezi vyrovnávací pamětí jádra a uživatelským prostorem, než dorazí k GPU. Každé kopírování přidává latenci a každá přidaná mikrosekunda latence snižuje výpočetní výkon.

Latence 100–500 μs
03

Skutečné náklady nečinnosti GPU

Na příkladu clusteru 8×H100 přesahují cloudové náklady 24 USD za hodinu. Když využití GPU kvůli I/O úzkým místům klesne na 60 %, téměř 10 USD za hodinu je zcela promarněno.

Nečinná GPU > 40 %
04

Čím větší škála, tím hlubší úzké místo

Při použití jedné GPU je to ještě zvládnutelné, ale při rozšíření na 4, 8 nebo 16 GPU, které současně čtou ze stejného úložiště, se latence způsobená tradičním TCP NFS zvyšuje exponenciálně.

Bod zlomu při souběžnosti více uzlů

Dvě cesty,
Zcela odlišné výsledky

NFS přes RDMA není jen drobnou úpravou tradičních protokolů; zásadně rekonstruuje celý datový tok od úložiště až po paměť GPU.

Tradiční NFS přes TCP Úzké místo výkonu
Aplikace vydává požadavek na čtení Úloha trénování AI požaduje další dávku dat
Vstup do režimu jádra — přepnutí kontextu #1 Aplikace přepíná do jádra; CPU musí uložit/obnovit všechny stavy registrů, což trvá 1–10 μs
Kompletní zpracování TCP/IP stacku Fragmentace TCP, retransmise a výpočty kontrolních součtů provádí CPU a nelze je offloadovat.
NIC přenáší data Data jsou zapouzdřena a odeslána do sítě
Vrací se do kernelu — přepnutí kontextu #2 Příjemce znovu vstupuje do režimu kernelu, což vyvolává druhé přepnutí kontextu.
Data kopírována 4–6krát Kernel buffer → DMA buffer → uživatelský prostor; každé kopírování spotřebovává CPU a šířku pásma paměti.
Aplikace konečně získá data GPU zůstávají během čekání zcela nečinné.
End-to-End latence100–500 μs
Využití CPU≈ 99%
Poměr čekání GPU> 40%
NFS přes RDMA (RoCE) TS-h1290FX
Aplikace zadává požadavek na čtení Úloha AI tréninku požaduje další dávku dat
Obcházení kernelu — přímá komunikace HCA Aplikace obchází kernel OS a komunikuje přímo s RDMA NIC (HCA), čímž eliminuje přepínání kontextu.
Hardware přebírá veškeré zpracování protokolu HCA provádí všechny výpočty síťového protokolu na úrovni hardwaru, čímž zcela uvolňuje CPU pro výpočty AI.
Zero-copy přímý zápis do paměti Data jsou zapisována přímo z NAS NVMe disků do aplikační paměti AI serveru, bez nutnosti mezikopírování.
Data připravena, GPU okamžitě zahajuje výpočty Celá datová cesta je bez kernelových přepnutí, nadbytečných kopií a zátěže CPU protokolovým zásobníkem.
End-to-End latence1–2 μs
Využití CPU≈ 15%
Poměr čekání GPU< 5%

Čísla v pozadí
TS-h1290FX

Náhodné čtení 816K
4K náhodné čtení IOPS
Eliminuje čekání na I/O tréninkových dat
Maximální kapacita 737TB
12 × 61,44 TB NVMe U.2
PCIe Gen 4 pole typu all-flash
Max. paměť 1 TB
DDR4 ECC RDIMM 3200 MHz
8 slotů × 128 GB
CPU 16 jader
AMD EPYC™ 7302P
Boost až 3,3 GHz
Vestavěné síťové připojení 2×25G
SFP28 + 2×2,5GbE
4× rozšiřující sloty PCIe Gen 4
Rozšiřitelné na 100G
Nainstalujte QNAP QXG-100G2SF
pro plnohodnotné RDMA připojení
ZFS snapshoty
Téměř neomezené body obnovení snapshotů
spojené s neměnností WORM
Energetická účinnost 24/7
All-flash úsporný design
Podporuje analýzu výrobní linky v reálném čase

Podívejte se na rozdíl
Jasně

Položka specifikace QNAP TS-h1290FX Konkurent A (SATA NAS) Konkurent B (Enterprise AFA)
CPU AMD EPYC™ 7302P 16 jader / 3,3 GHz Nejsilnější Intel Xeon D-1541 8 jader / 2,7 GHz Vysoce výkonná řada Intel
Rozhraní úložiště NVMe PCIe Gen 4 ×4 U.2 Nejrychlejší SATA 6 Gb/s NVMe / SAS / FC
NVMe sloty 12 × 2,5" U.2 PCIe Gen 4 Bez nativní podpory (vyžaduje adaptér)Nepodporováno 48 × 2,5" NVMe
NFS přes RDMA ✓ Plně optimalizovaná nativní podpora Nativní ✗ Nepodporováno Nepodporováno △ Částečně podporováno
Vestavěné síťové připojení 2× 25GbE SFP28 + 2× 2,5GbE 2× 10GbE + 4× 1GbE Více 25/100GbE (závisí na konfiguraci)
Rozšíření PCIe 4× PCIe Gen 4 Gen 4 2× PCIe Gen 3 Vysoká hustota, více slotů
Max. paměť 1 TB DDR4 ECC 3200 MHz 64 GB DDR4 2666 MHz 1 280 GB
Systém souborů ZFS ✓ Nativní integrace QuTS hero Záleží na dodavateli
S3 objektové úložiště ✓ QuObjects (včetně Object Lock) Záleží na dodavateli
Izolace více nájemců ✓ Sdílení NFS + izolace snímků ZFS Omezená podpora Podporováno

Kdo to používá,
a jaké problémy to řeší

🤖

Trénování AI / LLM modelů

Více GPU uzlů čte stovky GB trénovacích sad paralelně. U tradičního NFS doba čekání na I/O převyšuje dobu výpočtu. RDMA zajišťuje, že doručování dat drží krok s požadavky GPU.

Zvýšení využití GPU 40 % → >95 %
Doba trénování jedné epochy Sníženo o 30–60 %
Zatížení CPU úložiště 99 % → 15 %
🏥

Chytré zdravotnické zobrazování AI

Patologické snímky a 3D DICOM obrázky často zabírají gigabajty. Pokud AI-asistovaná diagnostika váhá při čtení, klinické přínosy jsou vážně ohroženy. Úložiště s nízkou latencí umožňuje diagnostické AI pracovat na maximální efektivitě.

Zrychlení předzpracování obrázků Paralelní vícecestné bez zpomalení
Čekání na generování zprávy Výrazně zkrácená doba odezvy
Integrita dat Samoregenerační ochrana ZFS
🏭

Analýza velkých dat výtěžnosti polovodičů

Výrobní linky generují obrovské množství procesních dat za sekundu. AI modely musí analyzovat historická data v reálném čase, aby našly klíčové proměnné výtěžnosti. Latence I/O znamená zpoždění analýzy, což nakonec vede ke ztrátě výtěžnosti.

Rychlost načítání historických dat Přístup v milisekundách → mikrosekundách
Průběžná analýza 24/7 Podpora all-flash s nízkou spotřebou
TCO Zjednodušený hardware pro podnikový výkon

Vše, na co byste se mohli chtít zeptat,
právě zde

Vyžaduje RDMA specializované síťové switche? Můžu použít svou stávající architekturu datového centra?
NFS přes RDMA (RoCE v2) funguje na standardních ethernetových sítích, ale vyžaduje switche podporující PFC (Priority Flow Control) pro vytvoření bezztrátového ethernetového prostředí. Většina moderních podnikových switchů (např. Mellanox/NVIDIA Spectrum, Cisco Nexus, Arista série) tuto funkci podporuje. QNAP může poskytnout poradenství při plánování sítě a pomoci ověřit, zda je vaše stávající prostředí kompatibilní.
Jak velký je skutečný rozdíl v latenci mezi NFS přes RDMA a tradičním NFS přes TCP?
Za laboratorních podmínek se end-to-end latence pro NFS přes TCP obvykle pohybuje mezi 100–500 mikrosekundami (μs), přičemž úzká místa vznikají hlavně kvůli přepínání kontextu jádra a kopírování paměti. NFS přes RDMA může stlačit latenci na 1–2 μs—zlepšení přibližně 100krát. U scénářů AI tréninku s častými náhodnými čteními malých dávek se tento rozdíl přímo promítá do lepšího využití GPU a celkově kratších tréninkových cyklů.
Jaká je efektivita využití prostoru u ZFS? Jsou komprese a deduplikace účinné pro tréninkové sady AI?
ZFS nabízí vestavěnou kompresi v reálném čase pomocí LZ4/Zstandard a blokovou deduplikaci. U trénovacích sad obrázků obsahujících obrovské množství podobných vzorků dosahuje kompresní poměr často 1,3–2×; u datových sad založených na textu (například tokenizovaných korpusů) jsou přínosy komprese ještě výraznější. Deduplikace je obzvláště vhodná pro ukládání více verzí kontrolních bodů modelu, což může ušetřit obrovské množství místa. V ZFS je komprese podporována hardwarem, což znamená minimální dopad na výkon I/O.
Máme pouze 4 GPU. Vyplatí se investovat do TS-h1290FX?
Hodinové náklady na výpočet pro 4 špičkové GPU (například H100/A100) jsou již značné. I v malých klastrech, pokud I/O úložiště způsobí, že využití GPU klesne pod 70 %, znamená to, že více než 30 % vašich výpočetních nákladů je promarněno. Investice do TS-h1290FX obvykle přináší návratnost během několika měsíců až jednoho roku, a to díky zvýšení výkonu díky vyššímu využití GPU. Pro konkrétní výpočet TCO nás neváhejte kontaktovat.
Podporuje TS-h1290FX současné použití více týmy (multi-tenancy)?
Plně podporováno. TS-h1290FX lze nakonfigurovat s více nezávislými NFS sdíleními, individuálními uživatelskými účty a síťovou izolací. V kombinaci s mechanismy ZFS Dataset a Snapshot můžete vytvořit nezávislé úložné prostory, zálohovací strategie a přístupové kontroly pro každý tým nebo oddělení, což je ideální pro poskytovatele spravovaných služeb (MSP) nebo interní scénáře velkých podniků s více odděleními.
Jaké jsou výhody lokálního TS-h1290FX oproti čistě cloudovým AI tréninkovým platformám?
Hlavní výzvy cloudových platforem zahrnují vysoké poplatky za přenos dat (egress), rizika souladu s předpisy u citlivých trénovacích dat a nepředvídatelné dlouhodobé náklady na výpočet. TS-h1290FX poskytuje vysokorychlostní lokální úložiště, zajišťuje, že data nikdy neopustí vaši budovu, a díky RDMA dosahuje výkonu I/O srovnatelného s špičkovým cloudovým úložištěm. Představuje ideální rovnováhu mezi výkonem, suverenitou dat a TCO.
Lze TS-h1290FX integrovat do stávajících MLOps workflow (např. Kubernetes, Kubeflow)?
Ano. TS-h1290FX poskytuje standardní připojení NFS v4.1, které může Kubernetes přímo využít prostřednictvím PersistentVolume (PV). Na Kubernetes uzlech podporujících RDMA lze ve spojení s RDMA Device Plugin snadno umožnit plnou rychlost NFS přes RDMA. Navíc díky S3-kompatibilním endpointům poskytovaným QuObjects lze TS-h1290FX bez problémů integrovat do MLOps nástrojů využívajících S3 protokol (například MLflow artifact store nebo DVC remote storage).
Jak řešíme zálohování a obnovu po havárii pro kontrolní body modelu?
TS-h1290FX nabízí vícevrstvou strategii ochrany: snímky ZFS lze naplánovat tak, aby se spouštěly automaticky každou hodinu a poskytovaly detailní body obnovy; ve spojení s dalším ZFS NAS umožňuje SnapSync synchronizaci na úrovni bloků v reálném čase pro obnovu po havárii mimo pracoviště; pro dlouhodobou archivaci podporuje Hybrid Backup Sync (HBS 3) zálohování dat do cloudu (AWS S3, Azure Blob, B2 atd.). Tato třívrstvá ochrana může být flexibilně nakonfigurována podle vašich požadavků na RTO/RPO.
Podporuje TS-h1290FX protokol objektového úložiště S3?
Podporováno. Po instalaci QuObjects funguje TS-h1290FX jako lokální S3-kompatibilní objektové úložiště s podporou neměnného úložiště Object Lock (WORM). To umožňuje hybridní pracovní postupy v AI: rychlé čtení datových sad během tréninkové fáze přes NFS přes RDMA a bezpečné ukládání a správu verzí modelů a výsledků analýz během fáze inference pomocí protokolu S3.

Odstraňte čekací doby na GPU

TS-h1290FX × NFS přes RDMA — úložná infrastruktura pro lokální trénink AI

Zobrazit stránku produktu Kontaktovat obchodní tým