Eliminuj wąskie gardła AI Pamięć masowa dzięki NFS przez RDMA

Diagnoza problemu

Ile czasu Twoje GPU
Spędzają czekając na dane?

Koszty treningu AI zależą od czasu pracy GPU, ale ponad 40% czasu obliczeniowego jest marnowane z powodu wąskich gardeł I/O Pamięć masowa.

Ukryty podatek stosu TCP

Przy każdym odczycie dane CPU musi przetwarzać fragmentację pakietów TCP, obliczenia sum kontrolnych i Przełącznik kontekstu jądra. Ten narzut nie generuje żadnej wartości obliczeniowej AI, a po cichu pochłania nawet do 99% zasobów CPU.

Użycie CPU ≥ 99%

Poczwórny koszt kopiowania pamięci

W tradycyjnej ścieżce NFS te same dane muszą być kopiowane 4–6 razy między buforem jądra a przestrzenią użytkownika, zanim dotrą do GPU. Każda kopia zwiększa opóźnienie, a każda dodatkowa mikrosekunda opóźnienia obniża moc obliczeniową.

Opóźnienie 100–500 μs

Rzeczywisty koszt bezczynności GPU

Na przykładzie klastra 8×H100, koszty chmury przekraczają 24 USD za godzinę. Gdy wykorzystanie GPU spada do 60% z powodu wąskich gardeł I/O, prawie 10 USD na godzinę jest całkowicie marnowane.

Bezczynność GPU > 40%

Im większa skala, tym głębsze wąskie gardło

Przy pojedynczym GPU jest to ledwo do opanowania, ale przy rozbudowie do 4, 8 lub 16 GPU jednocześnie odczytujących z tego samego Pamięć masowa tradycyjne opóźnienia TCP NFS rosną wykładniczo.

Punkt krytyczny współbieżności wielu węzłów

Rozwiązanie techniczne

Dwie ścieżki,
Całkowicie różne rezultaty

NFS przez RDMA to nie drobna modyfikacja tradycyjnych protokołów; to fundamentalna przebudowa całej ścieżki dane od Pamięć masowa do pamięci GPU.

Tradycyjny NFS przez TCP Wąskie gardło wydajności

①

Aplikacja wysyła żądanie odczytu Zadanie treningowe AI żąda kolejnej partii dane

Wejście w tryb jądra — Przełącznik kontekstu #1 App Przełącznik do jądra; CPU musi zapisać/przywrócić wszystkie stany rejestrów, co zajmuje 1–10 μs

Pełne przetwarzanie stosu TCP/IP Fragmentacja TCP, retransmisja i obliczenia sum kontrolnych są wykonywane przez CPU i nie mogą być odciążone.

②

Karta sieciowa przesyła dane dane jest enkapsulowany i wysyłany do sieci

Powrót do kernela — kontekst Przełącznik #2 Odbiornik ponownie wchodzi w tryb jądra, wywołując drugi kontekst Przełącznik.

dane kopiowany ×4–6 razy Bufor jądra → bufor DMA → przestrzeń użytkownika; każda kopia zużywa zasoby CPU i przepustowość pamięci.

③

Aplikacja w końcu otrzymuje dane GPU pozostają całkowicie bezczynne podczas oczekiwania.

Opóźnienie end-to-end100 – 500 μs

Użycie CPU≈ 99%

Wskaźnik oczekiwania GPU> 40%

NFS przez RDMA (RoCE) TS-h1290FX

✓

Aplikacja wysyła żądanie odczytu Zadanie treningowe AI żąda kolejnej partii dane

✓

Ominięcie kernela — bezpośrednia komunikacja HCA Aplikacja omija jądro systemu operacyjnego i komunikuje się bezpośrednio z kartą RDMA NIC (HCA), eliminując kontekst Przełącznik.

✓

Sprzęt przejmuje całość przetwarzania protokołu HCA wykonuje wszystkie obliczenia protokołów sieciowych na poziomie sprzętowym, całkowicie odciążając CPU na potrzeby obliczeń AI.

✓

Zero-kopiowy bezpośredni zapis do pamięci dane jest zapisywany bezpośrednio z Serwer NAS NVMe dyski do pamięci aplikacji serwera AI, bez potrzeby pośredniego kopiowania.

✓

dane gotowy, GPU natychmiast rozpoczyna obliczenia Cała ścieżka dane jest wolna od Przełącznik kernela, zbędnych kopii i obciążenia CPU przez stos protokołów.

Opóźnienie end-to-end1 – 2 μs

Użycie CPU≈ 15%

Wskaźnik oczekiwania GPU< 5%

Porównanie specyfikacji

Zobacz różnicę
Wyraźnie

Pozycja specyfikacji	QNAP TS-h1290FX	Konkurent A (SATA Serwer NAS)	Konkurent B (Enterprise AFA)
CPU	AMD EPYC™ 7302P 16C / 3,3 GHz Najmocniejszy	Intel Xeon D-1541 8C / 2,7 GHz	Seria Intel z wyższej półki
Pamięć masowa Interfejs	NVMe PCIe Gen 4 ×4 U.2 Najszybsza	SATA 6 Gb/s	NVMe / SAS / FC
Gniazda NVMe	12 × 2,5" U.2 PCIe Gen 4	Brak natywnej obsługi (wymagany adapter)Nieobsługiwany	48 × 2,5" NVMe
NFS przez RDMA	✓ W pełni zoptymalizowana natywna obsługa Natywna	✗ Nieobsługiwany Nieobsługiwany	△ Częściowo obsługiwany
Wbudowany Łączność sieciowa	2× 25GbE SFP28 + 2× 2,5GbE	2× 10GbE + 4× 1GbE	Wiele 25/100GbE (zależnie od konfiguracji)
Rozszerzenie PCIe	4× PCIe Gen 4 Gen 4	2× PCIe Gen 3	Wysoka gęstość, wiele gniazd
Maksymalna pamięć	1 TB DDR4 ECC 3200 MHz	64 GB DDR4 2666 MHz	1 280 GB
System plików ZFS	✓ QuTS hero natywna integracja	✗	Zależy od dostawcy
S3 Object Pamięć masowa	✓ QuObjects (zawiera Object Lock)	✗	Zależy od dostawcy
Izolacja wielodzierżawców	✓ Udostępnianie NFS + izolacja migawek ZFS	Ograniczone wsparcie	Obsługiwany

Scenariusze zastosowań

Kto z tego korzysta,
i jakie problemy rozwiązuje

🤖

Trenowanie modeli AI / LLM

Wiele węzłów GPU odczytuje równolegle setki GB zbiorów treningowych. W tradycyjnym NFS czas oczekiwania na I/O przekracza czas obliczeń. RDMA zapewnia, że dostarczanie dane nadąża za zapotrzebowaniem GPU.

Zwiększenie wykorzystania GPU 40% → >95%

Czas trenowania jednej epoki Skrócony o 30–60%

Obciążenie CPU Pamięć masowa 99% → 15%

🏥

Inteligentna diagnostyka obrazowa AI w ochronie zdrowia

Skanery histopatologiczne i obrazy 3D DICOM często zajmują gigabajty. Jeśli diagnoza wspierana AI zatrzymuje się na etapie odczytu, korzyści kliniczne są poważnie ograniczone. Niskie opóźnienia Pamięć masowa pozwalają AI diagnostycznej działać z maksymalną wydajnością.

Przyspieszenie wstępnego przetwarzania obrazów Wielowątkowość bez spowolnień

Czas oczekiwania na raport Znacząco skrócony czas odpowiedzi

Integralność dane Samonaprawa ZFS

🏭

Analiza Big dane wydajności półprzewodników

Linie produkcyjne generują ogromne ilości dane procesowych na sekundę. Modele AI muszą analizować historyczne dane w czasie rzeczywistym, aby znaleźć kluczowe zmienne wpływające na wydajność. Opóźnienia I/O przekładają się na opóźnienia analizy, co ostatecznie prowadzi do strat wydajności.

Szybkość pobierania historycznych dane Dostęp w milisekundach → mikrosekundach

Ciągła analiza 24/7 Obsługa all-flash o niskim poborze mocy

TCO Uproszczony sprzęt dla wydajności klasy enterprise

Często zadawane pytania

Wszystko, o co możesz chcieć zapytać,
znajdziesz tutaj

Czy RDMA wymaga specjalistycznej sieci Przełącznik? Czy mogę użyć mojej obecnej architektury centrum dane? ▾

NFS przez RDMA (RoCE v2) działa w standardowych sieciach Ethernet, ale wymaga Przełącznik obsługujących PFC (Priority Flow Control), aby zapewnić środowisko Ethernet bez strat. Większość nowoczesnych przełączników klasy korporacyjnej Przełącznik (np. Mellanox/NVIDIA Spectrum, Cisco Nexus, seria Arista) obsługuje tę funkcję. QNAP może udzielić porad dotyczących planowania sieci, aby Pomoc potwierdzić, czy Twoje obecne środowisko jest kompatybilne.

Jak duża jest rzeczywista różnica opóźnień między NFS przez RDMA a tradycyjnym NFS przez TCP? ▾

W warunkach laboratoryjnych opóźnienie end-to-end dla NFS przez TCP zazwyczaj wynosi od 100 do 500 mikrosekund (μs), a wąskie gardła wynikają głównie z przełączania kontekstu jądra Przełącznik i kopiowania pamięci. NFS przez RDMA może zmniejszyć opóźnienie do 1–2 μs—co stanowi poprawę około 100-krotną. W scenariuszach treningu AI z częstymi losowymi odczytami małych partii ta różnica bezpośrednio przekłada się na lepsze wykorzystanie GPU i ogólnie krótsze cykle treningowe.

Jaka jest efektywność przestrzenna ZFS? Czy kompresja i deduplikacja są skuteczne dla zbiorów treningowych AI? ▾

ZFS oferuje wbudowaną kompresję w czasie rzeczywistym LZ4/Zstandard oraz deduplikację na poziomie bloków. W przypadku zestawów treningowych obrazów zawierających ogromne ilości podobnych próbek, współczynnik kompresji często osiąga 1,3–2×; dla zbiorów danych tekstowych (takich jak tokenizowane korpusy) korzyści z kompresji są jeszcze większe. Deduplikacja jest szczególnie przydatna do przechowywania wielu wersji punktów kontrolnych modeli, co może zaoszczędzić ogromne ilości miejsca. W ZFS kompresja jest wspierana sprzętowo, co oznacza minimalny wpływ na wydajność I/O.

Mamy tylko 4 GPU. Czy inwestycja w TS-h1290FX jest opłacalna? ▾

Godzinowy koszt obliczeniowy dla 4 wysokiej klasy GPU (takich jak H100/A100) jest już znaczny. Nawet w małych klastrach, jeśli I/O Pamięć masowa powoduje spadek wykorzystania GPU poniżej 70%, oznacza to, że ponad 30% wydatków na obliczenia jest marnowane. Inwestycja w TS-h1290FX zwykle zwraca się w ciągu kilku miesięcy do roku, wyłącznie dzięki wzrostowi wydajności wynikającemu z lepszego wykorzystania GPU. W celu uzyskania szczegółowej kalkulacji TCO zapraszamy do kontaktu z naszym zespołem sprzedaży.

Czy TS-h1290FX obsługuje jednoczesne użytkowanie przez wiele zespołów (multi-tenancy)? ▾

W pełni obsługiwane. TS-h1290FX można skonfigurować z wieloma niezależnymi udziałami NFS, indywidualnymi kontami użytkowników oraz izolacją sieciową. W połączeniu z mechanizmami ZFS Dataset i Snapshot, możesz ustanowić niezależne Przestrzeń dyskowa, strategie tworzenia kopii zapasowych oraz kontrolę dostępu dla każdego zespołu lub działu, co czyni to rozwiązanie idealnym dla dostawców usług zarządzanych (MSP) lub dużych przedsiębiorstw z wieloma działami.

W porównaniu do czysto chmurowych platform do trenowania AI, jakie zalety ma lokalny TS-h1290FX? ▼

Główne wyzwania platform chmurowych to wygórowane opłaty za transfer dane (koszty egress), ryzyko niezgodności z przepisami przy przetwarzaniu wrażliwych dane oraz nieprzewidywalne długoterminowe koszty obliczeniowe. TS-h1290FX zapewnia szybki dostęp do lokalnego Pamięć masowa, gwarantując, że dane nigdy nie opuszczają Twojej placówki, a dzięki RDMA dorównuje wydajnością I/O zaawansowanym chmurowym Pamięć masowa. Stanowi idealny kompromis między wydajnością, suwerennością dane a całkowitym kosztem posiadania (TCO).

Czy TS-h1290FX można zintegrować z istniejącymi przepływami pracy MLOps (np. Kubernetes, Kubeflow)? ▼

Tak. TS-h1290FX udostępnia standardowy montaż NFS v4.1, który Kubernetes może bezpośrednio wykorzystać przez PersistentVolume (PV). Na węzłach Kubernetes obsługujących RDMA, połączenie z RDMA Device Plugin pozwala łatwo uzyskać pełną prędkość NFS przez połączenia RDMA. Dodatkowo, dzięki punktom końcowym kompatybilnym z S3 udostępnianym przez QuObjects, można go bezproblemowo zintegrować z narzędziami MLOps korzystającymi z protokołu S3 (takimi jak MLflow artifact store lub DVC remote Pamięć masowa).

Jak radzimy sobie z tworzeniem kopii zapasowych i odzyskiwaniem po awarii punktów kontrolnych modeli? ▼

TS-h1290FX oferuje wielowarstwową strategię ochrony: migawki ZFS mogą być zaplanowane do automatycznego wykonywania co godzinę, zapewniając szczegółowe punkty przywracania; w połączeniu z innym Serwer NAS ZFS, SnapSync umożliwia synchronizację blokową w czasie rzeczywistym do zdalnego odzyskiwania po awarii; do długoterminowej archiwizacji Hybrid Backup Sync (HBS 3) obsługuje tworzenie kopii zapasowych dane w chmurze (AWS S3, Azure Blob, B2 itp.). Ta trójwarstwowa ochrona może być elastycznie konfigurowana zgodnie z wymaganiami RTO/RPO.

Czy TS-h1290FX obsługuje protokół S3 object Pamięć masowa? ▾

Obsługiwane. Po zainstalowaniu QuObjects, TS-h1290FX działa jako lokalny punkt końcowy Pamięć masowa kompatybilny z S3, obsługujący niezmienność Pamięć masowa Object Lock (WORM). Umożliwia to hybrydowe przepływy pracy w AI: szybkie odczytywanie zbiorów danych podczas fazy treningowej przez NFS przez RDMA oraz bezpieczne Pamięć masowa i zarządzanie wersjami modeli oraz wynikami analiz podczas fazy inferencji przez protokół S3.

Twój GPU nie powinien
Czekać na Pamięć masowa

Ile czasu Twoje GPU
Spędzają czekając na dane?

Ukryty podatek stosu TCP

Poczwórny koszt kopiowania pamięci

Rzeczywisty koszt bezczynności GPU

Im większa skala, tym głębsze wąskie gardło

Dwie ścieżki,
Całkowicie różne rezultaty

Liczby stojące za
modelem TS-h1290FX

Zobacz różnicę
Wyraźnie

Kto z tego korzysta,
i jakie problemy rozwiązuje

Trenowanie modeli AI / LLM

Inteligentna diagnostyka obrazowa AI w ochronie zdrowia

Analiza Big dane wydajności półprzewodników

Wszystko, o co możesz chcieć zapytać,
znajdziesz tutaj

Eliminuj czas oczekiwania na GPU

Twój GPU nie powinienCzekać na Pamięć masowa

Ile czasu Twoje GPUSpędzają czekając na dane?

Ukryty podatek stosu TCP

Poczwórny koszt kopiowania pamięci

Rzeczywisty koszt bezczynności GPU

Im większa skala, tym głębsze wąskie gardło

Dwie ścieżki,Całkowicie różne rezultaty

Liczby stojące zamodelem TS-h1290FX

Zobacz różnicęWyraźnie

Kto z tego korzysta,i jakie problemy rozwiązuje

Trenowanie modeli AI / LLM

Inteligentna diagnostyka obrazowa AI w ochronie zdrowia

Analiza Big dane wydajności półprzewodników

Wszystko, o co możesz chcieć zapytać,znajdziesz tutaj

Eliminuj czas oczekiwania na GPU

Twój GPU nie powinien
Czekać na Pamięć masowa

Ile czasu Twoje GPU
Spędzają czekając na dane?

Dwie ścieżki,
Całkowicie różne rezultaty

Liczby stojące za
modelem TS-h1290FX

Zobacz różnicę
Wyraźnie

Kto z tego korzysta,
i jakie problemy rozwiązuje

Wszystko, o co możesz chcieć zapytać,
znajdziesz tutaj