Każda milisekunda oczekiwania na I/O to strata kosztownej mocy obliczeniowej GPU.
TS-h1290FX z NFS over RDMA zapewnia, że wydajność Pamięć masowa nadąża za szybkością obliczeń.
Koszty treningu AI zależą od czasu pracy GPU, ale ponad 40% czasu obliczeniowego jest marnowane z powodu wąskich gardeł I/O Pamięć masowa.
Przy każdym odczycie dane CPU musi przetwarzać fragmentację pakietów TCP, obliczenia sum kontrolnych i Przełącznik kontekstu jądra. Ten narzut nie generuje żadnej wartości obliczeniowej AI, a po cichu pochłania nawet do 99% zasobów CPU.
Użycie CPU ≥ 99%W tradycyjnej ścieżce NFS te same dane muszą być kopiowane 4–6 razy między buforem jądra a przestrzenią użytkownika, zanim dotrą do GPU. Każda kopia zwiększa opóźnienie, a każda dodatkowa mikrosekunda opóźnienia obniża moc obliczeniową.
Opóźnienie 100–500 μsNa przykładzie klastra 8×H100, koszty chmury przekraczają 24 USD za godzinę. Gdy wykorzystanie GPU spada do 60% z powodu wąskich gardeł I/O, prawie 10 USD na godzinę jest całkowicie marnowane.
Bezczynność GPU > 40%Przy pojedynczym GPU jest to ledwo do opanowania, ale przy rozbudowie do 4, 8 lub 16 GPU jednocześnie odczytujących z tego samego Pamięć masowa tradycyjne opóźnienia TCP NFS rosną wykładniczo.
Punkt krytyczny współbieżności wielu węzłówNFS przez RDMA to nie drobna modyfikacja tradycyjnych protokołów; to fundamentalna przebudowa całej ścieżki dane od Pamięć masowa do pamięci GPU.
| Pozycja specyfikacji | QNAP TS-h1290FX | Konkurent A (SATA Serwer NAS) | Konkurent B (Enterprise AFA) |
|---|---|---|---|
| CPU | AMD EPYC™ 7302P 16C / 3,3 GHz Najmocniejszy | Intel Xeon D-1541 8C / 2,7 GHz | Seria Intel z wyższej półki |
| Pamięć masowa Interfejs | NVMe PCIe Gen 4 ×4 U.2 Najszybsza | SATA 6 Gb/s | NVMe / SAS / FC |
| Gniazda NVMe | 12 × 2,5" U.2 PCIe Gen 4 | Brak natywnej obsługi (wymagany adapter)Nieobsługiwany | 48 × 2,5" NVMe |
| NFS przez RDMA | ✓ W pełni zoptymalizowana natywna obsługa Natywna | ✗ Nieobsługiwany Nieobsługiwany | △ Częściowo obsługiwany |
| Wbudowany Łączność sieciowa | 2× 25GbE SFP28 + 2× 2,5GbE | 2× 10GbE + 4× 1GbE | Wiele 25/100GbE (zależnie od konfiguracji) |
| Rozszerzenie PCIe | 4× PCIe Gen 4 Gen 4 | 2× PCIe Gen 3 | Wysoka gęstość, wiele gniazd |
| Maksymalna pamięć | 1 TB DDR4 ECC 3200 MHz | 64 GB DDR4 2666 MHz | 1 280 GB |
| System plików ZFS | ✓ QuTS hero natywna integracja | ✗ | Zależy od dostawcy |
| S3 Object Pamięć masowa | ✓ QuObjects (zawiera Object Lock) | ✗ | Zależy od dostawcy |
| Izolacja wielodzierżawców | ✓ Udostępnianie NFS + izolacja migawek ZFS | Ograniczone wsparcie | Obsługiwany |
Wiele węzłów GPU odczytuje równolegle setki GB zbiorów treningowych. W tradycyjnym NFS czas oczekiwania na I/O przekracza czas obliczeń. RDMA zapewnia, że dostarczanie dane nadąża za zapotrzebowaniem GPU.
Skanery histopatologiczne i obrazy 3D DICOM często zajmują gigabajty. Jeśli diagnoza wspierana AI zatrzymuje się na etapie odczytu, korzyści kliniczne są poważnie ograniczone. Niskie opóźnienia Pamięć masowa pozwalają AI diagnostycznej działać z maksymalną wydajnością.
Linie produkcyjne generują ogromne ilości dane procesowych na sekundę. Modele AI muszą analizować historyczne dane w czasie rzeczywistym, aby znaleźć kluczowe zmienne wpływające na wydajność. Opóźnienia I/O przekładają się na opóźnienia analizy, co ostatecznie prowadzi do strat wydajności.
TS-h1290FX × NFS przez RDMA — infrastruktura Pamięć masowa do lokalnego treningu AI