Každá milisekunda čekání na I/O znamená plýtvání drahým výpočetním výkonem GPU.
TS-h1290FX s NFS přes RDMA zajišťuje, že výkon úložiště drží krok s výpočetní rychlostí.
Náklady na trénování AI jsou určovány časem GPU, ale více než 40 % výpočetního času je promarněno kvůli úzkým místům v I/O úložiště.
Při každém čtení dat musí CPU zpracovat fragmentaci TCP paketů, výpočty kontrolních součtů a přepínání kontextu jádra. Tato režie nevytváří žádnou hodnotu pro AI výpočty, ale tiše spotřebuje až 99 % zdrojů CPU.
Využití CPU ≥ 99 %U tradiční cesty NFS musí být stejná data zkopírována 4–6krát mezi vyrovnávací pamětí jádra a uživatelským prostorem, než dorazí k GPU. Každé kopírování přidává latenci a každá přidaná mikrosekunda latence snižuje výpočetní výkon.
Latence 100–500 μsNa příkladu clusteru 8×H100 přesahují cloudové náklady 24 USD za hodinu. Když využití GPU kvůli I/O úzkým místům klesne na 60 %, téměř 10 USD za hodinu je zcela promarněno.
Nečinná GPU > 40 %Při použití jedné GPU je to ještě zvládnutelné, ale při rozšíření na 4, 8 nebo 16 GPU, které současně čtou ze stejného úložiště, se latence způsobená tradičním TCP NFS zvyšuje exponenciálně.
Bod zlomu při souběžnosti více uzlůNFS přes RDMA není jen drobnou úpravou tradičních protokolů; zásadně rekonstruuje celý datový tok od úložiště až po paměť GPU.
| Položka specifikace | QNAP TS-h1290FX | Konkurent A (SATA NAS) | Konkurent B (Enterprise AFA) |
|---|---|---|---|
| CPU | AMD EPYC™ 7302P 16 jader / 3,3 GHz Nejsilnější | Intel Xeon D-1541 8 jader / 2,7 GHz | Vysoce výkonná řada Intel |
| Rozhraní úložiště | NVMe PCIe Gen 4 ×4 U.2 Nejrychlejší | SATA 6 Gb/s | NVMe / SAS / FC |
| NVMe sloty | 12 × 2,5" U.2 PCIe Gen 4 | Bez nativní podpory (vyžaduje adaptér)Nepodporováno | 48 × 2,5" NVMe |
| NFS přes RDMA | ✓ Plně optimalizovaná nativní podpora Nativní | ✗ Nepodporováno Nepodporováno | △ Částečně podporováno |
| Vestavěné síťové připojení | 2× 25GbE SFP28 + 2× 2,5GbE | 2× 10GbE + 4× 1GbE | Více 25/100GbE (závisí na konfiguraci) |
| Rozšíření PCIe | 4× PCIe Gen 4 Gen 4 | 2× PCIe Gen 3 | Vysoká hustota, více slotů |
| Max. paměť | 1 TB DDR4 ECC 3200 MHz | 64 GB DDR4 2666 MHz | 1 280 GB |
| Systém souborů ZFS | ✓ Nativní integrace QuTS hero | ✗ | Záleží na dodavateli |
| S3 objektové úložiště | ✓ QuObjects (včetně Object Lock) | ✗ | Záleží na dodavateli |
| Izolace více nájemců | ✓ Sdílení NFS + izolace snímků ZFS | Omezená podpora | Podporováno |
Více GPU uzlů čte stovky GB trénovacích sad paralelně. U tradičního NFS doba čekání na I/O převyšuje dobu výpočtu. RDMA zajišťuje, že doručování dat drží krok s požadavky GPU.
Patologické snímky a 3D DICOM obrázky často zabírají gigabajty. Pokud AI-asistovaná diagnostika váhá při čtení, klinické přínosy jsou vážně ohroženy. Úložiště s nízkou latencí umožňuje diagnostické AI pracovat na maximální efektivitě.
Výrobní linky generují obrovské množství procesních dat za sekundu. AI modely musí analyzovat historická data v reálném čase, aby našly klíčové proměnné výtěžnosti. Latence I/O znamená zpoždění analýzy, což nakonec vede ke ztrátě výtěžnosti.
TS-h1290FX × NFS přes RDMA — úložná infrastruktura pro lokální trénink AI