Uw GPU verspilt mogelijk tijd met wachten op gegevens
Hoewel de kosten van AI-training worden bepaald door de GPU-runtime, kunnen Opslag I/O-knelpunten meer dan 40% van uw rekentijd verspillen.
1. De verborgen kosten van de TCP-stack
Elke keer dat gegevens wordt gelezen, is de CPU bezig met het verwerken van TCP-pakketten en contextwisselingen. Hoewel dit niets bijdraagt aan AI-berekeningen, verbruikt het stiekem tot 99% van de CPU-bronnen.
2. 4–6 keer onnodig geheugen kopiëren
Bij traditionele NFS wordt gegevens 4–6 keer tussen de kernel en gebruikersruimte gekopieerd voordat het de GPU bereikt, en elke extra microseconde latency resulteert in verlies van rekenkracht.
3. Verlies in de praktijk door GPU-wachttijd
Bijvoorbeeld, in een 8×H100-cluster bedragen de cloudkosten meer dan US$24 per uur. Als het GPU-gebruik daalt tot 60% door wachten op gegevens, wordt ongeveer US$10 per uur volledig verspild.