Beenden Sie Speicher-Engpässe mit NFS über RDMA

Problemdiagnose

Wie viel Zeit verbringen Ihre GPUs
damit, auf Daten zu warten?

Die Kosten für KI-Training werden durch GPU-Zeit bestimmt, aber über 40 % der Rechenzeit gehen durch Speicher I/O-Engpässe verloren.

Die versteckte Steuer des TCP-Stacks

Bei jedem Daten-Lesevorgang muss die CPU die Fragmentierung von TCP-Paketen, Prüfsummenberechnungen und Kernel-Kontext-Switch verarbeiten. Dieser Overhead bringt keinen Mehrwert für das KI-Computing, verbraucht aber still bis zu 99 % der CPU-Ressourcen.

CPU-Auslastung ≥ 99 %

Die vierfachen Kosten des Speicherkopierens

Auf einem herkömmlichen NFS-Pfad muss derselbe Daten 4–6 Mal zwischen Kernel-Puffer und Userspace kopiert werden, bevor er die GPU erreicht. Jeder Kopiervorgang erhöht die Latenz, und jede zusätzliche Mikrosekunde Latenz verringert die Rechenleistung.

Latenz 100–500 μs

Die wahren Kosten von untätigen GPUs

Am Beispiel eines 8×H100-Clusters übersteigen die Cloud-Kosten 24 $ pro Stunde. Sinkt die GPU-Auslastung durch I/O-Engpässe auf 60 %, werden fast 10 $ pro Stunde komplett verschwendet.

GPU-Leerlauf > 40 %

Je größer der Maßstab, desto tiefer der Engpass

Mit einer einzelnen GPU noch gerade beherrschbar, verschärft sich die TCP-NFS-Kontentionslatenz bei 4, 8 oder 16 GPUs, die gleichzeitig auf denselben Speicher zugreifen, exponentiell.

Multi-Node-Konkurrenz-Breakpoint

Technische Lösung

Zwei Wege,
Völlig unterschiedliche Ergebnisse

NFS über RDMA ist keine kleine Anpassung traditioneller Protokolle, sondern rekonstruiert den gesamten Daten-Pfad von Speicher bis zum GPU-Speicher grundlegend.

Traditionelles NFS über TCP Leistungsengpass

①

Anwendung stellt Leseanfrage KI-Trainingstask fordert den nächsten Batch von Daten an

Wechsel in den Kernel-Modus – Kontext-Switch #1 App-Switch zum Kernel; die CPU muss alle Registerzustände speichern/wiederherstellen, was 1–10 μs dauert

Vollständige TCP/IP-Stack-Verarbeitung TCP-Fragmentierung, erneute Übertragung und Prüfsummenberechnung werden von der CPU ausgeführt und können nicht ausgelagert werden.

②

NIC überträgt Daten Daten wird gekapselt und an das Netzwerk gesendet

Rückkehr zum Kernel — Kontext Switch #2 Der Empfänger wechselt erneut in den Kernel-Modus und löst einen zweiten Kontext Switch aus.

Daten wird 4–6 Mal kopiert Kernel-Puffer → DMA-Puffer → Userspace; jede Kopie verbraucht CPU- und Speicherbandbreite.

③

Anwendung erhält schließlich Daten GPUs bleiben während der Wartezeit vollständig untätig.

End-to-End-Latenz100 – 500 μs

CPU-Auslastung≈ 99%

GPU-Warteverhältnis> 40%

NFS über RDMA (RoCE) TS-h1290FX

✓

Anwendung stellt Leseanfrage KI-Trainingstask fordert den nächsten Batch Daten an

✓

Kernel-Bypass — Direkte HCA-Kommunikation Die Anwendung umgeht den OS-Kernel und kommuniziert direkt mit der RDMA-NIC (HCA), wodurch Kontext Switch entfällt.

✓

Hardware übernimmt gesamte Protokollverarbeitung Die HCA übernimmt alle Netzwerkprotokollberechnungen auf Hardwareebene und entlastet die CPU vollständig für KI-Berechnungen.

✓

Zero-Copy Direct Memory Write Daten wird direkt vom NAS NVMe Laufwerke in den Anwendungsspeicher des KI-Servers geschrieben, ohne dass Zwischenspeicherungen erforderlich sind.

✓

Daten bereit, GPU startet sofort mit der Berechnung Der gesamte Daten-Pfad ist frei von Kernel-Switch, überflüssigen Kopien und CPU-Belastung durch Protokollstapel.

End-to-End-Latenz1 – 2 μs

CPU-Auslastung≈ 15%

GPU-Warteverhältnis< 5%

Spezifikationsvergleich

Sehen Sie den Unterschied
Klar

Technisches Merkmal	QNAP TS-h1290FX	Wettbewerber A (SATA NAS)	Wettbewerber B (Enterprise AFA)
CPU	AMD EPYC™ 7302P 16C / 3,3 GHz Am stärksten	Intel Xeon D-1541 8C / 2,7 GHz	High-End Intel Serie
Speicher Schnittstelle	NVMe PCIe Gen 4 ×4 U.2 Am schnellsten	SATA 6 Gb/s	NVMe / SAS / FC
NVMe-Steckplätze	12 × 2,5" U.2 PCIe Gen 4	Keine native Unterstützung (Adapter erforderlich)Nicht unterstützt	48 × 2,5" NVMe
NFS über RDMA	✓ Vollständig optimierte native Unterstützung Native	✗ Nicht unterstützt Nicht unterstützt	△ Teilweise unterstützt
Integrierte Netzwerk	2× 25GbE SFP28 + 2× 2,5GbE	2× 10GbE + 4× 1GbE	Mehrere 25/100GbE (abhängig von Konfiguration)
PCIe-Erweiterung	4× PCIe Gen 4 Gen 4	2× PCIe Gen 3	High-Density Multi-Slot
Max. Speicher	1 TB DDR4 ECC 3200 MHz	64 GB DDR4 2666 MHz	1.280 GB
ZFS Dateisystem	✓ QuTS hero native Integration	✗	Abhängig vom Anbieter
S3 Object Speicher	✓ QuObjects (inklusive Object Lock)	✗	Abhängig vom Anbieter
Multi-Tenant-Isolation	✓ NFS-Freigaben + ZFS-Snapshot-Isolation	Eingeschränkte Unterstützung	Unterstützt

Zutreffende Szenarien

Wer nutzt es,
und welche Probleme es löst

🤖

KI- / LLM-Modelltraining

Mehrere GPU-Knoten lesen Trainingssätze von mehreren hundert GB parallel ein. Bei herkömmlichem NFS übersteigt die I/O-Wartezeit die Rechenzeit. RDMA sorgt dafür, dass die Daten-Übertragung mit der GPU-Nachfrage Schritt hält.

GPU-Auslastungssteigerung 40% → >95%

Trainingszeit pro Epoche Reduziert um 30–60%

Speicher-CPU-Auslastung 99% → 15%

🏥

Intelligente KI-Bildgebung im Gesundheitswesen

Pathologieschnitte und 3D-DICOM-Bilder umfassen oft mehrere Gigabyte. Wenn die KI-gestützte Diagnose beim Einlesen stockt, sind die klinischen Vorteile stark eingeschränkt. Geringe Latenz bei Speicher ermöglicht es der diagnostischen KI, mit maximaler Effizienz zu arbeiten.

Beschleunigte Bildvorverarbeitung Multipfad-Parallelität
ohne Verlangsamung

Wartezeit für Berichtserstellung Deutlich verkürzte Reaktionszeit

Daten-Integrität ZFS-Selbstheilungsschutz

🏭

Big-Daten-Analyse für Halbleiter-Erträge

Produktionslinien erzeugen pro Sekunde riesige Mengen an Prozess-Daten. KI-Modelle müssen historische Daten in Echtzeit analysieren, um entscheidende Ertragsvariablen zu finden. I/O-Latenz führt zu Analyseverzögerungen und letztlich zu Ertragsverlusten.

Abfragegeschwindigkeit historischer Daten Millisekunden- zu Mikrosekunden-Zugriff

24/7 kontinuierliche Analyse All-Flash-Unterstützung mit geringem Stromverbrauch

TCO Optimierte Hardware für Unternehmensleistung

Häufig gestellte Fragen

Alles, was Sie vielleicht fragen möchten,
finden Sie hier

Benötigt RDMA spezielle Netzwerk-Switch? Kann ich meine bestehende Daten-Center-Architektur verwenden? ▾

NFS über RDMA (RoCE v2) funktioniert auf Standard-Ethernet-Netzwerken, erfordert jedoch Switch, die PFC (Priority Flow Control) unterstützen, um eine verlustfreie Ethernet-Umgebung zu ermöglichen. Die meisten modernen Enterprise-Switch (z. B. Mellanox/NVIDIA Spectrum, Cisco Nexus, Arista-Serie) unterstützen diese Funktion. QNAP kann Netzwerkplanungsberatung anbieten, um mit Hilfe zu bestätigen, ob Ihre bestehende Umgebung kompatibel ist.

Wie groß ist der tatsächliche Latenzunterschied zwischen NFS über RDMA und traditionellem NFS über TCP? ▾

Unter Laborbedingungen liegt die End-to-End-Latenz für NFS über TCP typischerweise zwischen 100 und 500 Mikrosekunden (μs), wobei Engpässe hauptsächlich durch Kernel-Kontext-Switch und Speicher-Kopieroperationen entstehen. NFS über RDMA kann die Latenz auf 1–2 μs reduzieren – eine Verbesserung um etwa das 100-Fache. Bei KI-Trainingsszenarien mit häufigen, kleinen, zufälligen Lesevorgängen führt dieser Unterschied direkt zu einer besseren GPU-Auslastung und insgesamt kürzeren Trainingszyklen.

Wie effizient ist die Speicherplatzausnutzung von ZFS? Sind Komprimierung und Deduplizierung für KI-Trainingsdatensätze effektiv? ▾

ZFS bietet integrierte Echtzeit-Komprimierung mit LZ4/Zstandard und Deduplizierung auf Blockebene. Bei Bild-Trainingsdatensätzen mit einer großen Menge ähnlicher Beispiele wird häufig ein Komprimierungsverhältnis von 1,3–2× erreicht; bei textbasierten Datensätzen (wie tokenisierten Korpora) sind die Komprimierungsvorteile sogar noch größer. Die Deduplizierung eignet sich besonders gut zur Speicherung mehrerer Modell-Checkpoint-Versionen und kann dadurch erheblich Speicherplatz einsparen. In ZFS wird die Komprimierung hardwareunterstützt durchgeführt, was bedeutet, dass sie die I/O-Leistung nur minimal beeinträchtigt.

Wir verfügen nur über 4 GPUs. Lohnt sich die Investition in den TS-h1290FX? ▾

Die stündlichen Rechenkosten für 4 High-End-GPUs (wie H100/A100) sind bereits erheblich. Selbst in kleinen Clustern bedeutet es, wenn Speicher-I/O dazu führt, dass die GPU-Auslastung unter 70 % fällt, dass über 30 % Ihrer Ausgaben für Rechenleistung verschwendet werden. Die Investition in einen TS-h1290FX amortisiert sich in der Regel innerhalb weniger Monate bis zu einem Jahr – ausschließlich durch die Leistungssteigerung aufgrund der erhöhten GPU-Auslastung. Für eine spezifische TCO-Berechnung wenden Sie sich gerne an unser Vertriebsteam.

Unterstützt der TS-h1290FX die gleichzeitige Nutzung durch mehrere Teams (Multi-Tenancy)? ▾

Vollständig unterstützt. Der TS-h1290FX kann mit mehreren unabhängigen NFS-Shares, einzelnen Benutzerkonten und Netzwerkisolation konfiguriert werden. In Kombination mit den ZFS Dataset- und Snapshot-Mechanismen können Sie für jedes Team oder jede Abteilung unabhängige Speicherplatz, Backup-Strategien und Zugriffskontrollen einrichten, was ihn ideal für Managed Service Provider (MSPs) oder große Unternehmen mit mehreren Abteilungen macht.

Welche Vorteile bietet ein On-Premises TS-h1290FX im Vergleich zu reinen Cloud-AI-Trainingsplattformen? ▼

Die Hauptprobleme von Cloud-Plattformen sind exorbitante Daten-Übertragungsgebühren (Egress-Kosten), regulatorische Compliance-Risiken für sensible Trainings-Daten und unvorhersehbare langfristige Computing-Kosten. Der TS-h1290FX bietet schnellen On-Premises-Speicher und stellt sicher, dass Daten Ihr Unternehmen nie verlassen, während RDMA die I/O-Leistung von High-End-Cloud-Speicher ermöglicht. Er bietet die perfekte Balance zwischen Leistung, Daten-Souveränität und TCO.

Kann der TS-h1290FX in bestehende MLOps-Workflows (z. B. Kubernetes, Kubeflow) integriert werden? ▼

Ja. Der TS-h1290FX bietet standardmäßiges NFS v4.1-Mounting, das Kubernetes direkt über PersistentVolume (PV) nutzen kann. Auf Kubernetes-Knoten mit RDMA-Unterstützung ermöglicht die Kombination mit dem RDMA Device Plugin ganz einfach NFS-Verbindungen mit voller Geschwindigkeit über RDMA. Zusätzlich kann er durch die von QuObjects bereitgestellten S3-kompatiblen Endpunkte nahtlos in MLOps-Toolchains integriert werden, die das S3-Protokoll nutzen (wie z. B. MLflow Artifact Store oder DVC Remote-Speicher).

Wie sichern wir Backup und Disaster Recovery für Modell-Checkpoints ab? ▼

Der TS-h1290FX bietet eine mehrschichtige Schutzstrategie: ZFS-Snapshots können so geplant werden, dass sie automatisch stündlich ausgeführt werden und granulare Wiederherstellungspunkte bieten; in Verbindung mit einem weiteren ZFS-NAS ermöglicht SnapSync eine Echtzeit-Block-Level-Synchronisierung für Offsite-Disaster-Recovery; für die Langzeitarchivierung unterstützt Hybrid Backup Sync (HBS 3) das Backup von Daten in die Cloud (AWS S3, Azure Blob, B2 usw.). Dieser dreifache Schutz kann flexibel nach Ihren RTO/RPO-Anforderungen konfiguriert werden.

Unterstützt der TS-h1290FX das S3-Objekt-Speicher-Protokoll? ▾

Unterstützt. Nach der Installation von QuObjects fungiert der TS-h1290FX als On-Premises S3-kompatibler Objekt-Speicher-Endpunkt und unterstützt Object Lock (WORM) für unveränderliche Speicher. Dies ermöglicht hybride Workflows im Bereich KI: Hochgeschwindigkeits-Datensatzzugriff während der Trainingsphase über NFS via RDMA sowie sichere Speicher und Verwaltung von Modellversionen und Analyseergebnissen während der Inferenzphase über das S3-Protokoll.

Ihre GPU sollte nicht
auf Ihre Speicher warten müssen

Wie viel Zeit verbringen Ihre GPUs
damit, auf Daten zu warten?

Die versteckte Steuer des TCP-Stacks

Die vierfachen Kosten des Speicherkopierens

Die wahren Kosten von untätigen GPUs

Je größer der Maßstab, desto tiefer der Engpass

Zwei Wege,
Völlig unterschiedliche Ergebnisse

Die Zahlen hinter
dem TS-h1290FX

Sehen Sie den Unterschied
Klar

Wer nutzt es,
und welche Probleme es löst

KI- / LLM-Modelltraining

Intelligente KI-Bildgebung im Gesundheitswesen

Big-Daten-Analyse für Halbleiter-Erträge

Alles, was Sie vielleicht fragen möchten,
finden Sie hier

GPU-Wartezeiten eliminieren

Ihre GPU sollte nichtauf Ihre Speicher warten müssen

Wie viel Zeit verbringen Ihre GPUsdamit, auf Daten zu warten?

Die versteckte Steuer des TCP-Stacks

Die vierfachen Kosten des Speicherkopierens

Die wahren Kosten von untätigen GPUs

Je größer der Maßstab, desto tiefer der Engpass

Zwei Wege,Völlig unterschiedliche Ergebnisse

Die Zahlen hinterdem TS-h1290FX

Sehen Sie den UnterschiedKlar

Wer nutzt es,und welche Probleme es löst

KI- / LLM-Modelltraining

Intelligente KI-Bildgebung im Gesundheitswesen

Big-Daten-Analyse für Halbleiter-Erträge

Alles, was Sie vielleicht fragen möchten,finden Sie hier

GPU-Wartezeiten eliminieren

Ihre GPU sollte nicht
auf Ihre Speicher warten müssen

Wie viel Zeit verbringen Ihre GPUs
damit, auf Daten zu warten?

Zwei Wege,
Völlig unterschiedliche Ergebnisse

Die Zahlen hinter
dem TS-h1290FX

Sehen Sie den Unterschied
Klar

Wer nutzt es,
und welche Probleme es löst

Alles, was Sie vielleicht fragen möchten,
finden Sie hier