RDMA üzerinden NFS ile Yapay Zeka Depolama Darboğazlarına Son Verin

Sorun Tanısı

GPU'larınız Ne Kadar Süre
Veri Bekleyerek Geçiriyor?

AI eğitimi maliyetleri GPU süresiyle belirlenir, ancak depolama I/O darboğazları nedeniyle bilgi işlem süresinin %40'ından fazlası boşa harcanır.

TCP Yığınının Gizli Vergisi

Her veri okumasında, CPU'nun TCP paket parçalanmasını, sağlama toplamı hesaplamalarını ve çekirdek bağlamı geçişlerini işlemesi gerekir. Bu ek yük, AI hesaplama değerine sıfır katkı sağlar ancak sessizce CPU kaynaklarının %99'una kadarını tüketir.

CPU Kullanımı ≥ %99

Bellek Kopyalamanın Dörtlü Maliyeti

Geleneksel bir NFS yolunda, aynı veri GPU'ya ulaşmadan önce çekirdek tamponu ile kullanıcı alanı arasında 4-6 kez kopyalanmalıdır. Her kopya gecikme ekler ve eklenen her mikrosaniyelik gecikme bilgi işlem gücünü azaltır.

Gecikme 100–500 μs

GPU Boşta Kalmasının Gerçek Maliyeti

8×H100 kümesi örneğinde, bulut maliyetleri saatte 24 doları aşıyor. I/O darboğazları nedeniyle GPU kullanımı %60'a düştüğünde, saatte neredeyse 10 dolar tamamen boşa harcanıyor.

GPU Boşta > %40

Ölçek Büyüdükçe Darboğaz Derinleşir

Tek bir GPU ile zar zor yönetilebilirken, aynı depolamadan eşzamanlı olarak okuma yapan 4, 8 veya 16 GPU'ya genişletildiğinde, geleneksel TCP NFS çekişme gecikmesi katlanarak kötüleşir.

Çok Düğümlü Eşzamanlılık Kırılma Noktası

Teknik Çözüm

İki Yol,
Tamamen Farklı Sonuçlar

RDMA üzerinden NFS, geleneksel protokollerde küçük bir değişiklik değildir; depolamadan GPU belleğine kadar tüm veri yolunu temelden yeniden inşa eder.

Geleneksel TCP üzerinden NFS Performans Darboğazı

①

Uygulama Okuma İsteği Oluşturur AI eğitim görevi bir sonraki veri grubunu ister

Çekirdek Moduna Giriyor — Bağlam Değişimi #1 Uygulama çekirdeğe geçer; CPU tüm kayıt durumlarını kaydedip geri yüklemelidir, bu da 1–10 μs sürer

Tam TCP/IP Yığını İşleniyor TCP parçalama, yeniden iletim ve sağlama toplamı hesaplamaları CPU tarafından yürütülür ve devredilemez.

②

NIC Verileri Aktarır Veri kapsüllenip ağa gönderilir

Çekirdeğe Dönüş — Bağlam Değişimi #2 Alıcı tekrar çekirdek moduna girer ve ikinci bir bağlam değişimini tetikler.

Veri 4–6 Kat Kopyalanır Çekirdek arabelleği → DMA arabelleği → Kullanıcı alanı; her kopya CPU ve bellek bant genişliği tüketir.

③

Uygulama Sonunda Veriyi Alır GPU'lar bekleme sırasında tamamen boştadır.

Uçtan Uca Gecikme100 – 500 μs

CPU Kullanımı≈ 99%

GPU Bekleme Oranı> 40%

NFS üzerinden RDMA (RoCE) TS-h1290FX

✓

Uygulama Okuma İsteği Oluşturur AI eğitim görevi bir sonraki veri grubunu ister

✓

Çekirdek Atlatma — Doğrudan HCA İletişimi Uygulama, işletim sistemi çekirdeğini atlayarak doğrudan RDMA NIC (HCA) ile iletişim kurar ve bağlam değişimlerini ortadan kaldırır.

✓

Tüm Protokol İşlemleri Donanımda Gerçekleşir HCA, tüm ağ protokol hesaplamalarını donanım seviyesinde gerçekleştirir ve CPU'yu tamamen AI hesaplaması için serbest bırakır.

✓

Sıfır-Kopya Doğrudan Belleğe Yazma Veri, NAS NVMe sürücülerinden doğrudan AI sunucusunun uygulama belleğine yazılır, ara kopyalama gerekmez.

✓

Veri Hazır, GPU Anında Hesaplamaya Başlar Tüm veri yolu çekirdek geçişlerinden, gereksiz kopyalardan ve protokol yığını CPU yükünden arındırılmıştır.

Uçtan Uca Gecikme1 – 2 μs

CPU Kullanımı≈ 15%

GPU Bekleme Oranı< 5%

Özellik Öğesi	QNAP TS-h1290FX	Rakip A (SATA NAS)	Rakip B (Kurumsal AFA)
CPU	AMD EPYC™ 7302P 16Ç / 3,3 GHz En Güçlü	Intel Xeon D-1541 8Ç / 2,7 GHz	Üst düzey Intel serisi
Depolama Arayüzü	NVMe PCIe Gen 4 ×4 U.2 En hızlı	SATA 6 Gb/s	NVMe / SAS / FC
NVMe Yuvaları	12 × 2,5" U.2 PCIe Gen 4	Yerel destek yok (adaptör gerekli)Desteklenmeyen	48 × 2,5" NVMe
NFS üzerinden RDMA	✓ Tamamen optimize edilmiş yerel destek Yerel	✗ Desteklenmeyen Desteklenmeyen	△ Kısmen destekleniyor
Dahili Ağ	2× 25GbE SFP28 + 2× 2,5GbE	2× 10GbE + 4× 1GbE	Birden fazla 25/100GbE (yapılandırmaya bağlı)
PCIe Genişletme	4× PCIe Gen 4 Gen 4	2× PCIe Gen 3	Yüksek yoğunluklu çok yuvalı
Maksimum Bellek	1 TB DDR4 ECC 3200 MHz	64 GB DDR4 2666 MHz	1.280 GB
ZFS Dosya Sistemi	✓ QuTS hero yerel entegrasyonu	✗	Tedarikçiye bağlı
S3 Nesne Depolaması	✓ QuObjects (Nesne Kilidi içerir)	✗	Tedarikçiye bağlı
Çoklu Kiracı İzolasyonu	✓ NFS paylaşımları + ZFS snapshot izolasyonu	Sınırlı destek	Destekleniyor

Uygulanabilir Senaryolar

Kimler Kullanıyor,
ve Çözdüğü Sorunlar

🤖

AI / LLM Model Eğitimi

Birden fazla GPU düğümü, yüzlerce GB eğitim setini paralel olarak okur. Geleneksel NFS'te, I/O bekleme süresi hesaplama süresini aşar. RDMA, veri iletiminin GPU talebine yetişmesini sağlar.

GPU Kullanım Artışı %40 → >%95

Tek Epok Eğitim Süresi %30–60 azaltıldı

Depolama CPU Yükü %99 → %15

🏥

Akıllı Sağlık Görüntüleme AI

Patoloji slaytları ve 3D DICOM görüntüleri genellikle gigabaytlarca yer kaplar. AI destekli tanı okuma sırasında takılırsa, klinik faydalar ciddi şekilde azalır. Düşük gecikmeli depolama, tanı AI'nın en yüksek verimlilikte çalışmasını sağlar.

Görüntü Ön İşleme Hızlandırma Yavaşlama olmadan çoklu yol paralel

Rapor Oluşturma Bekleme Süresi Cevap süresi önemli ölçüde azaltıldı

Veri Bütünlüğü ZFS kendi kendini iyileştirme koruması

🏭

Yarı İletken Verimlilik Büyük Veri Analizi

Üretim hatları saniyede büyük miktarda süreç verisi üretir. AI modelleri, anahtar verimlilik değişkenlerini bulmak için geçmiş verileri gerçek zamanlı analiz etmelidir. I/O gecikmesi analiz gecikmesine dönüşür ve nihayetinde verim kaybına yol açar.

Geçmiş Veri Erişim Hızı Milisaniye → Mikrosaniye erişim

7/24 Kesintisiz Analiz Tümüyle flash düşük güç desteği

TCO Kurumsal performans için optimize edilmiş donanım

Sık Sorulan Sorular

Merak Edebileceğiniz Her Şey,
Tam Burada

RDMA özel ağ anahtarları gerektiriyor mu? Mevcut veri merkezi mimarimi kullanabilir miyim? ▾

NFS over RDMA (RoCE v2) standart Ethernet ağlarında çalışır ancak kayıpsız bir Ethernet ortamı sağlamak için PFC (Priority Flow Control) destekleyen anahtarlara ihtiyaç duyar. Çoğu modern kurumsal seviye anahtar (örn. Mellanox/NVIDIA Spectrum, Cisco Nexus, Arista serisi) bu özelliği destekler. QNAP, mevcut ortamınızın uyumlu olup olmadığını doğrulamanıza yardımcı olmak için ağ planlama tavsiyesi sağlayabilir.

NFS over RDMA ile geleneksel TCP üzerinden NFS arasındaki gerçek gecikme farkı ne kadar büyük? ▾

Laboratuvar koşullarında, TCP üzerinden NFS için uçtan uca gecikme genellikle 100–500 mikrosaniye (μs) arasında değişir; darboğazlar çoğunlukla çekirdek bağlam geçişleri ve bellek kopyalamadan kaynaklanır. RDMA üzerinden NFS, gecikmeyi 1–2 μs'ye sıkıştırabilir—yaklaşık 100 kat iyileşme sağlar. Sık küçük partili rastgele okuma yapılan AI eğitim senaryolarında, bu fark doğrudan daha iyi GPU kullanımı ve genel olarak daha kısa eğitim döngülerine dönüşür.

ZFS'nin alan verimliliği nasıldır? Sıkıştırma ve tekilleştirme, AI eğitim setleri için etkili mi? ▾

ZFS, yerleşik gerçek zamanlı LZ4/Zstandard sıkıştırması ve blok düzeyinde veri tekilleştirme özelliklerine sahiptir. Çok sayıda benzer örnek içeren görüntü eğitim setlerinde sıkıştırma oranı genellikle 1,3–2 katına ulaşır; metin tabanlı veri setlerinde (örneğin, tokenleştirilmiş derlemeler) sıkıştırma avantajları çok daha belirgindir. Veri tekilleştirme, birden fazla model kontrol noktası sürümünü depolamak için özellikle uygundur ve büyük miktarda alan tasarrufu sağlayabilir. ZFS'de sıkıştırma donanım desteklidir, yani G/Ç performansı üzerinde minimum etkiye sahiptir.

Sadece 4 GPU'muz var. TS-h1290FX yatırıma değer mi? ▾

4 üst düzey GPU'nun (H100/A100 gibi) saatlik hesaplama maliyeti zaten oldukça yüksektir. Küçük ölçekli kümelerde bile, depolama G/Ç'si GPU kullanımının %70'in altına düşmesine neden oluyorsa, bu, bilgi işlem harcamanızın %30'dan fazlasının boşa gittiği anlamına gelir. TS-h1290FX'e yapılan yatırım genellikle yalnızca birkaç ay ile bir yıl arasında yatırımın geri dönüşünü (ROI) sağlar; bu tamamen artan GPU kullanımıyla elde edilen performans kazançlarından kaynaklanır. Spesifik bir TCO hesaplaması için satış ekibimizle iletişime geçebilirsiniz.

TS-h1290FX birden fazla ekip tarafından eşzamanlı kullanım (çoklu kiracılık) destekliyor mu? ▾

Tamamen desteklenmektedir. TS-h1290FX, birden fazla bağımsız NFS paylaşımı, bireysel kullanıcı hesapları ve ağ izolasyonu ile yapılandırılabilir. ZFS Dataset ve Snapshot mekanizmalarıyla birleştirildiğinde, her ekip veya departman için bağımsız depolama alanları, yedekleme stratejileri ve erişim kontrolleri oluşturabilirsiniz; bu da onu Yönetilen Hizmet Sağlayıcıları (MSP'ler) veya büyük işletmelerin iç çok departmanlı senaryoları için ideal kılar.

Saf bulut tabanlı AI eğitim platformlarıyla karşılaştırıldığında, şirket içi TS-h1290FX'in avantajları nelerdir? ▾

Bulut platformlarının başlıca zorlukları arasında aşırı veri aktarım ücretleri (egress maliyetleri), hassas eğitim verileri için düzenleyici uyumluluk riskleri ve öngörülemeyen uzun vadeli hesaplama maliyetleri bulunur. TS-h1290FX, yüksek hızlı şirket içi depolama sunar; verilerinizin tesisinizden çıkmamasını sağlarken RDMA kullanarak üst düzey bulut depolama G/Ç performansını yakalar. Performans, veri egemenliği ve TCO arasında mükemmel bir denge sağlar.

TS-h1290FX mevcut MLOps iş akışlarına (ör. Kubernetes, Kubeflow) entegre edilebilir mi? ▾

Evet. TS-h1290FX, Kubernetes'in PersistentVolume (PV) aracılığıyla doğrudan kullanabileceği standart NFS v4.1 bağlamasını sağlar. RDMA destekli Kubernetes düğümlerinde, RDMA Device Plugin ile eşleştirildiğinde tam hızda NFS over RDMA bağlantılarını kolayca etkinleştirir. Ayrıca, QuObjects tarafından sağlanan S3 uyumlu uç noktalar sayesinde, S3 protokolünü kullanan MLOps araç zincirlerine (örneğin MLflow artifact store veya DVC remote storage) sorunsuz şekilde entegre edilebilir.

Model kontrol noktaları için yedekleme ve felaket kurtarma işlemlerini nasıl yönetiyoruz? ▾

TS-h1290FX çok katmanlı bir koruma stratejisi sunar: ZFS anlık görüntüleri her saat otomatik olarak çalışacak şekilde zamanlanabilir ve ayrıntılı geri yükleme noktaları sağlar; başka bir ZFS NAS ile eşleştirildiğinde, SnapSync gerçek zamanlı blok düzeyinde senkronizasyon ile dış lokasyon felaket kurtarma imkanı sunar; uzun vadeli arşivleme için Hybrid Backup Sync (HBS 3), verilerin buluta (AWS S3, Azure Blob, B2, vb.) yedeklenmesini destekler. Bu üç katmanlı koruma, RTO/RPO gereksinimlerinize göre esnek bir şekilde yapılandırılabilir.

TS-h1290FX, S3 nesne depolama protokolünü destekliyor mu? ▾

Destekleniyor. QuObjects yüklendikten sonra, TS-h1290FX, Nesne Kilidi (WORM) değiştirilemez depolamayı destekleyen, şirket içi S3 uyumlu bir nesne depolama uç noktası olarak çalışır. Bu, AI'da hibrit iş akışlarını mümkün kılar: eğitim aşamasında NFS over RDMA ile yüksek hızlı veri kümesi okuma ve çıkarım aşamasında S3 protokolü ile model sürümlerinin ve analiz sonuçlarının güvenli bir şekilde saklanması ve yönetilmesi.

GPU'nuzun
Depolamanızı Beklemesine Gerek Yok

GPU'larınız Ne Kadar Süre
Veri Bekleyerek Geçiriyor?

TCP Yığınının Gizli Vergisi

Bellek Kopyalamanın Dörtlü Maliyeti

GPU Boşta Kalmasının Gerçek Maliyeti

Ölçek Büyüdükçe Darboğaz Derinleşir

İki Yol,
Tamamen Farklı Sonuçlar

Arkasındaki Rakamlar
TS-h1290FX'in

Farkı Görün
Açıkça

Kimler Kullanıyor,
ve Çözdüğü Sorunlar

AI / LLM Model Eğitimi

Akıllı Sağlık Görüntüleme AI

Yarı İletken Verimlilik Büyük Veri Analizi

Merak Edebileceğiniz Her Şey,
Tam Burada

GPU Bekleme Sürelerini Ortadan Kaldırın

GPU'nuzunDepolamanızı Beklemesine Gerek Yok

GPU'larınız Ne Kadar SüreVeri Bekleyerek Geçiriyor?

TCP Yığınının Gizli Vergisi

Bellek Kopyalamanın Dörtlü Maliyeti

GPU Boşta Kalmasının Gerçek Maliyeti

Ölçek Büyüdükçe Darboğaz Derinleşir

İki Yol,Tamamen Farklı Sonuçlar

Arkasındaki RakamlarTS-h1290FX'in

Farkı GörünAçıkça

Kimler Kullanıyor,ve Çözdüğü Sorunlar

AI / LLM Model Eğitimi

Akıllı Sağlık Görüntüleme AI

Yarı İletken Verimlilik Büyük Veri Analizi

Merak Edebileceğiniz Her Şey,Tam Burada

GPU Bekleme Sürelerini Ortadan Kaldırın

GPU'nuzun
Depolamanızı Beklemesine Gerek Yok

GPU'larınız Ne Kadar Süre
Veri Bekleyerek Geçiriyor?

İki Yol,
Tamamen Farklı Sonuçlar

Arkasındaki Rakamlar
TS-h1290FX'in

Farkı Görün
Açıkça

Kimler Kullanıyor,
ve Çözdüğü Sorunlar

Merak Edebileceğiniz Her Şey,
Tam Burada