Chấm dứt tắc nghẽn lưu trữ AI với NFS qua RDMA

Chẩn đoán vấn đề

GPU của bạn mất bao nhiêu thời gian
Chờ đợi dữ liệu?

Chi phí đào tạo AI được xác định bởi thời gian sử dụng GPU, nhưng hơn 40% thời gian tính toán bị lãng phí do tắc nghẽn I/O lưu trữ.

Thuế ẩn của TCP Stack

Với mỗi lần đọc dữ liệu, CPU phải xử lý phân mảnh gói TCP, tính toán checksum và chuyển đổi ngữ cảnh kernel. Việc này không tạo ra giá trị tính toán AI nào nhưng âm thầm tiêu tốn đến 99% tài nguyên CPU.

Sử dụng CPU ≥ 99%

Chi phí nhân bốn của việc sao chép bộ nhớ

Trong đường dẫn NFS truyền thống, cùng một dữ liệu phải được sao chép 4-6 lần giữa bộ đệm kernel và không gian người dùng trước khi đến GPU. Mỗi lần sao chép đều tăng độ trễ, và mỗi micro giây trễ thêm đều làm giảm sức mạnh tính toán.

Độ trễ 100–500 μs

Chi phí thực sự của GPU nhàn rỗi

Lấy ví dụ một cụm 8×H100, chi phí đám mây vượt quá $24 mỗi giờ. Khi hiệu suất sử dụng GPU giảm xuống 60% do tắc nghẽn I/O, gần $10 mỗi giờ bị lãng phí hoàn toàn.

GPU nhàn rỗi > 40%

Quy mô càng lớn, tắc nghẽn càng sâu

Nếu chỉ dùng một GPU thì còn kiểm soát được, nhưng khi mở rộng lên 4, 8 hoặc 16 GPU cùng đọc từ một nguồn lưu trữ, độ trễ tranh chấp TCP NFS truyền thống sẽ tăng theo cấp số nhân.

Điểm gãy đồng thời đa node

Giải pháp kỹ thuật

Hai lộ trình,
Kết quả hoàn toàn khác biệt

NFS qua RDMA không chỉ là một chỉnh sửa nhỏ cho giao thức truyền thống; nó tái cấu trúc toàn bộ đường truyền dữ liệu từ lưu trữ đến bộ nhớ GPU.

NFS truyền thống qua TCP Nút thắt hiệu năng

①

Ứng dụng gửi yêu cầu đọc Nhiệm vụ đào tạo AI yêu cầu batch dữ liệu tiếp theo

Vào chế độ kernel — Chuyển đổi ngữ cảnh #1 Ứng dụng chuyển sang kernel; CPU phải lưu/khôi phục toàn bộ trạng thái thanh ghi, mất 1–10 μs

Xử lý toàn bộ TCP/IP Stack Phân mảnh TCP, truyền lại và tính toán checksum đều do CPU thực hiện và không thể chuyển giao cho phần cứng.

②

NIC truyền dữ liệu Dữ liệu được đóng gói và gửi lên mạng

Quay lại Kernel — Chuyển đổi ngữ cảnh #2 Bên nhận vào lại chế độ kernel, kích hoạt chuyển đổi ngữ cảnh lần hai.

Sao chép dữ liệu ×4–6 lần Bộ đệm kernel → bộ đệm DMA → không gian người dùng; mỗi lần sao chép tiêu tốn băng thông CPU và bộ nhớ.

③

Ứng dụng cuối cùng nhận được dữ liệu GPU hoàn toàn không hoạt động trong thời gian chờ.

Độ trễ End-to-End100 – 500 μs

Sử dụng CPU≈ 99%

Tỷ lệ chờ GPU> 40%

NFS qua RDMA (RoCE) TS-h1290FX

✓

Ứng dụng gửi yêu cầu đọc Nhiệm vụ huấn luyện AI yêu cầu lô dữ liệu tiếp theo

✓

Kernel Bypass — Giao tiếp trực tiếp HCA Ứng dụng bỏ qua kernel hệ điều hành và giao tiếp trực tiếp với RDMA NIC (HCA), loại bỏ chuyển đổi ngữ cảnh.

✓

Phần cứng xử lý toàn bộ giao thức HCA thực hiện tất cả tính toán giao thức mạng ở cấp phần cứng, hoàn toàn giải phóng CPU cho tính toán AI.

✓

Ghi bộ nhớ trực tiếp không sao chép Dữ liệu được ghi trực tiếp từ ổ NVMe NAS vào bộ nhớ ứng dụng của máy chủ AI, không cần sao chép trung gian.

✓

Dữ liệu sẵn sàng, GPU bắt đầu tính toán ngay lập tức Toàn bộ luồng dữ liệu không có chuyển đổi kernel, không sao chép dư thừa và không tiêu tốn CPU cho ngăn xếp giao thức.

Độ trễ End-to-End1 – 2 μs

Sử dụng CPU≈ 15%

Tỷ lệ chờ GPU< 5%

Mục thông số	QNAP TS-h1290FX	Đối thủ A (SATA NAS)	Đối thủ B (Enterprise AFA)
CPU	AMD EPYC™ 7302P 16 nhân / 3.3 GHz Mạnh nhất	Intel Xeon D-1541 8 nhân / 2.7 GHz	Dòng Intel cao cấp
Giao diện lưu trữ	NVMe PCIe Gen 4 ×4 U.2 Nhanh nhất	SATA 6 Gb/s	NVMe / SAS / FC
Khe cắm NVMe	12 × 2.5" U.2 PCIe Gen 4	Không hỗ trợ gốc (cần bộ chuyển đổi)Không hỗ trợ	48 × 2.5" NVMe
NFS qua RDMA	✓ Hỗ trợ gốc tối ưu hóa hoàn toàn Gốc	✗ Không hỗ trợ Không hỗ trợ	△ Hỗ trợ một phần
Mạng tích hợp sẵn	2× 25GbE SFP28 + 2× 2.5GbE	2× 10GbE + 4× 1GbE	Nhiều 25/100GbE (tùy thuộc cấu hình)
Mở rộng PCIe	4× PCIe Gen 4 Gen 4	2× PCIe Gen 3	Nhiều khe mật độ cao
Bộ nhớ tối đa	1 TB DDR4 ECC 3200 MHz	64 GB DDR4 2666 MHz	1.280 GB
Hệ thống file ZFS	✓ Tích hợp gốc QuTS hero	✗	Phụ thuộc vào nhà cung cấp
Lưu trữ Đối tượng S3	✓ QuObjects (bao gồm Object Lock)	✗	Phụ thuộc vào nhà cung cấp
Cách ly đa người thuê	✓ Chia sẻ NFS + cách ly snapshot ZFS	Hỗ trợ hạn chế	Được hỗ trợ

Tình huống áp dụng

Ai đang sử dụng,
và các vấn đề được giải quyết

🤖

Huấn luyện mô hình AI / LLM

Nhiều nút GPU đọc song song hàng trăm GB bộ dữ liệu huấn luyện. Với NFS truyền thống, thời gian chờ I/O vượt quá thời gian tính toán. RDMA đảm bảo truyền dữ liệu đáp ứng nhu cầu GPU.

Tăng hiệu suất sử dụng GPU 40% → >95%

Thời gian huấn luyện mỗi epoch Giảm 30–60%

Tải CPU lưu trữ 99% → 15%

🏥

AI hình ảnh y tế thông minh

Phiến mô bệnh học và ảnh DICOM 3D thường có dung lượng hàng GB. Nếu chẩn đoán hỗ trợ AI bị gián đoạn khi đọc, lợi ích lâm sàng sẽ bị ảnh hưởng nghiêm trọng. Lưu trữ độ trễ thấp giúp AI chẩn đoán hoạt động tối ưu.

Tăng tốc tiền xử lý hình ảnh Song song đa luồng không bị chậm

Thời gian chờ tạo báo cáo Thời gian phản hồi giảm đáng kể

Tính toàn vẹn dữ liệu Bảo vệ tự phục hồi ZFS

🏭

Phân tích dữ liệu lớn hiệu suất bán dẫn

Dây chuyền sản xuất tạo ra lượng lớn dữ liệu quy trình mỗi giây. Mô hình AI phải phân tích dữ liệu lịch sử theo thời gian thực để tìm biến số then chốt. Độ trễ I/O dẫn đến chậm phân tích, cuối cùng gây thất thoát hiệu suất.

Tốc độ truy xuất dữ liệu lịch sử Truy cập mili giây → micro giây

Phân tích liên tục 24/7 Hỗ trợ all-flash tiết kiệm điện

TCO Phần cứng tinh gọn cho hiệu suất doanh nghiệp

Câu hỏi thường gặp

Mọi điều bạn có thể muốn hỏi,
Ngay tại đây

RDMA có yêu cầu switch mạng chuyên dụng không? Tôi có thể sử dụng kiến trúc trung tâm dữ liệu hiện tại không? ▾

NFS qua RDMA (RoCE v2) hoạt động trên mạng Ethernet tiêu chuẩn nhưng yêu cầu switch hỗ trợ PFC (Priority Flow Control) để tạo môi trường Ethernet không mất gói. Hầu hết các switch doanh nghiệp hiện đại (ví dụ: Mellanox/NVIDIA Spectrum, Cisco Nexus, Arista series) đều hỗ trợ tính năng này. QNAP có thể tư vấn lập kế hoạch mạng để giúp xác nhận môi trường hiện tại của bạn có tương thích hay không.

Khoảng cách độ trễ thực tế giữa NFS qua RDMA và NFS truyền thống qua TCP lớn như thế nào? ▾

Trong điều kiện phòng thí nghiệm, độ trễ đầu-cuối của NFS qua TCP thường dao động từ 100–500 micro giây (μs), với các nút thắt chủ yếu đến từ chuyển đổi ngữ cảnh kernel và sao chép bộ nhớ. NFS qua RDMA có thể giảm độ trễ xuống còn 1–2 μs—cải thiện khoảng 100 lần. Đối với các kịch bản huấn luyện AI với các truy xuất ngẫu nhiên lô nhỏ thường xuyên, khoảng cách này trực tiếp giúp tăng hiệu suất sử dụng GPU và rút ngắn tổng thời gian huấn luyện.

Hiệu quả sử dụng không gian của ZFS như thế nào? Nén và khử trùng lặp có hiệu quả với bộ dữ liệu huấn luyện AI không? ▾

ZFS tích hợp sẵn tính năng nén thời gian thực LZ4/Zstandard và loại bỏ trùng lặp dữ liệu cấp khối. Đối với bộ dữ liệu huấn luyện hình ảnh chứa lượng lớn mẫu tương tự nhau, tỷ lệ nén thường đạt 1.3–2 lần; với bộ dữ liệu dạng văn bản (như tập hợp văn bản đã mã hóa token), lợi ích nén còn rõ rệt hơn. Loại bỏ trùng lặp đặc biệt phù hợp để lưu trữ nhiều phiên bản checkpoint của mô hình, giúp tiết kiệm đáng kể dung lượng. Trên ZFS, nén được hỗ trợ bởi phần cứng nên gần như không ảnh hưởng đến hiệu năng I/O.

Chúng tôi chỉ có 4 GPU. Liệu TS-h1290FX có xứng đáng để đầu tư không? ▾

Chi phí tính theo giờ cho 4 GPU cao cấp (như H100/A100) đã rất lớn. Ngay cả trong các cụm nhỏ, nếu I/O lưu trữ khiến mức sử dụng GPU giảm dưới 70%, nghĩa là hơn 30% chi phí tính toán của bạn bị lãng phí. Đầu tư vào TS-h1290FX thường hoàn vốn trong vài tháng đến một năm, hoàn toàn nhờ vào hiệu suất tăng từ việc tận dụng GPU tốt hơn. Để tính toán TCO cụ thể, vui lòng liên hệ đội ngũ kinh doanh của chúng tôi.

TS-h1290FX có hỗ trợ nhiều nhóm sử dụng đồng thời (multi-tenancy) không? ▾

Hỗ trợ đầy đủ. TS-h1290FX có thể cấu hình nhiều vùng chia sẻ NFS độc lập, tài khoản người dùng riêng biệt và cô lập mạng. Kết hợp với cơ chế ZFS Dataset và Snapshot, bạn có thể thiết lập không gian lưu trữ, chiến lược sao lưu và kiểm soát truy cập độc lập cho từng nhóm hoặc phòng ban, rất lý tưởng cho các nhà cung cấp dịch vụ quản lý (MSP) hoặc các doanh nghiệp lớn có nhiều phòng ban nội bộ.

So với các nền tảng huấn luyện AI thuần cloud, TS-h1290FX on-premises có ưu điểm gì? ▾

Những thách thức chính của nền tảng cloud bao gồm phí truyền dữ liệu ra ngoài cực cao (egress), rủi ro tuân thủ quy định với dữ liệu huấn luyện nhạy cảm và chi phí tính toán dài hạn khó dự đoán. TS-h1290FX cung cấp lưu trữ on-premises tốc độ cao, đảm bảo dữ liệu không rời khỏi cơ sở của bạn, đồng thời sử dụng RDMA để đạt hiệu năng I/O tương đương lưu trữ cloud cao cấp. Đây là giải pháp cân bằng hoàn hảo giữa hiệu năng, chủ quyền dữ liệu và TCO.

TS-h1290FX có thể tích hợp vào quy trình MLOps hiện tại (ví dụ: Kubernetes, Kubeflow) không? ▾

Có. TS-h1290FX cung cấp khả năng mount NFS v4.1 tiêu chuẩn, Kubernetes có thể sử dụng trực tiếp thông qua PersistentVolume (PV). Trên các node Kubernetes hỗ trợ RDMA, kết hợp với RDMA Device Plugin sẽ dễ dàng kích hoạt kết nối NFS qua RDMA tốc độ tối đa. Ngoài ra, thông qua các endpoint tương thích S3 do QuObjects cung cấp, thiết bị có thể tích hợp liền mạch vào chuỗi công cụ MLOps sử dụng giao thức S3 (như MLflow artifact store hoặc DVC remote storage).

Làm thế nào chúng ta xử lý sao lưu và phục hồi thảm họa cho các checkpoint mô hình? ▾

TS-h1290FX cung cấp chiến lược bảo vệ nhiều lớp: ảnh chụp nhanh ZFS có thể được lên lịch tự động mỗi giờ, cung cấp các điểm khôi phục chi tiết; kết hợp với một NAS ZFS khác, SnapSync cho phép đồng bộ hóa cấp khối theo thời gian thực để phục hồi thảm họa từ xa; đối với lưu trữ lâu dài, Hybrid Backup Sync (HBS 3) hỗ trợ sao lưu dữ liệu lên cloud (AWS S3, Azure Blob, B2, v.v.). Ba lớp bảo vệ này có thể được cấu hình linh hoạt theo yêu cầu RTO/RPO của bạn.

TS-h1290FX có hỗ trợ giao thức lưu trữ đối tượng S3 không? ▾

Được hỗ trợ. Sau khi cài đặt QuObjects, TS-h1290FX hoạt động như một điểm lưu trữ đối tượng S3-compatible tại chỗ, hỗ trợ lưu trữ bất biến Object Lock (WORM). Điều này cho phép quy trình làm việc lai trong AI: đọc tập dữ liệu tốc độ cao trong giai đoạn huấn luyện qua NFS trên RDMA, và lưu trữ, quản lý an toàn các phiên bản mô hình và kết quả phân tích trong giai đoạn suy luận qua giao thức S3.

GPU của bạn không nên
Chờ đợi lưu trữ của bạn

GPU của bạn mất bao nhiêu thời gian
Chờ đợi dữ liệu?

Thuế ẩn của TCP Stack

Chi phí nhân bốn của việc sao chép bộ nhớ

Chi phí thực sự của GPU nhàn rỗi

Quy mô càng lớn, tắc nghẽn càng sâu

Hai lộ trình,
Kết quả hoàn toàn khác biệt

Các con số phía sau
TS-h1290FX

Xem sự khác biệt
Một cách rõ ràng

Ai đang sử dụng,
và các vấn đề được giải quyết

Huấn luyện mô hình AI / LLM

AI hình ảnh y tế thông minh

Phân tích dữ liệu lớn hiệu suất bán dẫn

Mọi điều bạn có thể muốn hỏi,
Ngay tại đây

Loại bỏ thời gian chờ GPU

GPU của bạn không nênChờ đợi lưu trữ của bạn

GPU của bạn mất bao nhiêu thời gianChờ đợi dữ liệu?

Thuế ẩn của TCP Stack

Chi phí nhân bốn của việc sao chép bộ nhớ

Chi phí thực sự của GPU nhàn rỗi

Quy mô càng lớn, tắc nghẽn càng sâu

Hai lộ trình,Kết quả hoàn toàn khác biệt

Các con số phía sauTS-h1290FX

Xem sự khác biệtMột cách rõ ràng

Ai đang sử dụng,và các vấn đề được giải quyết

Huấn luyện mô hình AI / LLM

AI hình ảnh y tế thông minh

Phân tích dữ liệu lớn hiệu suất bán dẫn

Mọi điều bạn có thể muốn hỏi,Ngay tại đây

Loại bỏ thời gian chờ GPU

GPU của bạn không nên
Chờ đợi lưu trữ của bạn

GPU của bạn mất bao nhiêu thời gian
Chờ đợi dữ liệu?

Hai lộ trình,
Kết quả hoàn toàn khác biệt

Các con số phía sau
TS-h1290FX

Xem sự khác biệt
Một cách rõ ràng

Ai đang sử dụng,
và các vấn đề được giải quyết

Mọi điều bạn có thể muốn hỏi,
Ngay tại đây