Mỗi mili giây chờ I/O đều lãng phí sức mạnh tính toán GPU đắt đỏ.
TS-h1290FX với NFS qua RDMA đảm bảo hiệu suất lưu trữ theo kịp tốc độ tính toán.
Chi phí đào tạo AI được xác định bởi thời gian sử dụng GPU, nhưng hơn 40% thời gian tính toán bị lãng phí do tắc nghẽn I/O lưu trữ.
Với mỗi lần đọc dữ liệu, CPU phải xử lý phân mảnh gói TCP, tính toán checksum và chuyển đổi ngữ cảnh kernel. Việc này không tạo ra giá trị tính toán AI nào nhưng âm thầm tiêu tốn đến 99% tài nguyên CPU.
Sử dụng CPU ≥ 99%Trong đường dẫn NFS truyền thống, cùng một dữ liệu phải được sao chép 4-6 lần giữa bộ đệm kernel và không gian người dùng trước khi đến GPU. Mỗi lần sao chép đều tăng độ trễ, và mỗi micro giây trễ thêm đều làm giảm sức mạnh tính toán.
Độ trễ 100–500 μsLấy ví dụ một cụm 8×H100, chi phí đám mây vượt quá $24 mỗi giờ. Khi hiệu suất sử dụng GPU giảm xuống 60% do tắc nghẽn I/O, gần $10 mỗi giờ bị lãng phí hoàn toàn.
GPU nhàn rỗi > 40%Nếu chỉ dùng một GPU thì còn kiểm soát được, nhưng khi mở rộng lên 4, 8 hoặc 16 GPU cùng đọc từ một nguồn lưu trữ, độ trễ tranh chấp TCP NFS truyền thống sẽ tăng theo cấp số nhân.
Điểm gãy đồng thời đa nodeNFS qua RDMA không chỉ là một chỉnh sửa nhỏ cho giao thức truyền thống; nó tái cấu trúc toàn bộ đường truyền dữ liệu từ lưu trữ đến bộ nhớ GPU.
| Mục thông số | QNAP TS-h1290FX | Đối thủ A (SATA NAS) | Đối thủ B (Enterprise AFA) |
|---|---|---|---|
| CPU | AMD EPYC™ 7302P 16 nhân / 3.3 GHz Mạnh nhất | Intel Xeon D-1541 8 nhân / 2.7 GHz | Dòng Intel cao cấp |
| Giao diện lưu trữ | NVMe PCIe Gen 4 ×4 U.2 Nhanh nhất | SATA 6 Gb/s | NVMe / SAS / FC |
| Khe cắm NVMe | 12 × 2.5" U.2 PCIe Gen 4 | Không hỗ trợ gốc (cần bộ chuyển đổi)Không hỗ trợ | 48 × 2.5" NVMe |
| NFS qua RDMA | ✓ Hỗ trợ gốc tối ưu hóa hoàn toàn Gốc | ✗ Không hỗ trợ Không hỗ trợ | △ Hỗ trợ một phần |
| Mạng tích hợp sẵn | 2× 25GbE SFP28 + 2× 2.5GbE | 2× 10GbE + 4× 1GbE | Nhiều 25/100GbE (tùy thuộc cấu hình) |
| Mở rộng PCIe | 4× PCIe Gen 4 Gen 4 | 2× PCIe Gen 3 | Nhiều khe mật độ cao |
| Bộ nhớ tối đa | 1 TB DDR4 ECC 3200 MHz | 64 GB DDR4 2666 MHz | 1.280 GB |
| Hệ thống file ZFS | ✓ Tích hợp gốc QuTS hero | ✗ | Phụ thuộc vào nhà cung cấp |
| Lưu trữ Đối tượng S3 | ✓ QuObjects (bao gồm Object Lock) | ✗ | Phụ thuộc vào nhà cung cấp |
| Cách ly đa người thuê | ✓ Chia sẻ NFS + cách ly snapshot ZFS | Hỗ trợ hạn chế | Được hỗ trợ |
Nhiều nút GPU đọc song song hàng trăm GB bộ dữ liệu huấn luyện. Với NFS truyền thống, thời gian chờ I/O vượt quá thời gian tính toán. RDMA đảm bảo truyền dữ liệu đáp ứng nhu cầu GPU.
Phiến mô bệnh học và ảnh DICOM 3D thường có dung lượng hàng GB. Nếu chẩn đoán hỗ trợ AI bị gián đoạn khi đọc, lợi ích lâm sàng sẽ bị ảnh hưởng nghiêm trọng. Lưu trữ độ trễ thấp giúp AI chẩn đoán hoạt động tối ưu.
Dây chuyền sản xuất tạo ra lượng lớn dữ liệu quy trình mỗi giây. Mô hình AI phải phân tích dữ liệu lịch sử theo thời gian thực để tìm biến số then chốt. Độ trễ I/O dẫn đến chậm phân tích, cuối cùng gây thất thoát hiệu suất.
TS-h1290FX × NFS qua RDMA — Hạ tầng lưu trữ cho huấn luyện AI tại chỗ