Cada milissegundo de espera de E/S desperdiça o poder de computação caro da GPU.
O TS-h1290FX com NFS sobre RDMA garante que o desempenho do armazenamento acompanhe a velocidade do processamento.
Os custos de treinamento de IA são determinados pelo tempo de GPU, mas mais de 40% do tempo de computação é desperdiçado devido a gargalos de I/O de armazenamento.
Para cada leitura de dados, a CPU precisa processar a fragmentação de pacotes TCP, cálculos de checksum e alternância de contexto do kernel. Essa sobrecarga não gera valor computacional para IA, mas consome silenciosamente até 99% dos recursos da CPU.
Uso da CPU ≥ 99%Em um caminho NFS tradicional, os mesmos dados precisam ser copiados de 4 a 6 vezes entre o buffer do kernel e o espaço do usuário antes de chegar à GPU. Cada cópia adiciona latência, e cada microssegundo extra de latência reduz o poder de computação.
Latência 100–500 μsTomando como exemplo um cluster de 8×H100, os custos em nuvem ultrapassam US$ 24 por hora. Quando a utilização da GPU cai para 60% devido a gargalos de I/O, quase US$ 10 por hora são completamente desperdiçados.
GPU ociosa > 40%Embora seja minimamente gerenciável com uma única GPU, expandir para 4, 8 ou 16 GPUs lendo simultaneamente do mesmo armazenamento faz com que a latência de contenção do NFS TCP tradicional piore exponencialmente.
Ponto de ruptura de concorrência multinóNFS sobre RDMA não é apenas um ajuste menor nos protocolos tradicionais; ele reconstrói fundamentalmente todo o caminho de dados do armazenamento até a memória da GPU.
| Item da especificação | QNAP TS-h1290FX | Concorrente A (NAS SATA) | Concorrente B (AFA empresarial) |
|---|---|---|---|
| CPU | AMD EPYC™ 7302P 16N / 3,3 GHz Mais forte | Intel Xeon D-1541 8N / 2,7 GHz | Série Intel de alto desempenho |
| Interface de armazenamento | NVMe PCIe de 4ª geração ×4 U.2 Mais rápido | SATA 6 Gb/s | NVMe / SAS / FC |
| Slots NVMe | 12 × 2,5" U.2 PCIe de 4ª geração | Sem suporte nativo (adaptador necessário)Não suportado | 48 × 2,5" NVMe |
| NFS sobre RDMA | ✓ Suporte nativo totalmente otimizado Nativo | ✗ Não suportado Não suportado | △ Suporte parcial |
| Rede integrada | 2× 25GbE SFP28 + 2× 2,5GbE | 2× 10GbE + 4× 1GbE | Múltiplas 25/100GbE (depende da configuração) |
| Expansão PCIe | 4× PCIe de 4ª geração 4ª geração | 2× PCIe de 3ª geração | Alta densidade, múltiplos slots |
| Memória máxima | 1 TB DDR4 ECC 3200 MHz | 64 GB DDR4 2666 MHz | 1.280 GB |
| Sistema de arquivos ZFS | ✓ Integração nativa QuTS hero | ✗ | Depende do fornecedor |
| Armazenamento de objetos S3 | ✓ QuObjects (inclui Object Lock) | ✗ | Depende do fornecedor |
| Isolamento multi-inquilino | ✓ Compartilhamentos NFS + isolamento de snapshot ZFS | Suporte limitado | Suportado |
Múltiplos nós de GPU leem centenas de GB de conjuntos de treinamento em paralelo. No NFS tradicional, o tempo de espera de E/S excede o tempo de computação. O RDMA garante que a entrega de dados acompanhe a demanda da GPU.
Lâminas de patologia e imagens DICOM 3D frequentemente ocupam gigabytes. Se o diagnóstico assistido por IA travar na leitura, os benefícios clínicos são severamente comprometidos. Armazenamento de baixa latência permite que a IA diagnóstica opere com máxima eficiência.
Linhas de produção geram grandes volumes de dados de processo por segundo. Modelos de IA precisam analisar dados históricos em tempo real para encontrar variáveis-chave de rendimento. Latência de E/S resulta em atrasos na análise, levando à perda de rendimento.
TS-h1290FX × NFS sobre RDMA — A infraestrutura de armazenamento para treinamento de IA local