Cada milissegundo de espera de I/O desperdiça o valioso poder de computação da GPU.
O TS-h1290FX com NFS sobre RDMA garante que o desempenho de Armazenamento acompanha a velocidade de computação.
Os custos de treino de IA são determinados pelo tempo de GPU, mas mais de 40% do tempo de computação é desperdiçado devido a estrangulamentos de I/O de Armazenamento.
Por cada leitura de dados, a CPU tem de processar a fragmentação de pacotes TCP, cálculos de soma de verificação e Switch de contexto do kernel. Este overhead não gera qualquer valor de computação de IA, mas consome silenciosamente até 99% dos recursos da CPU.
Utilização da CPU ≥ 99%Numa via NFS tradicional, o mesmo dados tem de ser copiado 4 a 6 vezes entre o buffer do kernel e o espaço do utilizador antes de chegar à GPU. Cada cópia acrescenta latência e cada microssegundo adicional de latência reduz a capacidade de computação.
Latência 100–500 μsTomando como exemplo um cluster de 8×H100, os custos na cloud excedem 24 USD por hora. Quando a utilização da GPU desce para 60% devido a estrangulamentos de I/O, quase 10 USD por hora são completamente desperdiçados.
GPU ociosa > 40%Embora seja quase gerível com uma única GPU, expandir para 4, 8 ou 16 GPUs a ler em simultâneo do mesmo Armazenamento faz com que a latência de contenção do NFS TCP tradicional piore exponencialmente.
Ponto de rutura da concorrência multi-nóNFS sobre RDMA não é apenas um pequeno ajuste aos protocolos tradicionais; reconstrói fundamentalmente todo o caminho de dados desde Armazenamento até à memória da GPU.
| Item de especificação | QNAP TS-h1290FX | Concorrente A (SATA NAS) | Concorrente B (Enterprise AFA) |
|---|---|---|---|
| CPU | AMD EPYC™ 7302P 16C / 3,3 GHz Mais forte | Intel Xeon D-1541 8C / 2,7 GHz | Série Intel topo de gama |
| Armazenamento Interface | NVMe PCIe Gen 4 ×4 U.2 Mais rápido | SATA 6 Gb/s | NVMe / SAS / FC |
| Ranhuras NVMe | 12 × 2,5" U.2 PCIe Gen 4 | Sem suporte nativo (necessário adaptador)Não suportado | 48 × 2,5" NVMe |
| NFS sobre RDMA | ✓ Suporte nativo totalmente otimizado Nativo | ✗ Não suportado Não suportado | △ Parcialmente suportado |
| Incorporado Rede | 2× 25GbE SFP28 + 2× 2,5GbE | 2× 10GbE + 4× 1GbE | Vários 25/100GbE (depende da configuração) |
| Expansão PCIe | 4× PCIe Gen 4 Gen 4 | 2× PCIe Gen 3 | Alta densidade multi-ranhura |
| Memória máxima | 1 TB DDR4 ECC 3200 MHz | 64 GB DDR4 2666 MHz | 1 280 GB |
| Sistema de ficheiros ZFS | ✓ Integração nativa QuTS hero | ✗ | Depende do fornecedor |
| S3 Object Armazenamento | ✓ QuObjects (inclui Object Lock) | ✗ | Depende do fornecedor |
| Isolamento Multi-inquilino | ✓ Partilhas NFS + isolamento de snapshots ZFS | Suporte limitado | Suportada |
Múltiplos nós GPU leem centenas de GB de conjuntos de treino em paralelo. Com NFS tradicional, o tempo de espera de E/S excede o tempo de computação. O RDMA garante que a entrega de dados acompanha a procura da GPU.
Lâminas de patologia e imagens DICOM 3D frequentemente ocupam gigabytes. Se o diagnóstico assistido por IA parar na leitura, os benefícios clínicos ficam gravemente comprometidos. A baixa latência de Armazenamento permite que a IA de diagnóstico opere com máxima eficiência.
As linhas de produção geram enormes dados de processo por segundo. Os modelos de IA têm de analisar dados históricos em tempo real para encontrar variáveis-chave de rendimento. A latência de E/S traduz-se em atrasos na análise, resultando em perda de rendimento.
TS-h1290FX × NFS sobre RDMA — A infraestrutura de Armazenamento para treino de IA no local