Elimine os estrangulamentos de IA Armazenamento com NFS sobre RDMA

Diagnóstico do problema

Quanto tempo passam as suas GPUs
à espera de dados?

Os custos de treino de IA são determinados pelo tempo de GPU, mas mais de 40% do tempo de computação é desperdiçado devido a estrangulamentos de I/O de Armazenamento.

O imposto oculto da pilha TCP

Por cada leitura de dados, a CPU tem de processar a fragmentação de pacotes TCP, cálculos de soma de verificação e Switch de contexto do kernel. Este overhead não gera qualquer valor de computação de IA, mas consome silenciosamente até 99% dos recursos da CPU.

Utilização da CPU ≥ 99%

O custo quádruplo da cópia de memória

Numa via NFS tradicional, o mesmo dados tem de ser copiado 4 a 6 vezes entre o buffer do kernel e o espaço do utilizador antes de chegar à GPU. Cada cópia acrescenta latência e cada microssegundo adicional de latência reduz a capacidade de computação.

Latência 100–500 μs

O verdadeiro custo do tempo ocioso da GPU

Tomando como exemplo um cluster de 8×H100, os custos na cloud excedem 24 USD por hora. Quando a utilização da GPU desce para 60% devido a estrangulamentos de I/O, quase 10 USD por hora são completamente desperdiçados.

GPU ociosa > 40%

Quanto maior a escala, maior o estrangulamento

Embora seja quase gerível com uma única GPU, expandir para 4, 8 ou 16 GPUs a ler em simultâneo do mesmo Armazenamento faz com que a latência de contenção do NFS TCP tradicional piore exponencialmente.

Ponto de rutura da concorrência multi-nó

Solução técnica

Dois caminhos,
Resultados completamente diferentes

NFS sobre RDMA não é apenas um pequeno ajuste aos protocolos tradicionais; reconstrói fundamentalmente todo o caminho de dados desde Armazenamento até à memória da GPU.

NFS tradicional sobre TCP Estrangulamento de desempenho

①

Aplicação emite pedido de leitura Tarefa de treino de IA solicita o próximo lote de dados

Entra em modo kernel — Switch de contexto #1 App faz Switch para o kernel; a CPU tem de guardar/restaurar todos os estados dos registos, levando 1–10 μs

Processamento completo da pilha TCP/IP A fragmentação TCP, retransmissão e cálculos de soma de verificação são executados pela CPU e não podem ser descarregados.

②

NIC transmite dados dados é encapsulado e enviado para a rede

Retorna ao Kernel — Contexto Switch #2 O recetor entra novamente em modo kernel, desencadeando um segundo contexto Switch.

dados copiado ×4–6 vezes Buffer do kernel → buffer DMA → espaço do utilizador; cada cópia consome largura de banda da CPU e da memória.

③

A aplicação recebe finalmente dados As GPUs permanecem completamente inativas durante a espera.

Latência ponto a ponto100 – 500 μs

Utilização da CPU≈ 99%

Rácio de espera da GPU> 40%

NFS sobre RDMA (RoCE) TS-h1290FX

✓

A aplicação emite pedido de leitura Tarefa de treino de IA solicita o próximo lote de dados

✓

Bypass ao Kernel — Comunicação direta HCA A aplicação contorna o kernel do SO e comunica diretamente com a NIC RDMA (HCA), eliminando o contexto Switch.

✓

O hardware descarrega todo o processamento do protocolo O HCA executa todos os cálculos do protocolo de rede ao nível do hardware, libertando completamente a CPU para computação de IA.

✓

Escrita direta em memória sem cópia dados é escrito diretamente do NAS NVMe unidades para a memória da aplicação do servidor de IA, sem necessidade de cópias intermédias.

✓

dados pronto, GPU começa a computar instantaneamente Todo o percurso de dados está livre de Switch do kernel, cópias redundantes e consumo de CPU pela pilha de protocolos.

Latência ponto a ponto1 – 2 μs

Utilização da CPU≈ 15%

Rácio de espera da GPU< 5%

Item de especificação	QNAP TS-h1290FX	Concorrente A (SATA NAS)	Concorrente B (Enterprise AFA)
CPU	AMD EPYC™ 7302P 16C / 3,3 GHz Mais forte	Intel Xeon D-1541 8C / 2,7 GHz	Série Intel topo de gama
Armazenamento Interface	NVMe PCIe Gen 4 ×4 U.2 Mais rápido	SATA 6 Gb/s	NVMe / SAS / FC
Ranhuras NVMe	12 × 2,5" U.2 PCIe Gen 4	Sem suporte nativo (necessário adaptador)Não suportado	48 × 2,5" NVMe
NFS sobre RDMA	✓ Suporte nativo totalmente otimizado Nativo	✗ Não suportado Não suportado	△ Parcialmente suportado
Incorporado Rede	2× 25GbE SFP28 + 2× 2,5GbE	2× 10GbE + 4× 1GbE	Vários 25/100GbE (depende da configuração)
Expansão PCIe	4× PCIe Gen 4 Gen 4	2× PCIe Gen 3	Alta densidade multi-ranhura
Memória máxima	1 TB DDR4 ECC 3200 MHz	64 GB DDR4 2666 MHz	1 280 GB
Sistema de ficheiros ZFS	✓ Integração nativa QuTS hero	✗	Depende do fornecedor
S3 Object Armazenamento	✓ QuObjects (inclui Object Lock)	✗	Depende do fornecedor
Isolamento Multi-inquilino	✓ Partilhas NFS + isolamento de snapshots ZFS	Suporte limitado	Suportada

Cenários aplicáveis

Quem o utiliza,
e os problemas que resolve

🤖

Treino de Modelos de IA / LLM

Múltiplos nós GPU leem centenas de GB de conjuntos de treino em paralelo. Com NFS tradicional, o tempo de espera de E/S excede o tempo de computação. O RDMA garante que a entrega de dados acompanha a procura da GPU.

Aumento da utilização da GPU 40% → >95%

Tempo de treino por época Reduzido em 30–60%

Carga da CPU Armazenamento 99% → 15%

🏥

IA de Imagiologia em Saúde Inteligente

Lâminas de patologia e imagens DICOM 3D frequentemente ocupam gigabytes. Se o diagnóstico assistido por IA parar na leitura, os benefícios clínicos ficam gravemente comprometidos. A baixa latência de Armazenamento permite que a IA de diagnóstico opere com máxima eficiência.

Aceleração do pré-processamento de imagens Multi-caminho paralelo sem abrandamento

Tempo de espera para geração de relatórios Tempo de resposta significativamente reduzido

Integridade de dados Proteção de autorreparação ZFS

🏭

Análise de grandes dados de rendimento de semicondutores

As linhas de produção geram enormes dados de processo por segundo. Os modelos de IA têm de analisar dados históricos em tempo real para encontrar variáveis-chave de rendimento. A latência de E/S traduz-se em atrasos na análise, resultando em perda de rendimento.

Velocidade de recuperação de dados históricos Acesso em milissegundos → microssegundos

Análise contínua 24/7 Suporte de baixo consumo totalmente em flash

TCO Hardware otimizado para desempenho empresarial

Perguntas frequentes

Tudo o que pode querer perguntar,
Aqui mesmo

O RDMA requer Switch de rede especializados? Posso utilizar a arquitetura do meu centro de dados existente? ▾

O NFS sobre RDMA (RoCE v2) funciona em redes Ethernet padrão, mas requer Switch que suportem PFC (Priority Flow Control) para permitir um ambiente Ethernet sem perdas. A maioria dos Switch empresariais modernos (por exemplo, Mellanox/NVIDIA Spectrum, Cisco Nexus, séries Arista) suporta esta funcionalidade. A QNAP pode fornecer aconselhamento de planeamento de rede para Ajuda confirmar se o seu ambiente atual é compatível.

Qual é a diferença real de latência entre NFS sobre RDMA e NFS tradicional sobre TCP? ▾

Em condições laboratoriais, a latência end-to-end do NFS sobre TCP varia normalmente entre 100–500 microssegundos (μs), com os principais estrangulamentos a resultarem de Switch de contexto do kernel e cópia de memória. O NFS sobre RDMA pode reduzir a latência para 1–2 μs—uma melhoria de cerca de 100 vezes. Para cenários de treino de IA com leituras aleatórias frequentes de pequenos lotes, esta diferença traduz-se diretamente numa melhor utilização da GPU e em ciclos de treino globalmente mais curtos.

Qual é a eficiência do espaço do ZFS? A compressão e a eliminação de duplicados são eficazes para conjuntos de treino de IA? ▾

O ZFS inclui compressão em tempo real LZ4/Zstandard e eliminação de duplicados a nível de bloco. Para conjuntos de treino de imagens com grandes quantidades de amostras semelhantes, a taxa de compressão atinge frequentemente 1,3–2×; para conjuntos de dados baseados em texto (como corpora tokenizados), os benefícios da compressão são ainda mais significativos. A eliminação de duplicados é especialmente adequada para armazenar várias versões de checkpoints de modelos, podendo poupar grandes quantidades de espaço. No ZFS, a compressão é assistida por hardware, o que significa que tem um impacto mínimo no desempenho de I/O.

Só temos 4 GPUs. Vale a pena investir no TS-h1290FX? ▾

O custo horário de computação para 4 GPUs topo de gama (como H100/A100) já é significativo. Mesmo em clusters de pequena escala, se o I/O de Armazenamento fizer com que a utilização da GPU desça abaixo dos 70%, significa que mais de 30% do seu investimento em computação está a ser desperdiçado. O investimento num TS-h1290FX normalmente atinge o ROI em poucos meses a um ano, impulsionado inteiramente pelos ganhos de desempenho resultantes do aumento da utilização da GPU. Para um cálculo TCO específico, contacte a nossa equipa de vendas.

O TS-h1290FX suporta a utilização simultânea por várias equipas (multi-inquilinos)? ▾

Totalmente suportado. O TS-h1290FX pode ser configurado com múltiplas partilhas NFS independentes, contas de utilizador individuais e isolamento de rede. Combinado com os mecanismos de Dataset e Snapshot do ZFS, pode estabelecer Espaço de Armazenamento independentes, estratégias de backup e controlos de acesso para cada equipa ou departamento, tornando-o ideal para Fornecedores de Serviços Geridos (MSPs) ou para cenários internos de grandes empresas com vários departamentos.

Em comparação com plataformas de treino de IA totalmente na cloud, quais são as vantagens de um TS-h1290FX local? ▾

Os principais desafios das plataformas cloud incluem taxas de transferência de dados exorbitantes (custos de saída), riscos de conformidade regulamentar para dados sensíveis de treino e custos de computação a longo prazo imprevisíveis. O TS-h1290FX fornece Armazenamento local de alta velocidade, garantindo que os dados nunca saem das suas instalações enquanto utiliza RDMA para igualar o desempenho de I/O dos Armazenamento cloud topo de gama. Atua como o equilíbrio perfeito entre desempenho, soberania de dados e TCO.

O TS-h1290FX pode ser integrado em fluxos de trabalho MLOps existentes (por exemplo, Kubernetes, Kubeflow)? ▾

Sim. O TS-h1290FX fornece montagem NFS v4.1 padrão, que o Kubernetes pode utilizar diretamente através de PersistentVolume (PV). Nos nós Kubernetes que suportam RDMA, a combinação com o RDMA Device Plugin permite facilmente ligações NFS a toda a velocidade sobre RDMA. Além disso, através dos endpoints compatíveis com S3 fornecidos pelo QuObjects, pode ser integrado de forma transparente em cadeias de ferramentas MLOps que utilizem o protocolo S3 (como o repositório de artefactos MLflow ou armazenamento remoto DVC Armazenamento).

Como é feito o backup e a recuperação após desastre dos checkpoints dos modelos? ▾

O TS-h1290FX oferece uma estratégia de proteção em múltiplas camadas: os snapshots ZFS podem ser agendados para execução automática a cada hora, fornecendo pontos de restauro granulares; emparelhado com outro NAS ZFS, o SnapSync permite sincronização em tempo real ao nível de bloco para recuperação após desastre fora do local; para arquivamento a longo prazo, o Hybrid Backup Sync (HBS 3) suporta o backup de dados para a cloud (AWS S3, Azure Blob, B2, etc.). Esta proteção tripla pode ser configurada de forma flexível de acordo com os seus requisitos de RTO/RPO.

O TS-h1290FX suporta o protocolo de objeto S3 Armazenamento? ▾

Suportado. Após instalar o QuObjects, o TS-h1290FX funciona como um endpoint de Armazenamento compatível com S3 no local, suportando Object Lock (WORM) Armazenamento imutável. Isto permite fluxos de trabalho híbridos em IA: leitura de conjuntos de dados em alta velocidade durante a fase de treino via NFS sobre RDMA, e Armazenamento segura e gestão de versões de modelos e resultados de análise durante a fase de inferência através do protocolo S3.

A sua GPU não devia
esperar pelo seu Armazenamento

Quanto tempo passam as suas GPUs
à espera de dados?

O imposto oculto da pilha TCP

O custo quádruplo da cópia de memória

O verdadeiro custo do tempo ocioso da GPU

Quanto maior a escala, maior o estrangulamento

Dois caminhos,
Resultados completamente diferentes

Os números por trás de
o TS-h1290FX

Veja a diferença
Claramente

Quem o utiliza,
e os problemas que resolve

Treino de Modelos de IA / LLM

IA de Imagiologia em Saúde Inteligente

Análise de grandes dados de rendimento de semicondutores

Tudo o que pode querer perguntar,
Aqui mesmo

Eliminar tempos de espera da GPU

A sua GPU não deviaesperar pelo seu Armazenamento

Quanto tempo passam as suas GPUsà espera de dados?

O imposto oculto da pilha TCP

O custo quádruplo da cópia de memória

O verdadeiro custo do tempo ocioso da GPU

Quanto maior a escala, maior o estrangulamento

Dois caminhos,Resultados completamente diferentes

Os números por trás deo TS-h1290FX

Veja a diferençaClaramente

Quem o utiliza,e os problemas que resolve

Treino de Modelos de IA / LLM

IA de Imagiologia em Saúde Inteligente

Análise de grandes dados de rendimento de semicondutores

Tudo o que pode querer perguntar,Aqui mesmo

Eliminar tempos de espera da GPU

A sua GPU não devia
esperar pelo seu Armazenamento

Quanto tempo passam as suas GPUs
à espera de dados?

Dois caminhos,
Resultados completamente diferentes

Os números por trás de
o TS-h1290FX

Veja a diferença
Claramente

Quem o utiliza,
e os problemas que resolve

Tudo o que pode querer perguntar,
Aqui mesmo