Elimine gargalos de armazenamento de IA com NFS sobre RDMA

Diagnóstico do problema

Quanto tempo suas GPUs
Passam esperando por dados?

Os custos de treinamento de IA são determinados pelo tempo de GPU, mas mais de 40% do tempo de computação é desperdiçado devido a gargalos de I/O de armazenamento.

O imposto oculto da pilha TCP

Para cada leitura de dados, a CPU precisa processar a fragmentação de pacotes TCP, cálculos de checksum e alternância de contexto do kernel. Essa sobrecarga não gera valor computacional para IA, mas consome silenciosamente até 99% dos recursos da CPU.

Uso da CPU ≥ 99%

O custo quádruplo da cópia de memória

Em um caminho NFS tradicional, os mesmos dados precisam ser copiados de 4 a 6 vezes entre o buffer do kernel e o espaço do usuário antes de chegar à GPU. Cada cópia adiciona latência, e cada microssegundo extra de latência reduz o poder de computação.

Latência 100–500 μs

O verdadeiro custo dociosidade da GPU

Tomando como exemplo um cluster de 8×H100, os custos em nuvem ultrapassam US$ 24 por hora. Quando a utilização da GPU cai para 60% devido a gargalos de I/O, quase US$ 10 por hora são completamente desperdiçados.

GPU ociosa > 40%

Quanto maior a escala, mais profundo o gargalo

Embora seja minimamente gerenciável com uma única GPU, expandir para 4, 8 ou 16 GPUs lendo simultaneamente do mesmo armazenamento faz com que a latência de contenção do NFS TCP tradicional piore exponencialmente.

Ponto de ruptura de concorrência multinó

Solução técnica

Dois caminhos,
Resultados completamente diferentes

NFS sobre RDMA não é apenas um ajuste menor nos protocolos tradicionais; ele reconstrói fundamentalmente todo o caminho de dados do armazenamento até a memória da GPU.

NFS tradicional sobre TCP Gargalo de desempenho

①

Aplicação emite solicitação de leitura A tarefa de treinamento de IA solicita o próximo lote de dados

Entra no modo kernel — Alternância de contexto #1 O aplicativo alterna para o kernel; a CPU precisa salvar/restaurar todos os estados dos registradores, levando de 1 a 10 μs

Processamento completo da pilha TCP/IP Fragmentação TCP, retransmissão e cálculos de checksum são executados pela CPU e não podem ser descarregados.

②

NIC transmite dados Os dados são encapsulados e enviados para a rede

Retorna ao kernel — Troca de contexto #2 O receptor entra novamente no modo kernel, acionando uma segunda troca de contexto.

Dados copiados ×4–6 vezes Buffer do kernel → buffer DMA → espaço do usuário; cada cópia consome CPU e largura de banda de memória.

③

O aplicativo finalmente recebe os dados As GPUs permanecem completamente ociosas durante a espera.

Latência de ponta a ponta100 – 500 μs

Uso da CPU≈ 99%

Taxa de espera da GPU> 40%

NFS sobre RDMA (RoCE) TS-h1290FX

✓

Aplicativo faz solicitação de leitura Tarefa de treinamento de IA solicita o próximo lote de dados

✓

Bypass do kernel — Comunicação direta com HCA O aplicativo ignora o kernel do SO e se comunica diretamente com a NIC RDMA (HCA), eliminando trocas de contexto.

✓

Hardware descarrega todo o processamento de protocolo O HCA executa todos os cálculos de protocolo de rede em nível de hardware, liberando completamente a CPU para computação de IA.

✓

Gravação direta de memória sem cópia Os dados são gravados diretamente dos SSDs NVMe do NAS para a memória do aplicativo do servidor de IA, sem necessidade de cópias intermediárias.

✓

Dados prontos, GPU começa a computar instantaneamente Todo o caminho dos dados está livre de trocas de kernel, cópias redundantes e sobrecarga de CPU com pilha de protocolos.

Latência de ponta a ponta1 – 2 μs

Uso da CPU≈ 15%

Taxa de espera da GPU< 5%

Comparação de especificações

Veja a diferença
Claramente

Item da especificação	QNAP TS-h1290FX	Concorrente A (NAS SATA)	Concorrente B (AFA empresarial)
CPU	AMD EPYC™ 7302P 16N / 3,3 GHz Mais forte	Intel Xeon D-1541 8N / 2,7 GHz	Série Intel de alto desempenho
Interface de armazenamento	NVMe PCIe de 4ª geração ×4 U.2 Mais rápido	SATA 6 Gb/s	NVMe / SAS / FC
Slots NVMe	12 × 2,5" U.2 PCIe de 4ª geração	Sem suporte nativo (adaptador necessário)Não suportado	48 × 2,5" NVMe
NFS sobre RDMA	✓ Suporte nativo totalmente otimizado Nativo	✗ Não suportado Não suportado	△ Suporte parcial
Rede integrada	2× 25GbE SFP28 + 2× 2,5GbE	2× 10GbE + 4× 1GbE	Múltiplas 25/100GbE (depende da configuração)
Expansão PCIe	4× PCIe de 4ª geração 4ª geração	2× PCIe de 3ª geração	Alta densidade, múltiplos slots
Memória máxima	1 TB DDR4 ECC 3200 MHz	64 GB DDR4 2666 MHz	1.280 GB
Sistema de arquivos ZFS	✓ Integração nativa QuTS hero	✗	Depende do fornecedor
Armazenamento de objetos S3	✓ QuObjects (inclui Object Lock)	✗	Depende do fornecedor
Isolamento multi-inquilino	✓ Compartilhamentos NFS + isolamento de snapshot ZFS	Suporte limitado	Suportado

Cenários aplicáveis

Quem está usando,
e os problemas que resolve

🤖

Treinamento de modelo AI / LLM

Múltiplos nós de GPU leem centenas de GB de conjuntos de treinamento em paralelo. No NFS tradicional, o tempo de espera de E/S excede o tempo de computação. O RDMA garante que a entrega de dados acompanhe a demanda da GPU.

Aumento da utilização da GPU 40% → >95%

Tempo de treinamento de uma época Reduzido em 30–60%

Carga da CPU de armazenamento 99% → 15%

🏥

Imagens inteligentes de saúde com IA

Lâminas de patologia e imagens DICOM 3D frequentemente ocupam gigabytes. Se o diagnóstico assistido por IA travar na leitura, os benefícios clínicos são severamente comprometidos. Armazenamento de baixa latência permite que a IA diagnóstica opere com máxima eficiência.

Aceleração do pré-processamento de imagens Multipath paralelo sem lentidão

Tempo de espera para geração de relatório Tempo de resposta significativamente reduzido

Integridade dos dados Proteção de autorrecuperação ZFS

🏭

Análise de Big Data de rendimento de semicondutores

Linhas de produção geram grandes volumes de dados de processo por segundo. Modelos de IA precisam analisar dados históricos em tempo real para encontrar variáveis-chave de rendimento. Latência de E/S resulta em atrasos na análise, levando à perda de rendimento.

Velocidade de recuperação de dados históricos Acesso em milissegundos → microssegundos

Análise contínua 24/7 Suporte all-flash de baixo consumo

TCO Hardware otimizado para desempenho corporativo

Perguntas frequentes

Tudo o que você pode querer perguntar,
Bem aqui

O RDMA requer switches de rede especializados? Posso usar a arquitetura do meu data center atual? ▾

NFS sobre RDMA (RoCE v2) opera em redes Ethernet padrão, mas requer switches que suportem PFC (Priority Flow Control) para criar um ambiente Ethernet sem perdas. A maioria dos switches corporativos modernos (por exemplo, Mellanox/NVIDIA Spectrum, Cisco Nexus, série Arista) oferece esse recurso. A QNAP pode fornecer consultoria de planejamento de rede para ajudar a confirmar se o seu ambiente atual é compatível.

Qual é a diferença real de latência entre NFS sobre RDMA e NFS tradicional sobre TCP? ▾

Em condições de laboratório, a latência ponta a ponta do NFS sobre TCP normalmente varia de 100 a 500 microssegundos (μs), com gargalos principalmente causados por trocas de contexto do kernel e cópia de memória. O NFS sobre RDMA pode reduzir a latência para 1–2 μs—uma melhoria de cerca de 100 vezes. Para cenários de treinamento de IA com leituras aleatórias frequentes em pequenos lotes, essa diferença resulta diretamente em melhor utilização da GPU e ciclos de treinamento mais curtos.

Qual é a eficiência de espaço do ZFS? A compactação e a desduplicação são eficazes para conjuntos de treinamento de IA? ▾

O ZFS possui compressão integrada em tempo real LZ4/Zstandard e desduplicação em nível de bloco. Para conjuntos de treinamento de imagens com grandes quantidades de amostras semelhantes, a taxa de compressão geralmente chega a 1,3–2×; para conjuntos de dados baseados em texto (como corpora tokenizados), os benefícios de compressão são ainda mais significativos. A desduplicação é especialmente adequada para armazenar várias versões de checkpoints de modelos, podendo economizar enormes quantidades de espaço. No ZFS, a compressão conta com suporte de hardware, o que significa impacto mínimo no desempenho de I/O.

Só temos 4 GPUs. Vale a pena investir no TS-h1290FX? ▾

O custo de computação por hora para 4 GPUs de alto desempenho (como H100/A100) já é significativo. Mesmo em clusters de pequeno porte, se o I/O de armazenamento fizer a utilização da GPU cair abaixo de 70%, isso significa que mais de 30% do seu investimento em computação está sendo desperdiçado. O investimento em um TS-h1290FX geralmente tem retorno (ROI) em poucos meses até um ano, impulsionado totalmente pelo ganho de desempenho ao aumentar a utilização da GPU. Para um cálculo específico de TCO, entre em contato com nossa equipe de vendas.

O TS-h1290FX suporta uso simultâneo por várias equipes (multi-inquilino)? ▾

Totalmente suportado. O TS-h1290FX pode ser configurado com múltiplos compartilhamentos NFS independentes, contas de usuário individuais e isolamento de rede. Combinado com os mecanismos de Dataset e Snapshot do ZFS, é possível criar espaços de armazenamento, estratégias de backup e controles de acesso independentes para cada equipe ou departamento, tornando-o ideal para Provedores de Serviços Gerenciados (MSPs) ou cenários internos de grandes empresas com múltiplos departamentos.

Em comparação com plataformas de treinamento de IA totalmente em nuvem, quais as vantagens de um TS-h1290FX local? ▾

Os principais desafios das plataformas em nuvem incluem taxas de transferência de dados exorbitantes (custos de egress), riscos de conformidade regulatória para dados de treinamento sensíveis e custos de computação de longo prazo imprevisíveis. O TS-h1290FX oferece armazenamento local de alta velocidade, garantindo que os dados nunca saiam da sua instalação, enquanto utiliza RDMA para igualar o desempenho de I/O do armazenamento em nuvem de alto nível. Ele atua como o equilíbrio perfeito entre desempenho, soberania dos dados e TCO.

O TS-h1290FX pode ser integrado a fluxos de trabalho MLOps existentes (por exemplo, Kubernetes, Kubeflow)? ▾

Sim. O TS-h1290FX fornece montagem padrão NFS v4.1, que o Kubernetes pode utilizar diretamente via PersistentVolume (PV). Em nós Kubernetes com suporte a RDMA, o emparelhamento com o RDMA Device Plugin permite facilmente conexões NFS em velocidade total via RDMA. Além disso, por meio dos endpoints compatíveis com S3 fornecidos pelo QuObjects, pode ser integrado de forma transparente a toolchains MLOps que utilizam o protocolo S3 (como o repositório de artefatos do MLflow ou armazenamento remoto DVC).

Como lidamos com backup e recuperação de desastres para checkpoints de modelos? ▾

O TS-h1290FX oferece uma estratégia de proteção em múltiplas camadas: snapshots ZFS podem ser agendados para execução automática a cada hora, fornecendo pontos de restauração granulares; emparelhado com outro NAS ZFS, o SnapSync permite a sincronização em tempo real em nível de bloco para recuperação de desastres fora do local; para arquivamento de longo prazo, o Hybrid Backup Sync (HBS 3) suporta o backup de dados para a nuvem (AWS S3, Azure Blob, B2, etc.). Essa proteção em três camadas pode ser configurada de forma flexível de acordo com seus requisitos de RTO/RPO.

O TS-h1290FX suporta o protocolo de armazenamento de objetos S3? ▾

Suportado. Após instalar o QuObjects, o TS-h1290FX atua como um endpoint de armazenamento de objetos compatível com S3 local, suportando armazenamento imutável Object Lock (WORM). Isso permite fluxos de trabalho híbridos em IA: leitura de conjuntos de dados em alta velocidade durante a fase de treinamento via NFS sobre RDMA, e armazenamento e gerenciamento seguro de versões de modelos e resultados de análise durante a fase de inferência via protocolo S3.

Sua GPU não deveria
Esperar pelo seu armazenamento

Quanto tempo suas GPUs
Passam esperando por dados?

O imposto oculto da pilha TCP

O custo quádruplo da cópia de memória

O verdadeiro custo dociosidade da GPU

Quanto maior a escala, mais profundo o gargalo

Dois caminhos,
Resultados completamente diferentes

Os números por trás
do TS-h1290FX

Veja a diferença
Claramente

Quem está usando,
e os problemas que resolve

Treinamento de modelo AI / LLM

Imagens inteligentes de saúde com IA

Análise de Big Data de rendimento de semicondutores

Tudo o que você pode querer perguntar,
Bem aqui

Elimine tempos de espera de GPU

Sua GPU não deveriaEsperar pelo seu armazenamento

Quanto tempo suas GPUsPassam esperando por dados?

O imposto oculto da pilha TCP

O custo quádruplo da cópia de memória

O verdadeiro custo dociosidade da GPU

Quanto maior a escala, mais profundo o gargalo

Dois caminhos,Resultados completamente diferentes

Os números por trásdo TS-h1290FX

Veja a diferençaClaramente

Quem está usando,e os problemas que resolve

Treinamento de modelo AI / LLM

Imagens inteligentes de saúde com IA

Análise de Big Data de rendimento de semicondutores

Tudo o que você pode querer perguntar,Bem aqui

Elimine tempos de espera de GPU

Sua GPU não deveria
Esperar pelo seu armazenamento

Quanto tempo suas GPUs
Passam esperando por dados?

Dois caminhos,
Resultados completamente diferentes

Os números por trás
do TS-h1290FX

Veja a diferença
Claramente

Quem está usando,
e os problemas que resolve

Tudo o que você pode querer perguntar,
Bem aqui