Elimina los cuellos de botella de IA Almacenamiento con NFS sobre RDMA

Diagnóstico del problema

¿Cuánto tiempo pasan tus GPU
esperando por datos?

El coste del entrenamiento de IA se determina por el tiempo de GPU, pero más del 40% del tiempo de computación se desperdicia debido a los cuellos de botella de E/S de Almacenamiento.

El coste oculto de la pila TCP

Por cada lectura de datos, la CPU debe procesar la fragmentación de paquetes TCP, los cálculos de suma de comprobación y el Conmutador de contexto del kernel. Esta sobrecarga no aporta valor al cómputo de IA, pero consume silenciosamente hasta el 99% de los recursos de la CPU.

Uso de CPU ≥ 99%

El cuádruple coste de la copia de memoria

En una ruta NFS tradicional, el mismo datos debe copiarse entre 4 y 6 veces entre el búfer del kernel y el espacio de usuario antes de llegar a la GPU. Cada copia añade latencia, y cada microsegundo extra de latencia reduce la potencia de cálculo.

Latencia 100–500 μs

El verdadero coste de la inactividad de la GPU

Tomando como ejemplo un clúster de 8×H100, los costes en la nube superan los 24 $ por hora. Cuando la utilización de la GPU cae al 60% debido a cuellos de botella de E/S, casi 10 $ por hora se desperdician por completo.

GPU inactiva > 40%

A mayor escala, mayor es el cuello de botella

Aunque apenas es manejable con una sola GPU, al ampliar a 4, 8 o 16 GPU leyendo simultáneamente del mismo Almacenamiento, la latencia por contención de NFS TCP tradicional empeora exponencialmente.

Punto de ruptura de concurrencia multinodo

Solución técnica

Dos caminos,
Resultados completamente diferentes

NFS sobre RDMA no es un simple ajuste de los protocolos tradicionales; reconstruye fundamentalmente toda la ruta de datos desde Almacenamiento hasta la memoria de la GPU.

NFS tradicional sobre TCP Cuello de botella de rendimiento

①

La aplicación emite una solicitud de lectura La tarea de entrenamiento de IA solicita el siguiente lote de datos

Entra en modo kernel — Conmutador de contexto #1 La app Conmutador al kernel; la CPU debe guardar/restaurar todos los estados de los registros, lo que lleva entre 1 y 10 μs

Procesamiento completo de la pila TCP/IP La fragmentación TCP, la retransmisión y los cálculos de suma de comprobación son ejecutados por la CPU y no se pueden descargar.

②

El NIC transmite datos datos se encapsula y se envía a la red

Vuelve al kernel — Cambio de contexto Conmutador #2 El receptor entra de nuevo en modo kernel, lo que provoca un segundo cambio de contexto Conmutador.

datos copiado ×4–6 veces Búfer del kernel → búfer DMA → espacio de usuario; cada copia consume ancho de banda de CPU y memoria.

③

La aplicación finalmente recibe datos Las GPU permanecen completamente inactivas durante la espera.

Latencia de extremo a extremo100 – 500 μs

Uso de CPU≈ 99%

Ratio de espera de GPU> 40%

NFS sobre RDMA (RoCE) TS-h1290FX

✓

La aplicación realiza una solicitud de lectura La tarea de entrenamiento de IA solicita el siguiente lote de datos

✓

Kernel Bypass — Comunicación directa con HCA La aplicación omite el kernel del sistema operativo y se comunica directamente con la NIC RDMA (HCA), eliminando el cambio de contexto Conmutador.

✓

El hardware descarga todo el procesamiento de protocolos El HCA realiza todos los cálculos de protocolos de red a nivel de hardware, liberando completamente la CPU para el cómputo de IA.

✓

Escritura directa en memoria sin copia (Zero-Copy) datos se escribe directamente desde el NVMe NAS unidades a la memoria de la aplicación del servidor de IA, sin necesidad de copias intermedias.

✓

datos listo, la GPU comienza a calcular al instante Todo el recorrido de datos está libre de cambios de contexto del kernel Conmutador, copias redundantes y consumo de CPU por la pila de protocolos.

Latencia de extremo a extremo1 – 2 μs

Uso de CPU≈ 15%

Ratio de espera de GPU< 5%

Elemento de especificación	QNAP TS-h1290FX	Competidor A (SATA NAS)	Competidor B (AFA empresarial)
CPU	AMD EPYC™ 7302P 16N / 3,3 GHz El más potente	Intel Xeon D-1541 8N / 2,7 GHz	Serie Intel de gama alta
Almacenamiento Interfaz	NVMe PCIe Gen 4 ×4 U.2 El más rápido	SATA 6 Gb/s	NVMe / SAS / FC
Ranuras NVMe	12 × 2,5" U.2 PCIe Gen 4	No hay soporte nativo (requiere adaptador)No compatible	48 × 2,5" NVMe
NFS sobre RDMA	✓ Soporte nativo totalmente optimizado Nativo	✗ No compatible No compatible	△ Compatibilidad parcial
Integrado Redes	2× 25GbE SFP28 + 2× 2,5GbE	2× 10GbE + 4× 1GbE	Múltiples 25/100GbE (depende de la configuración)
Expansión PCIe	4× PCIe Gen 4 Gen 4	2× PCIe Gen 3	Alta densidad multirranura
Memoria máxima	1 TB DDR4 ECC 3200 MHz	64 GB DDR4 2666 MHz	1.280 GB
Sistema de archivos ZFS	✓ Integración nativa QuTS hero	✗	Depende del proveedor
Objeto S3 Almacenamiento	✓ QuObjects (incluye Object Lock)	✗	Depende del proveedor
Aislamiento multiinquilino	✓ Recursos compartidos NFS + aislamiento de instantáneas ZFS	Compatibilidad limitada	Compatible

Escenarios aplicables

Quién lo utiliza,
y los problemas que resuelve

🤖

Entrenamiento de modelos de IA / LLM

Varios nodos GPU leen cientos de GB de conjuntos de entrenamiento en paralelo. Con NFS tradicional, el tiempo de espera de E/S supera al de cálculo. RDMA garantiza que la entrega de datos siga el ritmo de la demanda de GPU.

Impulso en la utilización de GPU 40% → >95%

Tiempo de entrenamiento por época Reducido en un 30–60%

Carga de CPU Almacenamiento 99% → 15%

🏥

IA de imágenes para el sector sanitario inteligente

Las láminas de patología y las imágenes DICOM 3D suelen ocupar varios gigabytes. Si el diagnóstico asistido por IA se detiene al leer, los beneficios clínicos se ven gravemente comprometidos. La baja latencia de Almacenamiento permite que la IA diagnóstica funcione a máxima eficiencia.

Aceleración del preprocesamiento de imágenes Multiproceso paralelo sin ralentización

Espera para la generación de informes Tiempo de respuesta considerablemente reducido

Integridad de datos Protección de autorrecuperación ZFS

🏭

Análisis de grandes datos de rendimiento en semiconductores

Las líneas de producción generan enormes cantidades de datos de proceso por segundo. Los modelos de IA deben analizar datos históricos en tiempo real para encontrar variables clave de rendimiento. La latencia de E/S se traduce en retrasos en el análisis, lo que finalmente provoca pérdidas de rendimiento.

Velocidad de recuperación de datos históricos Acceso en milisegundos → microsegundos

Análisis continuo 24/7 Soporte all-flash de bajo consumo

TCO Hardware optimizado para el rendimiento empresarial

Preguntas frecuentes

Todo lo que podría querer preguntar,
Aquí mismo

¿RDMA requiere una red Conmutador especializada? ¿Puedo utilizar la arquitectura de mi centro datos actual? ▾

NFS sobre RDMA (RoCE v2) funciona en redes Ethernet estándar, pero requiere Conmutador que admitan PFC (Priority Flow Control) para habilitar un entorno Ethernet sin pérdidas. La mayoría de los Conmutador empresariales modernos (por ejemplo, Mellanox/NVIDIA Spectrum, Cisco Nexus, series Arista) admiten esta función. QNAP puede proporcionar asesoramiento en la planificación de red para Ayuda confirmar si su entorno actual es compatible.

¿Cuál es la diferencia real de latencia entre NFS sobre RDMA y el NFS tradicional sobre TCP? ▾

En condiciones de laboratorio, la latencia extremo a extremo para NFS sobre TCP suele oscilar entre 100 y 500 microsegundos (μs), con cuellos de botella principalmente derivados del contexto de kernel de Conmutador y la copia de memoria. NFS sobre RDMA puede reducir la latencia a 1–2 μs, una mejora de unas 100 veces. Para escenarios de entrenamiento de IA con lecturas aleatorias frecuentes de pequeños lotes, esta diferencia se traduce directamente en una mayor utilización de la GPU y ciclos de entrenamiento generales más cortos.

¿Qué eficiencia de espacio ofrece ZFS? ¿Son efectivas la compresión y la deduplicación para conjuntos de entrenamiento de IA? ▾

ZFS incorpora compresión en tiempo real LZ4/Zstandard y deduplicación a nivel de bloque. Para conjuntos de entrenamiento de imágenes con grandes cantidades de muestras similares, la tasa de compresión suele alcanzar entre 1,3 y 2 veces; para conjuntos de datos basados en texto (como corpus tokenizados), los beneficios de compresión son aún más significativos. La deduplicación es especialmente adecuada para almacenar múltiples versiones de puntos de control de modelos, lo que puede ahorrar una enorme cantidad de espacio. En ZFS, la compresión está asistida por hardware, lo que significa que tiene un impacto mínimo en el rendimiento de E/S.

Solo tenemos 4 GPU. ¿Merece la pena invertir en el TS-h1290FX? ▾

El coste de computación por hora para 4 GPU de gama alta (como H100/A100) ya es considerable. Incluso en clústeres de pequeña escala, si la E/S de Almacenamiento provoca que la utilización de la GPU caiga por debajo del 70%, significa que más del 30% de tu gasto en computación se desperdicia. La inversión en un TS-h1290FX suele amortizarse en unos pocos meses o hasta un año, impulsada únicamente por las mejoras de rendimiento derivadas del aumento en la utilización de la GPU. Para un cálculo específico del TCO, no dudes en ponerte en contacto con nuestro equipo de ventas.

¿El TS-h1290FX permite el uso simultáneo por varios equipos (multiusuario)? ▾

Totalmente compatible. El TS-h1290FX puede configurarse con múltiples recursos NFS independientes, cuentas de usuario individuales y aislamiento de red. Combinado con los mecanismos de Dataset y Snapshot de ZFS, puede establecer Espacio de almacenamiento independientes, estrategias de copia de seguridad y controles de acceso para cada equipo o departamento, lo que lo hace ideal para proveedores de servicios gestionados (MSP) o escenarios internos de grandes empresas con varios departamentos.

En comparación con las plataformas de entrenamiento de IA en la nube, ¿cuáles son las ventajas de un TS-h1290FX local? ▼

Los principales retos de las plataformas en la nube incluyen tarifas de transferencia de datos desorbitadas (costes de egreso), riesgos de cumplimiento normativo para datos sensibles y costes de computación a largo plazo impredecibles. El TS-h1290FX proporciona Almacenamiento local de alta velocidad, asegurando que el datos nunca salga de sus instalaciones, mientras utiliza RDMA para igualar el rendimiento de E/S de los Almacenamiento de gama alta en la nube. Es el equilibrio perfecto entre rendimiento, soberanía de datos y TCO.

¿Se puede integrar el TS-h1290FX en flujos de trabajo MLOps existentes (por ejemplo, Kubernetes, Kubeflow)? ▼

Sí. El TS-h1290FX proporciona montaje estándar NFS v4.1, que Kubernetes puede utilizar directamente mediante PersistentVolume (PV). En los nodos de Kubernetes que admiten RDMA, emparejarlo con el RDMA Device Plugin permite fácilmente conexiones NFS a máxima velocidad sobre RDMA. Además, a través de los endpoints compatibles con S3 proporcionados por QuObjects, puede integrarse perfectamente en cadenas de herramientas MLOps que utilicen el protocolo S3 (como el almacén de artefactos de MLflow o el Almacenamiento remoto de DVC).

¿Cómo gestionamos la copia de seguridad y la recuperación ante desastres de los puntos de control de modelos? ▼

El TS-h1290FX ofrece una estrategia de protección multinivel: las instantáneas ZFS pueden programarse para ejecutarse automáticamente cada hora, proporcionando puntos de restauración granulares; emparejado con otro NAS ZFS, SnapSync permite la sincronización en tiempo real a nivel de bloque para recuperación ante desastres fuera de sitio; para archivado a largo plazo, Hybrid Backup Sync (HBS 3) permite realizar copias de seguridad de datos en la nube (AWS S3, Azure Blob, B2, etc.). Esta protección triple puede configurarse de forma flexible según sus requisitos de RTO/RPO.

¿El TS-h1290FX es compatible con el protocolo de objetos S3 Almacenamiento? ▾

Compatible. Tras instalar QuObjects, el TS-h1290FX actúa como un endpoint de Almacenamiento compatible con S3 local, admitiendo Almacenamiento inmutable con Object Lock (WORM). Esto permite flujos de trabajo híbridos en IA: lectura de conjuntos de datos a alta velocidad durante la fase de entrenamiento mediante NFS sobre RDMA, y almacenamiento y gestión seguros de versiones de modelos y resultados de análisis durante la fase de inferencia a través del protocolo S3.

Tu GPU no debería tener que
Esperar por tu Almacenamiento

¿Cuánto tiempo pasan tus GPU
esperando por datos?

El coste oculto de la pila TCP

El cuádruple coste de la copia de memoria

El verdadero coste de la inactividad de la GPU

A mayor escala, mayor es el cuello de botella

Dos caminos,
Resultados completamente diferentes

Las cifras detrás de
el TS-h1290FX

Vea la diferencia
Claramente

Quién lo utiliza,
y los problemas que resuelve

Entrenamiento de modelos de IA / LLM

IA de imágenes para el sector sanitario inteligente

Análisis de grandes datos de rendimiento en semiconductores

Todo lo que podría querer preguntar,
Aquí mismo

Elimine los tiempos de espera de la GPU

Tu GPU no debería tener queEsperar por tu Almacenamiento

¿Cuánto tiempo pasan tus GPUesperando por datos?

El coste oculto de la pila TCP

El cuádruple coste de la copia de memoria

El verdadero coste de la inactividad de la GPU

A mayor escala, mayor es el cuello de botella

Dos caminos,Resultados completamente diferentes

Las cifras detrás deel TS-h1290FX

Vea la diferenciaClaramente

Quién lo utiliza,y los problemas que resuelve

Entrenamiento de modelos de IA / LLM

IA de imágenes para el sector sanitario inteligente

Análisis de grandes datos de rendimiento en semiconductores

Todo lo que podría querer preguntar,Aquí mismo

Elimine los tiempos de espera de la GPU

Tu GPU no debería tener que
Esperar por tu Almacenamiento

¿Cuánto tiempo pasan tus GPU
esperando por datos?

Dos caminos,
Resultados completamente diferentes

Las cifras detrás de
el TS-h1290FX

Vea la diferencia
Claramente

Quién lo utiliza,
y los problemas que resuelve

Todo lo que podría querer preguntar,
Aquí mismo