¿Qué es el cerebro dividido y cómo puedo recuperarlo?
Productos Aplicables
- QuTS hero h5.3.0 or later
- High Availability Manager 1.0 or later
Definición y Causa
En un Clúster de alta disponibilidad (HA), split-brain ocurre cuando ambos nodos pierden comunicación entre sí pero permanecen operativos de manera independiente, y ambos nodos han asumido el rol de nodo activo. Esto puede causar inconsistencia de datos o Almacenamiento compartido corrupto, porque cada nodo puede intentar tomar el control de los recursos compartidos simultáneamente.
Las causas comunes de split-brain incluyen:
- Desconexión de red entre los nodos en el Clúster
- Fallo de la conexión de latido
- Rutas de red inestables o inconsistentes
Solución
- Reparar la conexión de red entre los nodos.
Primero verifique y restaure la conexión de red entre los dos nodos (por ejemplo, la conexión de latido, conmutadores, configuraciones de red).
Solo después de que se restaure la conexión, el sistema puede proceder a verificar el estado del Clúster. - Deje que el sistema detecte automáticamente el estado de split-brain.
- Una vez que los nodos restablecen la comunicación, el sistema intercambia información de estado entre los dos nodos.
- Si ambos nodos han asumido el rol de nodo activo, el sistema lo identifica como una condición de split-brain.
- Para prevenir la corrupción de datos, el sistema detiene la mayoría de los servicios (como SMB, iSCSI) y muestra un mensaje de error indicando que ha ocurrido un split-brain.
- Recuperar de split-brain a través de High Availability Manager.
- Abrir High Availability Manager.
- Haga clic en Recuperar de Split-Brain para iniciar el asistente de recuperación.
En el asistente, puede elegir una de las siguientes opciones de recuperación:- Opción 1: Conservar datos en un solo nodo
Seleccione el nodo a conservar, y el otro nodo será borrado y restablecido como nodo pasivo. El sistema luego resincronizará el Clúster HA.
Esta opción es adecuada cuando sabe claramente qué nodo tiene los datos correctos y desea restaurar el Clúster rápidamente. - Opción 2: Conservar datos en ambos nodos
Si ambos nodos contienen datos importantes, el sistema permite que un nodo reanude los servicios primero, mientras que el otro nodo es removido del Clúster.
Después de verificar y reconciliar los datos, puede volver a unir manualmente el nodo removido al Clúster.
- Opción 1: Conservar datos en un solo nodo
- Opcional: Minimizar futuros split-brain habilitando un servidor de quórum.
Si los nodos se desconectan entre sí pero permanecen conectados a la red, un servidor de quórum aún puede monitorear los nodos individuales y retransmitir sus estados entre sí. Esto ayuda a reducir la posibilidad de split-brain.
Puede configurar un servidor de quórum yendo a High Availability Manager > Configuración > Política de Conmutación por error > Servidor de Quórum.