O que é split-brain e como posso recuperar?
Produtos Aplicáveis
- QuTS hero h5.3.0 or later
- High Availability Manager 1.0 or later
Definição e Causa
Num Cluster de alta disponibilidade (HA), split-brain ocorre quando ambos os nós perdem comunicação entre si, mas permanecem operacionais de forma independente, e ambos os nós assumiram o papel de nó ativo. Isto pode causar inconsistência de dados ou Armazenamento partilhado corrompido, porque cada nó pode tentar controlar os recursos partilhados simultaneamente.
Causas comuns de split-brain incluem:
- Desconexão de rede entre os nós no Cluster
- Falha na conexão de heartbeat
- Caminhos de rede instáveis ou inconsistentes
Solução
- Corrija a conexão de rede entre os nós.
Primeiro verifique e restaure a conexão de rede entre os dois nós (por exemplo, a conexão de heartbeat, switches, configurações de rede).
Só depois de restaurada a conexão é que o sistema pode proceder à verificação do estado do Cluster. - Deixe o sistema detectar automaticamente o estado de split-brain.
- Uma vez que os nós restabeleçam a comunicação, o sistema troca informações de estado entre os dois nós.
- Se ambos os nós assumiram o papel de nó ativo, o sistema identifica isso como uma condição de split-brain.
- Para evitar corrupção de dados, o sistema pára a maioria dos serviços (como SMB, iSCSI) e exibe uma mensagem de erro indicando que ocorreu split-brain.
- Recuperar de split-brain via High Availability Manager.
- Abrir High Availability Manager.
- Clique Recuperar de Split-Brain para iniciar o assistente de recuperação.
No assistente, pode escolher uma das seguintes opções de recuperação:- Opção 1: Preservar dados em apenas um nó
Selecione o nó a manter, e o outro nó será apagado e redefinido como nó passivo. O sistema irá então ressincronizar o Cluster HA.
Esta opção é adequada quando sabe claramente qual nó tem os dados corretos e quer restaurar o Cluster rapidamente. - Opção 2: Preservar dados em ambos os nós
Se ambos os nós contêm dados importantes, o sistema permite que um nó retome os serviços primeiro, enquanto o outro nó é removido do Cluster.
Após verificar e reconciliar os dados, pode manualmente reintegrar o nó removido ao Cluster.
- Opção 1: Preservar dados em apenas um nó
- Opcional: Minimize futuros split-brain ativando um servidor de quórum.
Se os nós se desconectarem entre si, mas permanecerem conectados à rede, um servidor de quórum pode ainda monitorizar os nós individuais e transmitir os seus estados entre si. Isto ajuda a reduzir a chance de split-brain.
Pode configurar um servidor de quórum indo a High Availability Manager > Configurações > Política de Ativação pós-falha > Servidor de Quórum.