Cos'è lo split-brain e come posso recuperare?
Prodotti Applicabili
- QuTS hero h5.3.0 or later
- High Availability Manager 1.0 or later
Definizione e Causa
In un Cluster ad alta disponibilità (HA), split-brain si verifica quando entrambi i nodi perdono la comunicazione tra loro ma rimangono operativi in modo indipendente, e entrambi i nodi hanno assunto il ruolo di nodo attivo. Questo può causare inconsistenza dei dati o corruzione del Archiviazione condiviso, poiché ciascun nodo può tentare di prendere il controllo delle risorse condivise simultaneamente.
Le cause comuni dello split-brain includono:
- Disconnessione di rete tra i nodi nel Cluster
- Guasto della connessione heartbeat
- Percorsi di rete instabili o incoerenti
Soluzione
- Ripristina la connessione di rete tra i nodi.
Prima controlla e ripristina la connessione di rete tra i due nodi (ad esempio, la connessione heartbeat, switch, impostazioni di rete).
Solo dopo che la connessione è stata ripristinata il sistema può procedere a verificare lo stato del Cluster. - Lascia che il sistema rilevi automaticamente lo stato di split-brain.
- Una volta che i nodi ristabiliscono la comunicazione, il sistema scambia informazioni di stato tra i due nodi.
- Se entrambi i nodi hanno assunto il ruolo di nodo attivo, il sistema lo identifica come una condizione di split-brain.
- Per prevenire la corruzione dei dati, il sistema interrompe la maggior parte dei servizi (come SMB, iSCSI) e visualizza un messaggio di errore che indica che si è verificato uno split-brain.
- Recupera dallo split-brain tramite High Availability Manager.
- Apri High Availability Manager.
- Clicca Recupera dallo Split-Brain per avviare la procedura guidata di recupero.
Nella procedura guidata, puoi scegliere una delle seguenti opzioni di recupero:- Opzione 1: Conserva i dati su un solo nodo
Seleziona il nodo da mantenere, e l'altro nodo verrà cancellato e reimpostato come nodo passivo. Il sistema quindi risincronizzerà il Cluster HA.
Questa opzione è adatta quando sai chiaramente quale nodo ha i dati corretti e vuoi ripristinare rapidamente il Cluster. - Opzione 2: Conserva i dati su entrambi i nodi
Se entrambi i nodi contengono dati importanti, il sistema consente a un nodo di riprendere i servizi per primo, mentre l'altro nodo viene rimosso dal Cluster.
Dopo aver verificato e riconciliato i dati, puoi reinserire manualmente il nodo rimosso nel Cluster.
- Opzione 1: Conserva i dati su un solo nodo
- Opzionale: Minimizza futuri split-brain abilitando un server di quorum.
Se i nodi si disconnettono l'uno dall'altro ma rimangono connessi alla rete, un server di quorum può ancora monitorare i singoli nodi e trasmettere i loro stati tra di loro. Questo aiuta a ridurre la possibilità di split-brain.
Puoi configurare un server di quorum andando su High Availability Manager > Impostazioni > Politica Failover > Server di Quorum.