Was ist Split-Brain und wie kann ich es beheben?
Anwendbare Produkte
- QuTS hero h5.3.0 or later
- High Availability Manager 1.0 or later
Definition und Ursache
In einem Hochverfügbarkeits- (HA) Cluster, Split-Brain tritt auf, wenn beide Knoten die Kommunikation miteinander verlieren, aber unabhängig voneinander betriebsbereit bleiben, und beide Knoten die Rolle des aktiven Knotens übernommen haben. Dies kann zu Dateninkonsistenzen oder beschädigten gemeinsamen Speicher führen, da jeder Knoten versuchen kann, gleichzeitig die Kontrolle über gemeinsame Ressourcen zu übernehmen.
Häufige Ursachen für Split-Brain sind:
- Netzwerkunterbrechung zwischen den Knoten im Cluster
- Ausfall der Heartbeat-Verbindung
- Instabile oder inkonsistente Netzwerkpfade
Lösung
- Beheben Sie die Netzwerkverbindung zwischen den Knoten.
Überprüfen und stellen Sie zuerst die Netzwerkverbindung zwischen den beiden Knoten wieder her (z.B. die Heartbeat-Verbindung, Switches, Netzwerkeinstellungen).
Erst nachdem die Verbindung wiederhergestellt ist, kann das System den Status des Cluster überprüfen. - Lassen Sie das System den Split-Brain-Status automatisch erkennen.
- Sobald die Knoten die Kommunikation wiederherstellen, tauscht das System Statusinformationen zwischen den beiden Knoten aus.
- Wenn beide Knoten die Rolle des aktiven Knotens übernommen haben, identifiziert das System dies als Split-Brain-Bedingung.
- Um Datenkorruption zu verhindern, stoppt das System die meisten Dienste (wie SMB, iSCSI) und zeigt eine Fehlermeldung an, die darauf hinweist, dass Split-Brain aufgetreten ist.
- Wiederherstellung von Split-Brain über High Availability Manager.
- Öffnen Sie High Availability Manager.
- Klicken Sie auf Wiederherstellung von Split-Brain, um den Wiederherstellungsassistenten zu starten.
Im Assistenten können Sie eine der folgenden Wiederherstellungsoptionen wählen:- Option 1: Daten nur auf einem Knoten erhalten
Wählen Sie den Knoten aus, den Sie behalten möchten, und der andere Knoten wird gelöscht und als passiver Knoten zurückgesetzt. Das System wird dann das HA Cluster neu synchronisieren.
Diese Option ist geeignet, wenn Sie genau wissen, welcher Knoten die korrekten Daten hat und das Cluster schnell wiederherstellen möchten. - Option 2: Daten auf beiden Knoten erhalten
Wenn beide Knoten wichtige Daten enthalten, erlaubt das System einem Knoten, zuerst Dienste wieder aufzunehmen, während der andere Knoten aus dem Cluster entfernt wird.
Nach der Überprüfung und Abstimmung der Daten können Sie den entfernten Knoten manuell wieder dem Cluster hinzufügen.
- Option 1: Daten nur auf einem Knoten erhalten
- Optional: Minimieren Sie zukünftiges Split-Brain, indem Sie einen Quorum-Server aktivieren.
Wenn die Knoten die Verbindung zueinander verlieren, aber mit dem Netzwerk verbunden bleiben, kann ein Quorum-Server die einzelnen Knoten weiterhin überwachen und ihre Status miteinander weiterleiten. Dies hilft, die Wahrscheinlichkeit von Split-Brain zu reduzieren.
Sie können einen Quorum-Server konfigurieren, indem Sie zu High Availability Manager > Einstellungen > Failover Richtlinie > Quorum-Server gehen.