Applicable Products
- QuTS hero h5.3.0 or later
- High Availability Manager 1.0 or later
Definition and Cause
In a high-availability (HA) cluster, split-brain occurs when both nodes lose communication with each other but remain operational independently, and both nodes have assumed the active node role. This may cause data inconsistency or corrupted shared storage, because each node may attempt to take control of shared resources simultaneously.
Common causes of split-brain include:
- Network disconnection between the nodes in the cluster
- Failure of the heartbeat connection
- Unstable or inconsistent network paths
Solution
- Fix the network connection between the nodes.
First check and restore the network connection between the two nodes (for example, the heartbeat connection, switches, network settings).
Only after the connection is restored can the system proceed to verify the cluster status. - Let the system automatically detect the split-brain status.
- Once the nodes reestablish communication, the system exchanges status information between the two nodes.
- If both nodes have assumed the active node role, the system identifies it as a split-brain condition.
- To prevent data corruption, the system stops most services (such as SMB, iSCSI) and displays an error message indicating that split-brain has occurred.
- Recover from split-brain via High Availability Manager.
- Open High Availability Manager.
- Click Recover from Split-Brain to launch the recovery wizard.
In the wizard, you can choose one of the following recovery options:- Option 1: Preserve data on one node only
Select the node to keep, and the other node will be wiped and reset as the passive node. The system will then resynchronize the HA cluster.
This option is suitable when you clearly know which node has the correct data and want to restore the cluster quickly. - Option 2: Preserve data on both nodes
If both nodes contain important data, the system allows one node to resume services first, while the other node is removed from the cluster.
After verifying and reconciling the data, you can manually rejoin the removed node to the cluster.
- Optional: Minimize future split-brain by enabling a quorum server.
If the nodes disconnect from each other but remain connected to the network, a quorum server can still monitor the individual nodes and relay their statuses with each other. This helps reduce the chance of split-brain.
You can configure a quorum server by going to High Availability Manager > Settings > Failover Policy > Quroum Server.
Further Reading
適用製品
- QuTS hero h5.3.0 or later
- High Availability Manager 1.0 or later
定義と原因
高可用性(HA)クラスターにおいて、スプリットブレイン両方のノードが互いに通信を失いながらも独立して動作を続ける場合に発生し、両方のノードがアクティブノードの役割を担っている状態です。これにより、データの不整合や共有ストレージの破損が発生する可能性があります。各ノードが同時に共有リソースを制御しようとするためです。
スプリットブレインの一般的な原因は以下の通りです:
- クラスター内のノード間のネットワーク切断
- ハートビート接続の故障
- 不安定または不整合なネットワーク経路
解決策
- ノード間のネットワーク接続を修復します。
まず、2つのノード間のネットワーク接続(例:ハートビート接続、スイッチ、ネットワーク設定)を確認して復元します。
接続が復元された後にのみ、システムはクラスターの状態を確認できます。 - システムにスプリットブレイン状態を自動検出させます。
- ノードが通信を再確立すると、システムは2つのノード間で状態情報を交換します。
- 両方のノードがアクティブノードの役割を担っている場合、システムはそれをスプリットブレイン状態として識別します。
- データの破損を防ぐために、システムはほとんどのサービス(例:SMB、iSCSI)を停止し、スプリットブレインが発生したことを示すエラーメッセージを表示します。
- High Availability Managerを使用してスプリットブレインから復旧します。
- High Availability Managerを開きます。
- スプリットブレインからの復旧をクリックして復旧ウィザードを起動します。
ウィザードでは、以下の復旧オプションのいずれかを選択できます:- オプション1:1つのノードのデータのみを保持
保持するノードを選択し、他のノードは消去されてパッシブノードとしてリセットされます。その後、システムはHA クラスターを再同期します。
このオプションは、どのノードが正しいデータを持っているかを明確に知っており、クラスターを迅速に復元したい場合に適しています。 - オプション2:両方のノードのデータを保持
両方のノードに重要なデータが含まれている場合、システムはまず1つのノードがサービスを再開できるようにし、他のノードはクラスターから削除されます。
データを確認して調整した後、削除されたノードを手動でクラスターに再参加させることができます。
- オプション:クォーラムサーバーを有効にして将来のスプリットブレインを最小化します。
ノードが互いに切断されてもネットワークに接続されている場合、クォーラムサーバーは個々のノードを監視し、互いの状態を中継することができます。これにより、スプリットブレインの可能性が減少します。
クォーラムサーバーを設定するには、High Availability Manager > 設定 > フェイルオーバー ポリシー > クォーラムサーバーに移動します。
さらに読む