Co to jest split-brain i jak mogę to naprawić?
Produkty Zastosowane
- QuTS hero h5.3.0 or later
- High Availability Manager 1.0 or later
Definicja i Przyczyna
W wysokiej dostępności (HA) Klaster, split-brain występuje, gdy oba węzły tracą komunikację ze sobą, ale pozostają operacyjne niezależnie, i oba węzły przyjęły rolę aktywnego węzła. Może to spowodować niespójność danych lub uszkodzenie współdzielonego Pamięć masowa, ponieważ każdy węzeł może próbować przejąć kontrolę nad współdzielonymi zasobami jednocześnie.
Typowe przyczyny split-brain to:
- Rozłączenie sieci między węzłami w Klaster
- Awaria połączenia heartbeat
- Niestabilne lub niespójne ścieżki sieciowe
Rozwiązanie
- Napraw połączenie sieciowe między węzłami.
Najpierw sprawdź i przywróć połączenie sieciowe między dwoma węzłami (na przykład połączenie heartbeat, przełączniki, ustawienia sieci).
Dopiero po przywróceniu połączenia system może przystąpić do weryfikacji statusu Klaster. - Pozwól systemowi automatycznie wykryć status split-brain.
- Gdy węzły ponownie nawiążą komunikację, system wymienia informacje o statusie między dwoma węzłami.
- Jeśli oba węzły przyjęły rolę aktywnego węzła, system identyfikuje to jako stan split-brain.
- Aby zapobiec uszkodzeniu danych, system zatrzymuje większość usług (takich jak SMB, iSCSI) i wyświetla komunikat o błędzie wskazujący, że wystąpił split-brain.
- Odzyskaj ze split-brain za pomocą High Availability Manager.
- Otwórz High Availability Manager.
- Kliknij Odzyskaj ze Split-Brain, aby uruchomić kreatora odzyskiwania.
W kreatorze możesz wybrać jedną z następujących opcji odzyskiwania:- Opcja 1: Zachowaj dane tylko na jednym węźle
Wybierz węzeł do zachowania, a drugi węzeł zostanie wyczyszczony i zresetowany jako węzeł pasywny. System następnie zsynchronizuje HA Klaster.
Ta opcja jest odpowiednia, gdy dokładnie wiesz, który węzeł ma poprawne dane i chcesz szybko przywrócić Klaster. - Opcja 2: Zachowaj dane na obu węzłach
Jeśli oba węzły zawierają ważne dane, system pozwala jednemu węzłowi wznowić usługi jako pierwszy, podczas gdy drugi węzeł jest usuwany z Klaster.
Po weryfikacji i uzgodnieniu danych możesz ręcznie ponownie dołączyć usunięty węzeł do Klaster.
- Opcja 1: Zachowaj dane tylko na jednym węźle
- Opcjonalnie: Zminimalizuj przyszłe split-brain, włączając serwer kworum.
Jeśli węzły rozłączą się ze sobą, ale pozostaną połączone z siecią, serwer kworum może nadal monitorować poszczególne węzły i przekazywać ich statusy między sobą. To pomaga zmniejszyć szansę na split-brain.
Możesz skonfigurować serwer kworum, przechodząc do High Availability Manager > Ustawienia > Polityka Praca awaryjna > Serwer Kworum.