Status usług / nowości
Awaria OpenZFS - podsumowanie
22 lipca 2025 18:43
AWARIA SYSTEMU PLIKÓW OpenZFS
W dniach 17.07.2025 do 20.07.2025 występowały problemy z dostępem do 16 serwerów hostingu MyDevil.net. Bezpośrednią przyczyną była aktualizacja systemu plików OpenZFS do wersji 2.3.3, po której od kilku minut do kilku godzin systemy zatrzymały swoje działanie (kernel panic) uniemożliwiając dalszą prace.
Lista serwerów objętych awarią i ich czas niedostępności
s1.mydevil.net - 1d 16h 47m 16s
s3.mydevil.net - 1d 4h 55m 57s
s4.mydevil.net - 0d 21h 56m 56s
s5.mydevil.net - 2d 0h 35m 49s
s9.mydevil.net - 0d 22h 57m 18s
s12.mydevil.net - 1d 7h 9m 56s
s13.mydevil.net - 2d 4h 39m 34s
s19.mydevil.net - 2d 2h 4m 41s
s20.mydevil.net - 0d 14h 46m 16s
s31.mydevil.net - 1d 0h 31m 39s
s24.mydevil.net - 0d 22h 22m 57s
s27.mydevil.net - 1d 23h 48m 5s
s35.mydevil.net - 1d 11h 6m 24s
s43.mydevil.net - 1d 1h 11m 51s
s44.mydevil.net - 1d 13h 45m 23s
s52.mydevil.net - 1d 23h 32m 39s
Sprostowanie dotyczące wdrożenia aktualizacji OpenZFS
W opowiedzi na pojawiające się sugestie, jakoby aktualizacja OpenZFS została przez nas wdrożona jednocześnie na wszystkich serwerach, pragniemy stanowczo zdementować te informacje.
Aktualizacja była poprzedzona testami na serwerach testowych z taką samą konfiguracja. Następnie na MyDevil.net wprowadzana była stopniowo, zgodnie z naszym standardowym procesem - najpierw na wybranej grupie serwerów . Dlatego też problem nie dotknął wszystkich serwerów.
Sprostowanie dotyczące utrudnionej komunikacji z supportem
Zdajemy sobie sprawę, że w trakcie trwania awarii komunikacja z naszym supportem była utrudniona. Chcielibyśmy jednak wyjaśnić, że niemal całość zespołu (w tym także osoby na co dzień odpowiedzialne za obsługę zgłoszeń) została natychmiast zaangażowana w działania mające na celu szybkie przywrócenie pełnej funkcjonalności usług. Jednocześnie ilość otrzymywanych zgłoszeń była bardzo duża, co powodowało opóźnienia w udzielaniu odpowiedzi. Natomiast status o postępach w pracach był przez nas aktualizowany na bieżąco.
Naszym priorytetem w czasie awarii było jak najszybsze usunięcie problemu. Wiemy, że opóźnione odpowiedzi były frustrujące i przepraszamy za zaistniałą sytuację.
Podjęte działania zapobiegające
• Aby przywrócić usługi, musieliśmy przenieść dużą ilość danych – ponad 50 TB jak i przywracać uszkodzone dane – co nawet przy użyciu 5 zapasowych serwerów zajęło wiele godzin.
• Nasz system kopii zapasowych zadziałał prawidłowo i udało się prawidłowo przywrócić dane z ostatniego prawidłowego backupu. Nie mniej jednak, prędkość przywracania danych nie była satysfakcjonująca. Pracujemy nad zmianami w naszych procedurach i architekturze sieci aby w przyszłości przywracanie usług klientów trwało zdecydowanie krócej.
• Jeszcze przed awarią zaczęliśmy wprowadzanie nowej logiki dotyczących rozłożenia usług na nowych serwerach, wpłynie to na szybkość przywracania usług w przyszłości w razie awarii wymagającej naprawy i przesłania danych między serwerami.
Rekompensata
Zgodnie z załącznikiem "Gwarancja jakości usług (SLA)" do regulaminu gwarantowany poziom usług wynosi 99.7% w skali roku. Przekroczenie dostępności Usługi lub Usług poniżej 99,7% w okresie jednego roku zobowiązuje nas do wydłużenia ważności konta o okres 3 dni za każde 0,5% niedostępności każdej Usługi. Co w zależności od niedostępności usługi na danym serwerze którego dotyczyła awaria wydłuża jego ważność o 2-3 dni.
Z naszej strony wydłużamy już teraz usługi serwerów których dotyczył problem o dłuższy okres wynoszący 4 miesiące.
Szczegóły problemu
• Dnia 17.07 o 01:00 rozpoczęliśmy aktualizację modułu ZFS
• O godzinie 03:05 zaobserwowaliśmy pierwsze problemy
• O godzinie 03:11 odnotowaliśmy awarię i zaczęliśmy przywracanie maszyn
• W międzyczasie przestały być dostępne inne serwery z tego samego powodu
• W pierwszej kolejności zrobiliśmy downgrade ZFS i przystąpiliśmy do odzyskiwania danych z uszkodzonych pooli ZFS.
• Zebraliśmy informacje, żeby przekazać zgłoszenie autorom systemu plików OpenZFS
Bug, który uaktywnił się na naszych systemach został już opisany, jednakże bez działającego rozwiązania:
https://github.com/openzfs/zfs/issues/13483
Wszystkie serwery dostępne są ponownie od dnia 20.07.2025 godziny 11:30 i nie wykazują żadnych nieprawidłowości. Za utrudnienia związane z wyżej opisanym wydarzeniem jeszcze raz bardzo przepraszamy!
~admin, Awaria