Status usług / nowości

Awaria OpenZFS - podsumowanie

22 lipca 2025 18:43

AWARIA SYSTEMU PLIKÓW OpenZFS

W dniach 17.07.2025 do 20.07.2025 występowały problemy z dostępem do 16 serwerów hostingu MyDevil.net. Bezpośrednią przyczyną była aktualizacja systemu plików OpenZFS do wersji 2.3.3, po której od kilku minut do kilku godzin systemy zatrzymały swoje działanie (kernel panic) uniemożliwiając dalszą prace.

Lista serwerów objętych awarią i ich czas niedostępności

s1.mydevil.net - 1d 16h 47m 16s
s3.mydevil.net - 1d 4h 55m 57s
s4.mydevil.net - 0d 21h 56m 56s
s5.mydevil.net - 2d 0h 35m 49s
s9.mydevil.net - 0d 22h 57m 18s
s12.mydevil.net - 1d 7h 9m 56s
s13.mydevil.net - 2d 4h 39m 34s
s19.mydevil.net - 2d 2h 4m 41s
s20.mydevil.net - 0d 14h 46m 16s
s31.mydevil.net - 1d 0h 31m 39s
s24.mydevil.net - 0d 22h 22m 57s
s27.mydevil.net - 1d 23h 48m 5s
s35.mydevil.net - 1d 11h 6m 24s
s43.mydevil.net - 1d 1h 11m 51s
s44.mydevil.net - 1d 13h 45m 23s
s52.mydevil.net -  1d 23h 32m 39s


Sprostowanie dotyczące wdrożenia aktualizacji OpenZFS

W opowiedzi na pojawiające się sugestie, jakoby aktualizacja OpenZFS została przez nas wdrożona jednocześnie na wszystkich serwerach, pragniemy stanowczo zdementować te informacje.

Aktualizacja była poprzedzona testami na serwerach testowych z taką samą konfiguracja. Następnie na MyDevil.net wprowadzana była stopniowo, zgodnie z naszym standardowym procesem - najpierw na wybranej grupie serwerów . Dlatego też problem nie dotknął wszystkich serwerów.


Sprostowanie dotyczące utrudnionej komunikacji z supportem

Zdajemy sobie sprawę, że w trakcie trwania awarii komunikacja z naszym supportem była utrudniona. Chcielibyśmy jednak wyjaśnić, że niemal całość zespołu (w tym także osoby na co dzień odpowiedzialne za obsługę zgłoszeń) została natychmiast zaangażowana w działania mające na celu szybkie przywrócenie pełnej funkcjonalności usług. Jednocześnie ilość otrzymywanych zgłoszeń była bardzo duża, co powodowało opóźnienia w udzielaniu odpowiedzi. Natomiast status o postępach w pracach był przez nas aktualizowany na bieżąco.

Naszym priorytetem w czasie awarii było jak najszybsze usunięcie problemu. Wiemy, że opóźnione odpowiedzi były frustrujące i przepraszamy za zaistniałą sytuację. 


Podjęte działania zapobiegające

• Aby przywrócić usługi, musieliśmy przenieść dużą ilość danych – ponad 50 TB jak i przywracać uszkodzone dane – co nawet przy użyciu 5 zapasowych serwerów zajęło wiele godzin.
• Nasz system kopii zapasowych zadziałał prawidłowo i udało się prawidłowo przywrócić dane z ostatniego prawidłowego backupu. Nie mniej jednak, prędkość przywracania danych nie była satysfakcjonująca. Pracujemy nad zmianami w naszych procedurach i architekturze sieci aby w przyszłości przywracanie usług klientów trwało zdecydowanie krócej.
• Jeszcze przed awarią zaczęliśmy wprowadzanie nowej logiki dotyczących rozłożenia usług na nowych serwerach, wpłynie to na szybkość przywracania usług w przyszłości w razie awarii wymagającej naprawy i przesłania danych między serwerami.

Rekompensata

Zgodnie z załącznikiem "Gwarancja jakości usług (SLA)"  do regulaminu gwarantowany poziom usług wynosi 99.7% w skali roku. Przekroczenie dostępności Usługi lub Usług poniżej 99,7% w okresie jednego roku zobowiązuje nas do wydłużenia ważności konta o okres 3 dni za każde 0,5% niedostępności każdej Usługi. Co w zależności od niedostępności usługi na danym serwerze którego dotyczyła awaria wydłuża jego ważność o 2-3 dni.

Z naszej strony wydłużamy już teraz usługi serwerów których dotyczył problem o dłuższy okres wynoszący 4 miesiące.


Szczegóły problemu


• Dnia 17.07 o 01:00 rozpoczęliśmy aktualizację modułu ZFS

• O godzinie 03:05 zaobserwowaliśmy pierwsze problemy

• O godzinie 03:11 odnotowaliśmy awarię i zaczęliśmy przywracanie maszyn

• W międzyczasie przestały być dostępne inne serwery z tego samego powodu

• W pierwszej kolejności zrobiliśmy downgrade ZFS i przystąpiliśmy do odzyskiwania danych z uszkodzonych pooli ZFS.

• Zebraliśmy informacje, żeby przekazać zgłoszenie autorom systemu plików OpenZFS

Bug, który uaktywnił się na naszych systemach został już opisany, jednakże bez działającego rozwiązania:
https://github.com/openzfs/zfs/issues/13483

Wszystkie serwery dostępne są ponownie od dnia 20.07.2025 godziny 11:30 i nie wykazują żadnych nieprawidłowości. Za utrudnienia związane z wyżej opisanym wydarzeniem jeszcze raz bardzo przepraszamy!

Dodaj komentarz


~admin, Awaria

Komentarze

Dodawanie komentarzy do tego wpisu zostało wyłączone.

Zasubskrybuj

Jeśli chcesz otrzymywać powiadomienia o nowościach na swój adres e-mail, zapisz się na naszą listę subskrybentów! Wystarczy podać swój adres w poniższym formularzu.

Zasubskrybuj

Zapisz się do naszego newslettera aby być na bieżąco z nowościami.




logo Atman
logo Etop
logo PayU
logo PayPal
logo Nginx
logo Passenger
logo Python
logo Django
logo FreeBSD
logo MySQL
logo OpenZFS
logo Git