fot. lassedesignen, Fotolia.com
Ogromna awaria Cloudflare sparaliżowała tysiące stron i aplikacji. Początkowo podejrzewano potężny atak DDoS, ale rzeczywista przyczyna okazała się banalnym błędem we własnej aktualizacji oprogramowania firmy. Co więc takiego się stało, że pół internetu w powietrze wyleciało?
We wtorek ogromna część internetu przestała działać lub funkcjonowała bardzo powoli. Szybko stało się jasne, że źródło problemu leży po stronie globalnej sieci Cloudflare. Początkowo firma była przekonana, że padła ofiarą cyberataku na ogromną skalę. Ustalenie faktycznej przyczyny zajęło jednak Cloudflare trochę czasu. Awaria była wyjątkowo rozległa – tysiące stron i aplikacji, w tym X (dawniej Twitter), działały niestabilnie lub wcale, a użytkownicy na całym świecie nie mogli publikować treści.
Cloudflare wyjaśniało, że wzorzec przerw sugerował atak DDoS. Połączenia były zrywane na około pięć minut, następnie wracały do normy, po czym cyklicznie sytuacja się powtarzała. Ten cykl „samoistnego naprawiania się” nie jest typowy dla zwykłego błędu technicznego. Co więcej, strona statusowa Cloudflare również przestała działać, co, jak się później okazało, było jedynie zbiegiem okoliczności, lecz początkowo utwierdzało zespół w przekonaniu o zewnętrznym ataku.
Rzeczywistość była dużo bardziej prozaiczna. Ustalono, że źródłem kłopotu była nieprawidłowa aktualizacja pliku używanego przez system zarządzania botami. Błąd uprawnień w jednym z systemów bazodanowych spowodował wygenerowanie podwójnej liczby wpisów we „feature file”. Ten plik szybko urósł do rozmiaru, którego oprogramowanie do routingu w sieci Cloudflare nie mogło obsłużyć. W konsekwencji oprogramowanie to zaczęło się „wykrzaczać” na wszystkich maszynach, które otrzymały wadliwą aktualizację.
Pięciominutowy cykl działania awarii również znalazł swoje proste wyjaśnienie. Błędne dane pojawiały się tylko wtedy, gdy zapytanie, które działało co pięć minut na klastrze baz danych ClickHouse, trafiło na część, która została już zaktualizowana pod kątem uprawnień. To właśnie ten mechanizm powodował, że sieć przełączała się losowo między „dobrymi” i „złymi” wersjami konfiguracji.
Firma Cloudflare opublikowała oficjalne przeprosiny za zaistniałą sytuację. Nazwała tę pomyłkę „głęboko bolesną”. Podkreślono, że każda przerwa w działaniu sieci jest nieakceptowalna, mając na uwadze fundamentalne znaczenie usług Cloudflare dla całej infrastruktury internetu.
Źródło: 9To5Mac, opracowanie własne
Na stronie mogą występować linki afiliacyjne lub reklamowe.
Jak ważne jest wsparcie aktualizacjami telefonu? Czasami jest to coś, co decyduje o życiu lub…
Kompaktowy telefon z przepotężną baterią oraz z rewelacyjną specyfikacją może jednak zostać anulowany. Mowa tu…
Wydawałoby się, że Apple to synonim dbałości o każdy detal i skrupulatnej kontroli jakości. Tymczasem…
Jeden z najciekawszych głośników do 500 złotych doczekał się w Polsce przyjaznej przeceny. Niejaki Soundcore…
Akcje promocyjne Black Friday od zawsze wzbudzały emocje. I prawidłowo, gdyż nie zawsze czarnopiątkowe "okazje"…
Najważniejsze usługi zostaną tymczasowo wyłączone. Bank ING nie pozostawia złudzeń, że klienci, którzy odpowiednio się…