Obrovská časť internetu bola v utorok úplne nedostupná, prípadne mnohé webové stránky a služby fungovali len veľmi pomaly. Hoci bolo okamžite jasné, že problém spočíva v sieti spoločnosti Cloudflare, firme trvalo nejaký čas, kým sa jej podarilo určiť skutočnú príčinu. Výpadok mal široký dosah, keďže infraštruktúra Cloudflare poháňa weby mnohých populárnych aplikácií. Zasiahol aj sociálnu sieť X (predtým Twitter), kde používatelia nemohli publikovať nové príspevky ani obnovovať svoje časové osi.
Prečo si mysleli, že ide o útok
Ako informuje server 9to5Mac, Cloudflare spočiatku pracoval s verziou, že ide o masívny kybernetický útok. Dôvodom bol špecifický vzorec správania siete – pripojenia vypadávali vždy približne na päť minút, následne sa obnovili a potom znova spadli. Tento cyklus viedol spoločnosť k presvedčeniu, že čelia hyperskalárnemu DDoS útoku, pretože bežná technická chyba sa zvyčajne sama neopravuje a nevracia v cykloch.
Situáciu skomplikovala aj nešťastná náhoda. Súčasne s výpadkom siete prestala fungovať aj stavová stránka Cloudflare (status page). Hoci je táto stránka hostovaná úplne mimo infraštruktúry Cloudflare a nemá na ňu žiadne väzby, jej pád viedol diagnostický tím k mylnej domnienke, že útočník cielene napáda systémy aj komunikačné kanály firmy naraz.

Skutočným vinníkom bola aktualizácia
Následné hĺbkové vyšetrovanie však odhalilo, že nešlo o externý útok, ale o internú chybu, ktorú spoločnosť označila za „bolestivú“. Problém vznikol pri aktualizácii súboru, ktorý používa systém na správu botov.
Spúšťačom bola zmena oprávnení v jednom z databázových systémov. Táto zmena spôsobila, že databáza začala generovať viacnásobné záznamy do takzvaného „feature file“. Veľkosť tohto súboru sa v dôsledku toho zdvojnásobila. Keď sa tento nadrozmerný súbor rozšíril do všetkých strojov v sieti, softvér, ktorý riadi smerovanie prevádzky, zlyhal. Mal totiž nastavený limit na veľkosť tohto súboru, ktorý bol prekročený.
Záhadný päťminútový cyklus výpadkov mal tiež jednoduché vysvetlenie. Súbor sa generoval každých päť minút pomocou dotazu na databázový klaster ClickHouse, ktorý sa v tom čase postupne aktualizoval. Chybné dáta vznikali len vtedy, ak dotaz bežal na tej časti klastra, ktorá už bola aktualizovaná, čo vytváralo pravidelné intervaly výpadkov. Spoločnosť vydala ospravedlnenie, v ktorom uviedla, že vzhľadom na jej dôležitosť v internetovom ekosystéme je akýkoľvek výpadok neprijateľný.
Na čo to poukazuje?
Rozsiahly výpadok infraštruktúry Cloudflare, spôsobený napokon „len“ internou chybou, poukazuje hneď na niekoľko kritických, systémových zraniteľností, ktoré sú kľúčové pre fungovanie moderného internetu.
Cloudflare je pre internet kritická infraštruktúra, ktorá funguje ako ochranná a zrýchľujúca vrstva pre obrovskú časť svetových webových stránok a online služieb. Ukázalo sa, že keď jediná spoločnosť kontroluje takú veľkú časť internetového ekosystému, stačí jedna drobná, interná chyba v konfigurácii, aby sa naraz prepadli globálni giganti ako X, ChatGPT, e-shopy ako Shopify, herné platformy a dokonca aj kritické dopravné systémy. Toto je systémové riziko, ktoré robí celý internet mimoriadne krehkým a citlivým na interné chyby jednej firmy.

Ďalšie riziko spočíva v krehkosti konfigurácie a ľudskom faktore. Incident nebol spôsobený sofistikovaným kybernetickým útokom, ale zlyhaním softvérovej aktualizácie – konkrétne, zmenou oprávnení v databáze, ktorá spôsobila, že systém začal generovať neštandardne veľký konfiguračný súbor. Ten následne prekročil nastavený limit v softvéri, čo viedlo k reťazovej reakcii a výpadku v globálnom meradle. To poukazuje na nebezpečenstvo, že aj zdanlivo jednoduchá administratívna zmena (ktorá by mala byť rutinná) môže v komplexnom, globálne distribuovanom systéme viesť ku katastrofálnemu výsledku.
Výpadok Cloudflare tiež spôsobil paralyzovanie finančných tokov a operácií pre tisíce firiem (ako strata tržieb na e-shopoch). Trh zareagoval okamžitým prepadom trhovej kapitalizácie spoločnosti o 1,8 miliardy dolárov. To len podčiarkuje, že zlyhanie jedného kľúčového dodávateľa služby nielenže vedie k reputačnej škode, ale priamo zasahuje do finančnej stability a dôvery celého technologického sektora.
Pre firmy to znamená, že napriek dlhodobým zmluvám sa musia zmieriť s rizikom, že ich obchod môže kedykoľvek zastaviť technická chyba v sieti, ktorú nemôžu kontrolovať.
