Václav Svátek, generální ředitel a zakladatel společnosti ČMIS
Podle dostupných informací došlo ke dvěma výpadkům, které spolu nejsou vzájemně propojené. První výpadek se týká služeb Azure, zatímco druhý výpadek/havárie postihuje systémy s operačním systémem Windows, na nichž byl nainstalován bezpečnostní software od společnosti Crowdstrike.
V prvním případě, který se týká Azure, nebyly podle dostupných informací dostatečně otestovány následky nasazení nových změn. Příčina výpadku spočívá v nedostatečném testování nově zavedených systémů.
V případě Crowdstrike je problém závažnější a vyžaduje manuální zásah do havarovaných počítačů a serverů. Podobně jako u Azure platí, že každá firma by měla před vydáním nového softwaru pečlivě otestovat všechny možné dopady změn a nové verze systému. Aby byl nový software úspěšně nasazen, měl by být nejprve testován v testovacím prostředí. Poté by měl být zaveden do preprodukce a následně do produkčního prostředí pro omezený počet uživatelů. Teprve po úspěšném ověření v těchto fázích by měl být uveden na celosvětový trh.
Samozřejmě vyvstává otázka, co přesně způsobilo tyto problémy. Detailní informace zatím nejsou k dispozici, avšak vzhledem k tomu, že Crowdstrike vyvíjí bezpečnostní software určený k ochraně počítačů před kyberhrozbami, mohla je motivovat snaha uvést aktualizaci na trh co nejrychleji.
V současné době proti sobě stojí dvě protichůdné potřeby. Na jedné straně firmy usilují o to, aby jejich software byl co nejkvalitnější a neobsahoval žádné chyby, což vyžaduje čas. Na druhé straně chtějí uvést software na trh co nejrychleji, aby předešly potenciálním bezpečnostním hrozbám. Není snadné určit, která z těchto možností převažuje a k jaké by se měly přiklonit.
Je zřejmé, že i giganti jako Azure a Microsoft mohou čelit výpadkům. Výpadky mohou postihnout jakoukoliv společnost, bez ohledu na to, jak pečlivě o své služby pečuje.
Vratislav Kalenda, spoluzakladatel a CEO vývojářského studia Applifting
Odolnost IT systémů je v přímém rozporu s efektivitou. Je to hezky vidět na dnešním výpadku který ohrozil spoustu kritické infrastruktury od letišť až po nemocnice. Poruchu stovek milionů počítačů způsobil chybný updatu bezpečnostního softwaru Crowdstrike, který používá velká část korporátního světa v kombinaci s nejpoužívanějším operačním systémem MS Windows. Chyba se projevuje tak, že počítač zamrzne a nejde nastartovat. Protože počítači nenaběhne operační systém, chybu nelze vzdáleně opravit. Navíc spousta počítačů má zašifrovaný disk, což komplikuje opravu a nutí IT pracovníky fyzicky přijít ke stroji a opisovat ručně dlouhé enkrypční klíče. Kombinace počtu postižených zařízení a složitost obnovy z tohoto výpadku z něj dělá jeden z nejhorších v novodobé historii.
Něco takového muselo v jednu chvíli přijít. Firmy jsou nuceny ekonomickými tlaky hledat to nejlevnější řešení. Mít jeden operační systém s jedním bezpečnostním programem bez záložního plánu přináší úspory z rozsahu. Tedy jen do té doby, dokud se všechno nerozbije najednou. Myslím si, že zákazníci Crowdstriku se na tuto situaci mohli připravit jedině tím, že budou mít záložní řešení pro kritickou infrastrukturu (Některá letiště například začala vydávat ručně psané letenky). Domnívám se totiž, že málo kterému IT oddělení dojde to, že byť jen jeden špatný automatický update bezpečnostního softwaru, který má přístup do jádra operačního systému může způsobit, že zasažený počítač už nenastartuje. Kdyby jim to došlo, pravděpodobně by Crowdstrike nikdy nepoužili.
Zato Crowdstrike pro zabránění výpadku toho mohl udělat hodně:
- Mohl lépe testovat a mít lepší procesy vydávání aktualizací (CI/CD), které by bug odhalili před distribucí
- Mohl mít phased rollout strategii distribuce updatu, kdy nejdřív update pošlou pouze malému procentu svých zákazníků a sledují případné abnormální chování systémů
- Měli zákazníky poučit o tom, jaké můžou mít automatické updaty dopad na kritickou infrastrukturu a zákazníky s touto infrastrukturou měli edukovat o tom, že by měli updatovat Crowdstrike manuálně po otestování za účelem snížení rizika pádu systému
- A hlavně, neměli nasazovat před víkendem
Juraj Masár, CEO a spoluzakladatel Better Stack
Dnešní výpadek bohužel ukazuje propojení moderních aplikací: nestačí, že vaše systémy fungují, musí fungovat i systémy vašich dodavatelů. Software najdete dnes všude, a i rutinní operace jako upgrade systému se může změnit na malou katastrofu. Platí pravidlo “důvěřuj, ale prověřuj” – i aktualizace od velkých a důvěryhodných dodavatelů je třeba nejdříve otestovat na oddělené části systému, takzvaném “staging environment”, před nasazením do produkce. Držíme všem zasaženým firmám palce, ať se s problémem co nejdříve vypořádají.