Niedawno firma VMware spotkała się z dwiema awariami swojej usługi Cloud Foundry. Efektem pierwszej była kilkugodzinna przerwa w dostępie do usługi. Podczas szukania sposobu na zapobieganie kolejnym problemom tego typu, błąd zespołu zaowocował jeszcze groźniejszą awarią.
 25 i 26 kwietnia miały miejsce dwie przerwy w dostępie do Cloud Foundry |
Polecamy:
Zobacz też:
|
Cloud Foundry firmy VMware, oferuje usługę PaaS (platforma jako usługa). Deweloperzy mogą dzięki niej tworzyć aplikacje i zamieszczać je w sieci. Zaczęła działać 12 kwietnia, a już 25 i 26 kwietnia miały miejsce dwie przerwy w dostępie do tej platformy.
Pierwszy incydent był efektem czasowego braku prądu. Aplikacje deweloperów pozostały w sieci, ale deweloperzy nie mogli się logować ani tworzyć nowych programów. Przerwa w dostępie do usługi trwała prawie 10 godzin. Następnego dnia VMware przypadkowo doprowadziło do kolejnej awarii przy
przygotowywaniu planu zapobiegania podobnym problemom.
26 kwietnia rozpoczęto tworzenie scenariusza postępowania na wypadek przerwy w dostawie prądu. Jego przygotowanie miało przebiegać teoretycznie, niestety jeden z inżynierów
dotknął klawiatury. Rezultatem była awaria całej infrastruktury sieciowej Cloud Foundry. Przestały działać routery, firewalle, równoważenie obciążenia a częściowo także wewnętrzna infrastruktura DNS. Doprowadziło to do
całkowitego zerwania połączeń zewnętrznych.
Druga awaria okazała się poważniejsza. Po raz pierwszy VMware musiało umieścić na stronie informacje o czasowym braku dostępu do usługi. Podczas przerwy z 26 kwietnia wszystkie aplikacje i komponenty systemu działały, ale wiedzieli o tym tylko inżynierowie firmy. Awarię udało się jednak szybko naprawić.
Drugi problem VMware był podobny do niedawnego związanego z chmurą Amazon, której
awaria także spowodowana była błędem ludzkim. Wymagała ona jednak kilku dni do pełnej naprawy i miała poważniejsze skutki, gdyż usługa jest oferowana od dłuższego czasu i ma wielu klientów.