Rok przed wojną przeprowadziliśmy w Netology testy Proof of Concept systemu backupu dla kolegów z KredoBank. PoC udany, niemniej projekt został wstrzymany ze względu na sytuację geopolityczną. W momencie jednak, gdy na Lwów spadły pierwsze, rosyjskie rakiety, pojawiło się realne zagrożenie.

Mimo że KredoBank ma dwa ośrodki gwarantujące redundancję w ramach Lwowa, po rozpoczęciu przez Rosję wojny na Ukrainie, możliwa stała się sytuacja utraty ich obu, a wraz z nimi wszystkich danych. Gdyby do tego doszło, setki tysięcy klientów KredoBanku, znajdujących się już i tak w trudnej sytuacji, nie miałoby dostępu do środków pieniężnych.

Wirtualny system backupu z replikacją w chmurze.

Co zrobiliśmy? Reaktywowaliśmy stare kanały komunikacji Teams. Po stronie Netology został utworzony zespół składający się z Przemysława Sota (Data Protection Consultant), Miłosza Spleśniałego (Data Protection Consultant) oraz mojej osoby. Zanim zaczęliśmy działać, stworzyliśmy – wspólnie z przedstawicielami KredoBank – koncepcję. Przedyskutowaliśmy wymagania niezbędne do uruchomienia wirtualnego systemu backupu z replikacją do chmury Microsoft Azure w jednym z regionów w Europie Zachodniej.

Weekendowe działania po stronie pracowników IT KredoBank były trudne ze względu na sytuację we Lwowie – alarmy przeciwlotnicze oraz przerwy w działaniu sieci. „Jesteśmy gotowi – możemy działać dalej” – otrzymaliśmy w poniedziałek rano telefon od kolegi z Ukrainy. Aby zapewnić przez cały dzień wsparcie po stronie Netology dla KredoBank, w trakcie podróży do biura zrobiliśmy telekonferencję i ustaliliśmy, które osoby i o jakiej godzinie – z wyznaczonego zespołu – będą prowadziły wdrożenie.

W razie awarii redundantnego systemu produkcyjnego oraz systemu backupu on-premise w KredoBank możliwe jest dziś odtworzenie danych – korzystając z kopii w Azure – w dowolnym miejscu – chmurze Azure, centrum kolokacji lub innej chmurze. Współpraca między zespołem Netology i KredoBank była bardzo dobra. Wszyscy mieliśmy wspólny cel – ochronić dane przed agresorem i zabezpieczyć możliwość kontynuowania pracy systemu bankowego – mówi Artur Cieślar, Vice President w KredoBank

Jeszcze przed wojną w Ukrainie wdrażaliśmy wielokrotnie rozwiązania związane z repliką kopii backupu do chmury publicznej. Rozwiązania takie pozwalają chronić przed ransomware, hakerami czy rozległymi katastrofami naturalnymi. Zdobyte wcześniej doświadczenia pozwoliły szybko i skutecznie uruchomić zabezpieczenie danych dla KredoBank z replikacją do chmury Microsoft Azure” – mówi Przemysław Sot, Data Protection Consultant w Netology.

Zasoby dyskowe dla danych i metadanych, pierwsze replikacje.

Pracujemy razem wiele lat, więc w krytycznych sytuacjach możemy przekazywać wdrożenie jak pałeczkę w sztafecie od jednej osoby do kolejnej. Uruchomiliśmy dwa wirtualne serwery backupu on-premise – zarządzający i serwer mediów, pozwalający składować kopie danych lokalnie z wykorzystaniem deduplikacji. Zaraz po uruchomieniu podłączyliśmy krytyczne bazy danych do systemu backupu, tak aby ich kopia zaczęła się natychmiast wykonywać. Tego dnia działaliśmy do późnej nocy i od razu uruchomiliśmy dodatkową maszynę wirtualną – serwer replik backupu w chmurze Azure. Zestawiliśmy bezpieczne połączenie między środowiskiem on-premise KredoBank a chmurą publiczną.

Mimo presji czasu, praca z krytycznymi danymi bankowymi wymaga zapewnienia wysokiego poziomu bezpieczeństwa, w szczególności w okresie wzmożonych cyberataków. Na każdym etapie wdrożenia wykonywana była weryfikacja bezpieczeństwa i hardening rozwiązania przez zespół bezpieczeństwa KredoBank. Następnie utworzyliśmy niezbędne do składowania kopii zasoby dyskowe dla danych i metadanych oraz uruchomiliśmy pierwsze replikacje.

Zgodnie z prawem ukraińskim – wprowadzonym w czasie trwania wojny – można korzystać z chmur obliczeniowych, które rozmieszczone są na terytorium Unii Europejskiej oraz USA. Dlatego KredoBank aktualnie prowadzi intensywną migrację do usług cloud computing. Scenariusze na wypadek zagrożenia, przewidują uruchomienie krytycznych systemów bankowych również w chmurze.

Miałem okazję wdrażać wcześniej rozszerzenie systemu backupu o trzecią kopię replikowaną do Google Cloud. Zdobyte doświadczenia pomogły dobrać optymalne wartości bloku deduplikacji on-premise oraz w chmurze. Wykonaliśmy również tuning ilości buforów sieciowych i strumieni, co pozwala maksymalnie – jak to możliwe – wysycać łącze do replikacji i skracać czas pomiędzy wykonaniem kopii i jej repliki w Microsoft Azure” – twierdzi Miłosz Spleśniały, Data Protection Consultant w Netology.

Po niecałej dobie od rozpoczęcia prac mieliśmy działający system backupu on-premise, replikujący kopie danych i metadanych do chmury Azure. W następnych krokach podłączaliśmy – zgodnie z krytycznością – kolejne systemy bazodanowe, a potem środowisko maszyn wirtualnych. W momencie, gdy dane się backupowały i replikowały, nadszedł również czas na dalsze utwardzanie środowiska.

Analiza wpływu negatywnych czynników na biznes.

Bank wdrożył cały proces oceny wskaźników RPO (Recovery Point Objective) i RTO (Recovery Time Objective). Podstawą tego procesu jest BIA (Business Impact Analysis) – analiza wpływu negatywnych czynników na biznes. Ma ona na celu określenie krytycznych procesów, maksymalnych możliwych strat oraz krytycznego czasu dla tych procesów. Analiza BIA obejmuje określenie krytyczności procesu, informacji i innych zasobów, strat finansowych i niefinansowych, krytycznego czasu do wznowienia procesu, czasu RTO i RPO zgodnie ze scenariuszem przerwania wybranym przez właściciela procesu.

Przeprowadzając analizę BIA, właściciel procesu ustala najgorszy scenariusz, najbardziej krytyczny dzień roku pod względem wydajności procesu. Są to np. koniec roku, ostatni dzień podatkowy i inne zobowiązania przejęte przez bank lub najbardziej krytyczna pora dnia przed Nowym Rokiem, okres sprawozdawczy. Czas krytyczny dla procesu jest określany przez strukturalnego właściciela procesu na podstawie analizy strat finansowych i niefinansowych oraz wyników realizacji scenariusza w ujęciu czasowym.

Z kolei usługi informatyczne określa właściciel procesu Usługi informatyczne, których przywrócenie jest konieczne w przypadku wybranego scenariusza przerwania procesu. Czas RPO (backup danych) mierzony jest jako czas pomiędzy ostatnim backupem danych a momentem zdarzenia ciągłej pracy. Czas RPO wypełnia właściciel procesu, a do uzgodnienia wskaźnika mogą zaangażować się również pracownicy działów IT. Natomiast czas przywracania RTO jest wypełniany przez dział IT i definiowany jako czas pomiędzy wystąpieniem incydentu ciągłości działania a czasem procesu przywracania systemu IT.

Osiągnięty cel: odtworzenie danych w dowolnym miejscu

Na tym etapie KredoBank aktywnie rozwija ideę wykorzystania zasobów chmurowych w różnych kierunkach. Po pierwsze jest to backup danych – wykorzystując nowoczesne podejście do przechowywania danych, tworzenia kopii zapasowych i archiwizacji. Scenariusze backupu baz danych i infrastruktury krytycznej zostały stworzone i skonfigurowane tak, aby dane można było odzyskać w dowolnym momencie i w każdej sytuacji. Na dzisiaj przenieśliśmy już ok. 50 TB danych. Trzeba pamiętać, że to są dane skompresowane, więc samych danych jest dużo więcej.

KredoBank – wraz z Microsoft – opracował i zbudował w chmurze Azure podstawową architekturę wirtualnego centrum danych (Data Processing Center), tzw. Landing Zone (Cloud Adoption Framework Landing Zone Assessment). Efektem tej pracy były następujące opracowane elementy.

Architektura wirtualnego centrum danych KredoBanku (tzw. Landing Zone)

Zarządzanie tożsamością i dostępemAzure Active Directory: Designing a Secure Cloud Identity
Topologia sieci i łącznośćAzure Hybrid Cloud, Azure Enterprise-grade Networking
Zarządzanie i monitorowanieAzure Modern Monitoring and Modern Service Management
Bezpieczeństwo, zarządzanie i zgodnośćAzure Security Best Practices, Azure Security Center, Azure with Administration and Governance
Automatyzacja platformy i DevOpsAzure Infrastructure as Code, Azure DevOps Services

Wykonaliśmy audyt systemu i wraz z działem bezpieczeństwa zaplanowaliśmy kolejne kroki. Uruchomiliśmy również monitorowanie wykonywania się kopii i odtwarzania danych. Przeprowadziliśmy rozdział uprawnień zgodnie z zasadą Least Privilege. Uruchomiliśmy mechanizmy bezpiecznej autentykacji oraz rozliczalność wykonywanych operacji. Cel został osiągnięty!” – mówi Artur Cieślar, Vice President w KredoBank.

W razie awarii redundantnego systemu produkcyjnego oraz systemu backupu on-premise w KredoBank możliwe jest dziś odtworzenie danych – korzystając z kopii w Azure – w dowolnym miejscu – chmurze Azure, centrum kolokacji lub innej chmurze. Współpraca między zespołem Netology i KredoBank była bardzo dobra. Wszyscy mieliśmy wspólny cel – ochronić dane przed agresorem i zabezpieczyć możliwość kontynuowania pracy systemu bankowego w przypadku najgorszych zdarzeń, które mogą wydarzyć się na wojnie” – dodaje.

Zmiana prawa w związku z agresją Rosji

Trzeba pamiętać, że zgodnie z prawem ukraińskim – wprowadzonym w czasie trwania wojny – można korzystać z chmur obliczeniowych, które rozmieszczone są na terytorium Unii Europejskiej oraz USA. Dlatego KredoBank aktualnie prowadzi intensywną migrację do usług cloud computing. Scenariusze na wypadek zagrożenia, przewidują uruchomienie krytycznych systemów bankowych również w chmurze.

Nie mamy obecnie szacunków, jak szybko można odtworzyć środowisko w chmurze, ponieważ nowe prawo zostało wprowadzone stosunkowo niedawno i aby odpowiedzieć na to pytanie, potrzeba czasu. Architektura systemów KredoBank pozwala jednak na świadczenie usług najbardziej krytycznych dla klientów w sposób ciągły, nawet w czasie zagrożenia, które trwa od 24 lutego 2022 roku właściwie codziennie. Dzisiaj współpracujemy właściwie ze wszystkimi największymi operatorami chmurowymi i zamierzamy tę współpracę kontynuować” – podsumowuje Artur Cieślar.

Sławomir Marcisz, Architekt IT, Netology