Zrozumienie terminologii odzyskiwania po awarii — RTO, RPO, Failover, BCP i nie tylko

Plan odzyskiwania po awarii to najważniejszy środek, który organizacja musi mieć, zanim dotknie ją nietypowe zdarzenie.

W branży IT zaczyna się od stworzenia formalnego dokumentu zawierającego plany, działania i procedury postępowania z katastrofą i jej następstwami.

Katastrofa to zdarzenie, które pojawia się nagle, bez wcześniejszego powiadomienia i może być różnego rodzaju. A kiedy wyląduje, osoby i organizacje napotykają różnego rodzaju trudności, w tym problemy finansowe i doświadczenie użytkownika.

Jeśli dojdzie do ataku, musisz być gotowy, aby zminimalizować jego skutki i szybciej przywrócić operacje. W tym miejscu przygotowanie praktycznego planu odzyskiwania po awarii pomoże powstrzymać lub zapobiec katastrofie. Możesz także ograniczyć jego następstwa pod względem komfortu użytkowania, kosztów i przestojów.

Ponadto musisz mieć gotowe plany, ludzi, strategie, sprzęt i systemy, aby wszystko wróciło do działania. Ale w tym celu musisz dogłębnie zrozumieć odzyskiwanie po awarii.

W tym artykule omówię to szczegółowo wraz z kluczowymi terminologiami odzyskiwania po awarii, dzięki czemu możesz dzielnie walczyć i wyjść silniejszy w tak niesprzyjających warunkach.

Zaczynajmy!

Co to jest katastrofa?

Katastrofa to nieprzewidziane wydarzenie, które może zdarzyć się wszędzie, także w branży IT. Występuje naturalnie lub przez ludzi i może zakłócać działalność firmy i naruszać tkankę infrastruktury.

W rezultacie dotyczy to organizacji i jej klientów, dostawców, pracowników i partnerów. Wywiera presję na organizację pod względem finansów, reputacji w branży, zaufania klientów i bezpieczeństwa.

Dlatego musisz być gotowy z wyprzedzeniem, aby przezwyciężyć taki scenariusz. W tym celu musisz natychmiast odzyskać każdą operację i dane. Krótko mówiąc, musisz przygotować swoją organizację do odzyskania wszystkiego w możliwie najkrótszym czasie dla swoich klientów.

Katastrofy są różnego rodzaju, takie jak cyberataki, sabotaże, ataki terrorystyczne, oprogramowanie ransomware lub zagrożenia fizyczne, huragany, trzęsienia ziemi, pożary, powodzie, wypadki przemysłowe, przerwy w dostawie prądu i wiele innych.

Co rozumiesz przez odzyskiwanie po awarii?

Odzyskiwanie po awarii to proces przywracania normalnego działania po katastrofie. Obejmuje wznowienie dostępu do sprzętu, oprogramowania, sprzętu, łączności, sieci, zasilania i danych. Musisz ustalić zasady i procedury w udokumentowanym procesie, aby przygotować organizację na wypadek katastrofy.

Jeśli jednak obiekty Twojej organizacji zostaną zniszczone, musisz rozszerzyć niektóre działania, pracując nad komunikacją, transportem, zaopatrzeniem, lokalizacjami pracy i nie tylko.

Dlaczego plan odzyskiwania po awarii jest ważny?

Opracowanie idealnego planu naprawy po katastrofie naturalnej lub spowodowanej przez człowieka jest niezbędne w każdej branży IT. Upewnij się, że masz odpowiedniego pracownika i narzędzia we właściwym miejscu, aby sprawnie zrealizować plan.

Przyjrzyjmy się bliżej, dlaczego odzyskiwanie danych po awarii ma kluczowe znaczenie.

Ogranicz szkody

Katastrofa jest nieprzewidywalna. Nikt nie wie, kiedy przychodzi i odchodzi. Ale z wyprzedzeniem przygotowujesz się do kontrolowania szkód wyrządzonych w Twojej infrastrukturze.

Na przykład w obszarach narażonych na zalanie możesz umieścić swoje niezbędne dokumenty i rodzaje sprzętu na najwyższym piętrze, aby uniknąć uszkodzeń.

Podobnie wykonaj kopię zapasową ważnych danych, zanim cyberataki mogą je włamać lub wykraść.

Przywracanie usług

Jeśli przygotujesz solidny plan wyjścia z katastrofy, przywrócenie wszystkich usług do ich normalnej postaci jest szybkie i łatwe. Oznacza to, że w krótkim odstępie czasu możesz odzyskać prawie wszystkie główne aktywa i usługi.

Minimalizuj przerwy

Nie możesz wiedzieć, co stanie się jutro lub na kolejnym etapie operacji. Ale dzięki doskonałemu planowi regeneracji nie musisz się zbytnio martwić o konsekwencje. Twoja infrastruktura może kontynuować działanie z minimalnymi przerwami.

Szkolenie i przygotowanie

Infrastruktura IT składa się z wielu pracowników pracujących pod dachem. Wszyscy muszą wiedzieć o odzyskaniu, aby działać natychmiast zgodnie z wymaganiami i oczekiwaniami w przypadku zagrożenia.

Właściwe przygotowanie obniży również poziom stresu u wszystkich osób związanych z Twoją organizacją. Co więcej, możesz przeszkolić swoich pracowników, aby podejmowali niezbędne działania w przypadku nieoczekiwanego zdarzenia.

Terminologia odzyskiwania po awarii

Zacznijmy od terminologii, aby lepiej zrozumieć odzyskiwanie po awarii.

RTO

Docelowy czas odzyskiwania (RTO) to czas, jaki organizacja wyznacza zgodnie z naturą firmy, aby tolerować katastrofę bez wpływu na wzrost finansowy.

Przy ustalaniu RTO firma musi sprawdzić przestoje, które mogą w różny sposób wpłynąć na Twoją organizację. Służy do badania opłacalnych strategii kontynuowania działalności biznesowej nawet po katastrofie. Gdy klienci napotykają jakiekolwiek zakłócenia w aplikacji, pytają, ile czasu zajmie aplikacji powrót do akcji. Odpowiedzią jest RTO dla każdej organizacji.

Przykład: Załóżmy, że jesteś firmą zajmującą się transakcjami online, taką jak PayPal lub Pioneer, w obliczu nieprzewidywalnych zdarzeń. W takim przypadku Twoje RTO będzie wystarczająco szybkie, aby przywrócić operację.

Innymi słowy, firma ustawia RTO na godzinę lub dwie, aby uniknąć konsekwencji w postaci finansów lub danych.

RPO

Cele punktu odzyskiwania (RPO) to utrata danych, z którą infrastruktura IT może sobie poradzić pod względem czasu i ilości informacji.

Mylące?

Weź przykład bazy danych, która rejestruje transakcje banku, w tym przelewy, harmonogramy, płatności i inne. W przypadku awarii baza danych jest odzyskiwana w czasie rzeczywistym. W tym przypadku różnica między bazą danych w momencie awarii a odzyskiwaniem bazy danych po awarii wynosi zero.

W przypadku niektórych firm odzyskanie wszystkich informacji z kopii zapasowej może zająć około 24 godzin, ale czasami może to być katastrofalne. Niezbędne jest ustawienie infrastruktury zgodnie z wymaganiami RPO. Obejmuje to zwiększenie częstotliwości tworzenia kopii zapasowych, dodanie rezerwowej bazy danych do architektury i nie tylko.

Przełączanie awaryjne

Pomyśl o sytuacji, w której podróżujesz na dużą odległość. Nagle z jakiegoś nieoczekiwanego powodu złapałeś gumę. Dziękujemy za koło zapasowe dostępne w Twoim pojeździe oraz narzędzia do wymiany uszkodzonej opony.

Przełączanie awaryjne działa w ten sam sposób.

Oznacza to, że podczas katastrofy potrzebne jest połączenie zapasowe. Krótko mówiąc, przełączanie awaryjne oznacza posiadanie sieci i systemów, których można użyć w czasie awarii, aby przełączyć informacje do systemu odzyskiwania.

Przełączanie awaryjne zapewnia płynne działanie wszystkich usług, nawet w przypadku awarii infrastruktury lub sprzętu. W ten sposób możesz zapobiec utracie danych i przychodów swojej organizacji oraz przerw w świadczeniu usług użytkownikom końcowym.

Możesz ustawić go ręcznie lub zezwolić na automatyczne działanie w celu przeniesienia danych na serwer w trybie gotowości.

Powrót po awarii

Powrót po awarii IT to prosta operacja, w której pierwotna produkcja wraca do swojego pierwotnego miejsca (systemu) po obsłużeniu awarii. Podczas ataku firmy śledzą operację przełączania awaryjnego, dzięki której wszystkie obciążenia przenoszone są do repliki maszyny wirtualnej lub systemu kopii zapasowej.

Nie możesz jednak po prostu pominąć kolejnego kroku powrotu. Gdy odzyskasz wszystko i wrócisz do działania, musisz przenieść wszystkie obciążenia na ich oryginalne maszyny wirtualne lub systemy. Ten ogólny proces zwracania obciążeń do pierwotnego miejsca pracy lub systemu jest znany jako powrót po awarii. Oznacza to, że „wrócisz” po ataku.

Powrót po awarii jest również używany do planowej konserwacji przedsiębiorstwa. Prawdą jest, że powrót po awarii zawsze następuje po przełączeniu awaryjnym. Innymi słowy, przełączanie awaryjne to pierwszy krok, a powrót po awarii to drugi krok w odzyskiwaniu istotnych danych. Można go skonfigurować między chmurą a chmurą, lokalnie na lokalnie, lokalnie na chmurę lub dowolną ich kombinację.

DR

Odzyskiwanie po awarii (DR) to proces, w którym masz gotowe plany odzyskania zasobów w określonym czasie.

DR daje organizacji możliwość szybkiego reagowania i odzyskiwania każdej usługi po nieoczekiwanym zdarzeniu. Dostarcza również formalną dokumentację zawierającą instrukcje dotyczące podjęcia natychmiastowych działań w przypadku nieprzewidzianych zdarzeń.

BCP

Plan ciągłości działania (BCP) to jeden z najbardziej akceptowalnych planów odzyskiwania po awarii, który umożliwia infrastrukturze IT tworzenie strategii w celu obsługi zakłóceń IT w serwerach, urządzeniach mobilnych, komputerach osobistych i sieciach.

BCP różni się nieco od odzyskiwania po awarii, ponieważ pomaga organizacji w planowaniu przywrócenia oprogramowania korporacyjnego i produktywności w celu zaspokojenia kluczowych potrzeb biznesowych.

Tutaj firma tworzy system odzyskiwania, aby przezwyciężyć potencjalne zagrożenia, takie jak cyberataki czy klęski żywiołowe. Został zaprojektowany w celu zabezpieczenia aktywów i zapewnienia, że ​​wszystkie usługi szybko wrócą do działania po strajku.

BCM

Business Continuity Management (BCM) to proces zarządzania ryzykiem zaprojektowany specjalnie w celu ochrony przed zagrożeniami dla procesów biznesowych. BCM to kolejny etap BCP, w którym sprawdza on plany naprawcze, aby upewnić się, że wszyscy w firmie natychmiast zareagują na plan i odzyskają wszystkie niezbędne elementy.

BCM działa jako ramy zarządzania do identyfikowania ryzyk infrastrukturalnych w obliczu zagrożeń zewnętrznych i/lub wewnętrznych. Zapewnia również, że struktura działa wydajnie dzięki regularnym testom w celu zwiększenia przewidywalności, zmniejszenia ryzyka i dostosowania planu przyszłych ataków.

BIA

Business Impact Analysis (BIA) to proces analizy wskaźnika przetrwania firmy poprzez identyfikację kluczowych systemów, operacji i procesów. Opowiada o skutkach katastrofy dla Twojej organizacji z powodu przerwy w działaniu.

BIA przewiduje konsekwencje, zanim atak faktycznie nastąpi, aby zebrać kluczowe informacje, które mogą pomóc w stworzeniu skutecznych strategii odzyskiwania. Identyfikuje również koszty związane z awariami, takie jak koszt wymiany sprzętu, utrata przepływu środków pieniężnych, zyski, pensje i inne.

Tworząc raport BIA, musisz wziąć pod uwagę kluczowe procesy związane z Twoją firmą, wpływ zakłóceń na różne obszary, akceptowalny czas trwania, obszary tolerowane, koszty finansowe i inne.

Drzewo połączeń

Drzewo połączeń to proces tworzenia listy pracowników, do których należy zadzwonić w nagłych wypadkach. Jest to procedura o strukturze przypominającej drzewo.

Na przykład podczas katastrofy jedna osoba skontaktuje się z małą grupą członków z pilną wiadomością, pracownicy dzwonią do każdej grupy osobno. W ten sposób wszyscy pracownicy będą informowani o zagrożeniu i rozpoczną przydzieloną im pracę, aby na czas odzyskać wszystkie funkcje i procesy. Tworzenie listy jest proste, ale wdrażanie jej w czasie rzeczywistym powoduje zamieszanie.

Musisz wykonywać regularne czynności telefoniczne, aby przygotować każdego członka personelu ratunkowego do zachowania czujności. Regularne testowanie może również pomóc zidentyfikować zmienione lub brakujące liczby, które mogą poważnie wpłynąć na wydajność.

Drzewo wywołań zawiera informacje, które mają być wykorzystane w sytuacji awaryjnej w celu dostarczenia instrukcji. Można to również zrobić ręcznie, ale ludzie używają automatyzacji do przyspieszenia procesu i powiadamiania członków w dzisiejszym cyfrowym świecie.

Centrum dowodzenia/Centrum kontroli

Jest to wirtualny lub fizyczny obiekt specjalnie przygotowany do dowodzenia lub kontroli nad planami naprawczymi podczas kryzysu. Komunikuje się z zespołem w celu zarządzania systemami i funkcjami podczas katastrofy.

Tradycyjnie infrastruktura zależy od centrum dowodzenia radzącego sobie z kryzysami bez odpowiedniego podejścia. W dzisiejszych czasach organizacje doskonale zaprojektowały swoje centrum sterowania, co powoduje natychmiastową reakcję na kluczowe kompetencje.

Po wykryciu katastrofy centrum dowodzenia szybko przechodzi w fazę odzyskiwania. Ponadto służy jako punkt raportowania w przypadku usług, prasy, dostaw i nie tylko. Skupia również ludzi z wielu dyscyplin podczas takich scenariuszy.

Reagowania na incydenty

Reakcja na incydent to rodzaj odpowiedzi udzielanej w celu radzenia sobie z atakiem. Odbywa się to za pomocą odpowiednich procedur i personelu, aby skutecznie zachować bezpieczeństwo sieci i danych we właściwym czasie.

Jeśli organizacja ma plan incydentów przed nieoczekiwanym zdarzeniem, może zabezpieczyć swoje dane przed zagrożeniami w czasie rzeczywistym. Specjaliści ds. reagowania na incydenty zawsze zwracają uwagę na problemy i działają w sposób naturalny podczas incydentu. Podejmują pewne środki, aby uniknąć naruszeń bezpieczeństwa, zapewniając, że nie pominą ani jednego kroku podczas odzyskiwania po awarii.

Na początku musisz określić krytyczne dane i przechowywać je w chmurze lub dowolnej zdalnej lokalizacji, aby zapewnić bezpieczeństwo. Rozwiązuj bieżące potrzeby w zakresie infrastruktury i zmieniające się zagrożenia cybernetyczne, regularnie aktualizując plany reagowania na incydenty.

Utworzyć kopię zapasową

Rozwiązania do tworzenia kopii zapasowych pomagają infrastrukturze IT w utrzymaniu kopii danych i ich bezpiecznym przechowywaniu we właściwym czasie. Jeśli napotkasz uszkodzenie bazy danych, przypadkowe usunięcie wszystkich danych lub jakikolwiek inny problem, musisz być gotowy do tworzenia kopii zapasowej, aby natychmiast przywrócić dane i kontynuować korzystanie z usług.

Polega na replikowaniu plików i przechowywaniu ich w bezpiecznej lokalizacji w celu łatwego dostępu do wszystkich danych po nietypowym zdarzeniu. Pomoże, jeśli wykonasz kopię zapasową danych w wielu lokalizacjach, aby zapewnić możliwość ich przywrócenia nawet w przypadku awarii witryny.

Odporność

Zdolność społeczności, stanów, organizacji i osób fizycznych do stawiania oporu lub przetrwania katastrofy bez narażania usług i systemów jest znana jako odporność na katastrofy.

Organizacja musi być przygotowana na powstrzymanie dużego stresu związanego z zagrożeniami. Upewnij się, że masz możliwości zminimalizowania strat dzięki lepszemu planowaniu, zamiast czekać, aż ktoś przyjdzie i cię uratuje. Pomoże to w radzeniu sobie z awariami i sprawnym odzyskaniu infrastruktury IT.

Tutaj głównym celem jest zachowanie i przywrócenie podstawowych funkcji i struktur we właściwym czasie, gdy jest to konieczne. Aby stać się organizacją odporną na katastrofy, musisz się wcześniej przygotować i umieć przewidywać zagrożenia, dostosowywać się do zmian, dzielić się i uczyć, integrować różne sektory i zarządzać poziomami ryzyka.

SLA

Umowa dotycząca poziomu usług (SLA) to plan awaryjny, w którym podajesz użytkownikom końcowym czas potrzebny na przywrócenie usług w sytuacji awaryjnej.

Umowa SLA zapewnia klientom, że ich dane są bezpieczne i nie są zagrożone ani udostępniane stronom trzecim. Jest to pojedynczy punkt kontaktu ze sprawami użytkowników końcowych.

Każda infrastruktura IT daje gwarancję SLA swoim klientom. Dlatego upewnij się, że wcześniej komunikujesz się z użytkownikami końcowymi.

SPOF

Pojedynczy punkt awarii (SPOF) to element wyposażenia, jednostka, zasób lub aplikacja, z którą połączonych jest wiele innych systemów lub aplikacji.

Jeśli taki sprzęt lub zasób ulegnie awarii, wraz z nim ulegną awarii wszystkie istotne części podłączone do systemu. W ten sposób wpłynie to na cały proces i działanie biznesowe.

Dlatego musisz mieć strategię radzenia sobie z takim problemem, aby Twoja organizacja działała. Pierwszą rzeczą, jaką możesz zrobić, to zidentyfikować ten pojedynczy element wyposażenia lub system, który może mieć większy wpływ. Następnie przeprowadź analizę wpływu na biznes i uzyskaj wynik oceny ryzyka, aby mieć świadomość, jakie sytuacje mają się wydarzyć. Zakop się i znajdź je przed wydarzeniem.

Po wymienieniu wszystkich SPOF sklasyfikuj je zgodnie z procesem odzyskiwania. Umieść każdy z SPOF w trzech różnych kategoriach:

  • Odzyskiwanie danych łatwo i bezpośrednio przy mniejszym nakładzie czasu i budżetu.
  • Odzyskiwanie byłoby trudne, ale można by opracować niezawodny proces przywracania.
  • Nic nie można zrobić, aby odzyskać siły, gdy spadnie.

Możesz działać zgodnie z kategorią.

Odzyskiwanie systemu

W przypadku awarii sprzętu należy uruchomić proces odzyskiwania, aby przywrócić dany system lub serwer do jego pierwotnej postaci. Aby odzyskać cały system, musisz być przygotowany na wymagania dotyczące odzyskiwania, tworzenie kopii zapasowych, zgodność oprogramowania układowego i zgodność sprzętu.

Odzyskiwanie systemu to proces, który resetuje urządzenie do poprzednich ustawień lub do tego samego stanu, w jakim było nowe. Spowoduje to usunięcie wszystkich infekcji wirusowych spowodowanych zainstalowanym oprogramowaniem lub aplikacjami w systemie.

Proces ten obejmuje planowanie odzyskiwania infrastruktury IT, które ustala i przestrzega określonych procedur w celu zapewnienia dostępności danych w przypadku zakłóceń spowodowanych przez człowieka lub naturalnych.

Przywracanie systemu

Przywracanie systemu to narzędzie do odzyskiwania, które umożliwia przywrócenie określonych plików i informacji do ich poprzedniego stanu we właściwym czasie.

Dzięki przywracaniu systemu możesz odzyskać klucze rejestru, zainstalowane programy, sterowniki, pliki systemowe i inne elementy do poprzedniej wersji. To ratuje życie w wielu katastrofach.

Plan testów

Odnosi się do dokumentu, który przechowuje informacje na temat strategii testowania, szacunków, zasobów, terminów, celów i harmonogramów. Działa jako plan, który przeprowadza testy w celu zapewnienia bezpieczeństwa sprzętu i oprogramowania.

Obejmuje to różne testy zgodnie z procedurami i krokami zaplanowanymi w celu zarządzania skutkami katastrofy. Wykonuj regularne testy, aby przygotować siebie i swoją organizację, aby nie pominąć ani jednego kroku w trakcie działania. W ten sposób infrastruktura IT może zrozumieć niedociągnięcia i być gotowa do walki.

Wniosek

Nikt nie wie, kiedy wydarzy się katastrofa. Dlatego odpowiednie środki bezpieczeństwa i ochrony są niezbędne dla każdej firmy.

Terminologia odzyskiwania po awarii pomoże Ci zrozumieć, jak reagować na ataki i katastrofy. Pomoże Ci również przygotować się z wyprzedzeniem, abyś mógł zabezpieczyć swoją infrastrukturę na wypadek nieoczekiwanego zdarzenia. Będziesz mógł stworzyć skuteczną strategię odzyskiwania po awarii w czasie rzeczywistym, aby zaoszczędzić miliony dolarów i powstrzymać zaufanie klientów.