Niedoskonałe taśmy

Do dziś wiele firm wykorzystuje system tworzenia kopii zapasowych, w którym podstawowym nośnikiem jest taśma magnetyczna. Ma ona jednak kilka niezaprzeczalnych wad.

Wśród nich na pierwszym miejscu znajduje się  czas dostępu do danych. W najlepszym przypadku, gdy taśma jest już w napędzie, potrzebujemy od kilku do kilkuset sekund, aby przewinąć ją do odpowiedniego miejsca z naszymi danymi. Sytuacja ta przypomina przewijanie taśmy VHS do wybranego fragmentu nagrania. Jeżeli taśma jest przechowywana w sejfie w odległej lokalizacji, to czas dostępu możemy liczyć w godzinach a nawet dniach. Kolejnym minusem taśm jest podatność na uszkodzenia mechaniczne i związany z tym brak pewności poprawności zapisu danych. Można to porównać do nagrywania płyt CD – jeżeli zaraz po nagraniu nie przeprowadzi się weryfikacji, może okazać się, że dane na płycie są uszkodzone. Trzecią słabą stroną technologii taśmowej jest narzut administracyjny, związany z monitoringiem, wymianą i transportem nośników do innej lokalizacji. O ile monitoring i wymiana nośników mogą być relatywnie tanie, o tyle zmiana lokalizacji taśm generuje już znaczące koszty. Ostatnią słabością rozwiązań taśmowych jest ich utrudniona integracja ze środowiskami wirtualnymi i wynikające z tego problemy z szybkością transferu danych po współdzielonych interfejsach sieciowych. Przedstawione argumenty stawiają wysłużone taśmy w nienajlepszym świetle. Zatem, czy jest jakaś alternatywa?

Okazuje się, że dzięki coraz tańszym rozwiązaniom opartym o zasoby dyskowe, nie jest rozrzutnością przechowywanie kopii zapasowych na dyskach, czyli tzw. backup-to-disk (B2D). Do niedawna koszt rozwiązań dyskowych pozwalał przechowywać jedynie wybrane kopie na dyskach przez ograniczony czas, po którym należało przenieść dane z backupem (kopią zapasową) z dysków na taśmy, uzyskując wówczas tzw. backup-to-disk-to-tape (B2D2T). Otrzymuje się tym samym walory backupu na dysk, ale nadal pozostaje widmo wysłużonych taśm.

Deduplikacja

Aby było możliwe utworzenie w pełni dyskowego środowiska backupowego, potrzebujemy urządzeń w cenie porównywalnych do systemów taśmowych. Ze względu na potrzebę wykorzystania bardziej zaawansowanych rozwiązań sprzętowych (macierz), cena gigabajta danych na taśmie nadal pozostaje niższa niż na dysku. Zatem jedyną opcją na obniżenie kosztu przestrzeni dyskowej, jest zmieszczenie na niej większej ilości danych, niż wskazują na to parametry techniczne dysku.

Uzyskanie takiego efektu możliwe jest dzięki deduplikacji, która jest rodzajem kompresji, w wyniku której zapisującemy na dysku tylko unikalne na poziomie bloków danych dane, a jeżeli pojawiają się powtórzenia, to dane nie są zapisywane ponownie ale tworzone są jedynie wskaźniki do danych już zapisanych. Operacja ta przypomina tworzenie skrótów na pulpicie do programów lub do dokumentów. Im stopień deduplikacji wyższy, tym więcej danych możemy zmieścić, a tym samym zmniejsza się koszt przestrzeni dyskowej.

Jaki zatem może być stopień deduplikacji? Wszystko zależy od tego, jak bardzo zmieniają się dane. Dla przykładu przyjmijmy, że mamy bazę danych 300GB, w której każdego dnia zmianie ulega 5GB danych. Załóżmy, że obejmujemy ją tygodniową protekcją (czyli chronimy dane przed nadpisaniem przez tydzień) i wykonujemy codziennie pełny backup. Bez deduplikacji potrzebujemy 300 GB x 7 dni = 2100 GB, z deduplikacją potrzebujemy 300 GB + 6 dni x 5GB = 330 GB. Daje to nam stopień deduplikacji 6,3 i redukcję wymaganej przestrzeni na poziomie 84%. Biorąc pod uwagę 14 dni protekcji, deduplikacja wynosiłaby 11,5 i redukcja osiągnęłaby poziom 91,4%! Jak widać jesteśmy w stanie „zwiększyć” pojemność naszych dysków ponad 10-krotnie (w sprzyjających warunkach współczynniki wahają się między 15 a 20).

EMC w akcji

Czego potrzeba do deduplikacji? Interesującym rozwiązaniem oferującym funkcję deduplikacji jest urządzenie EMC Data Domain (DD). Od strony technicznej jest to serwer wyposażony w pojemne dyski twarde, na których gromadzone są zdeduplikowane dane. Dostępne są również półki dyskowe, które umożliwiają rozszerzenie dostępnej przestrzeni. Istnieje wiele wersji urządzeń różniących się między sobą parametrami wydajnościowymi i pojemnościowymi oraz skalowalnością. Szeroki wybór pozwala na dopasowanie urządzenia do środowiska o dowolnej skali.

Data Domain to jednak nie tylko dyski z deduplikacją. Rozwiązanie to oferuje dostęp do swoich zasobów po protokole NFS i CIFS, co umożliwia wystawienie zasobów bezpośrednio do systemu operacyjnego. Ma również opcję wirtualnej biblioteki, czyli potrafi emulować bibliotekę taśmową. Inną, bardzo przydatną technologią w Data Domain jest tzw. DDBOOST, dzięki której możliwe jest wykonywanie deduplikacji danych na źródle, czyli jeszcze przed wysłaniem ich po sieci do urządzenia. Dzięki temu w znacznym stopniu odciążane są łącza sieciowe oraz samo urządzenie DD. Deduplikacja na źródle jest szczególnie korzystna przy wolnych łączach (np. przy routerach/firewallach) lub w środowiskach wirtualnych (przy współdzieleniu interfejsów sieciowych).

Warto wspomnieć o jeszcze jednej funkcjonalności, a mianowicie o replikacji, dzięki której możliwe jest automatyczne kopiowanie zasobów jednego urządzenia Data Domain na drugie. Przy replikacji jest wykonywana również deduplikacja, więc replikowane są jedynie różnice, co znacznie zmniejsza ilość przesyłanych danych i umożliwia umiejscowienie urządzeń w odległych lokalizacjach.

Mając już odpowiedni sprzęt pod kopie bezpieczeństwa, potrzebujemy jeszcze oprogramowania, które będzie zarazem pełniło funkcję systemu kopii zapasowej i współpracowało z Data Domain. Od 2003 EMC udostępnia produkt o nazwie NetWorker, który prężnie rozwijany, oferuje integrację z wieloma aplikacjami i przede wszystkim w pełni integruje się z Data Domain. Dzięki rozbudowanemu interfejsowi graficznemu konfiguracja nowych urządzeń oraz zarządzanie wykonywaniem kopii bezpieczeństwa jest proste i przyjemne, co przekłada się na obniżenie czasu administracji systemem. Dodatkowo NetWorker oferuje liczne raporty, które przedstawiają zarówno stan bieżący, jak i historię zmian danych w ramach całego systemu backupowego. Innym atutem NetWorkera jest jego licencjonowanie, które znacznie upraszcza zarządzanie licencjami, gdyż opiera się ono o ilość danych źródłowych, które są backupowane. Jeżeli backupujemy codziennie 300GB bazę przez 7 dni, to potrzebujemy licencję, która pokryje 300 GB, a nie 2100 GB. Oprócz licencji pojemnościowej nie ma potrzeby zakupu licencji na integrację z bazą danych, systemem operacyjnych czy kolejnego urządzenia taśmowego bądź dyskowego, na które będzie wykonywany backup.

Podsumowując, EMC oferuje atrakcyjny tandem w postaci NetWorker’a i Data Domain. Połączenie to jest w stanie konkurować z tradycyjnymi rozwiązaniami taśmowymi pod kątem funkcjonalności, wydajności, a również ceny. Upraszcza znacząco zarządzanie systemem kopii zapasowej, obniża koszt utrzymania systemu i podwyższa jakość usług backupowych. Wszystko to przekłada się na najważniejszy cel – podwyższenie poziomu bezpieczeństwa danych i zapewnienie ciągłości działania biznesu.

PEKAES – wdrożenie systemu bezpieczeństwa częścią procesu migracji systemów
W roku 2011 z powodu wygasającego maintenance na sprzęt oraz większych wymagań dotyczących wydajności całego systemu uruchomionego w środowisku OS400, firma PEKAES SA rozpoczęła przygotowania do przeprowadzenia projektu migracji posiadanych systemów SAP R/3 na nową platformę. Wybór padł na platformę Linux SUSE oraz bazę danych IBM DB2. Aby zapewnić optymalne zagospodarowanie zasobów dostarczonych przez nowo zakupiony sprzęt zaplanowano wirtualizację całego środowiska do środowiska VMWare Infrastructure. Całość rozwiązania wsparto macierzą klasy midrange, zapewniającą wystarczający zapas mocy tak, aby nowo projektowane środowisko mogło spełniać wysokie wymagania stabilności oraz komfortu pracy dla użytkowników końcowych, jednocześnie zapewniając uzasadniony koszt rozwiązania w stosunku do wymagań.
W fazie wstępnej projektu określono wysokie wymagania bezpieczeństwa danych oraz ich dostępności. Rozwiązanie HA (High Availability) zaprojektowano w oparciu o technologie dostarczane przez VMWare zapewniające mechanizmy szybkiego uruchomienia sytemu na innych, wolnych od błędów węzłach wchodzących w skład całego środowiska. Nad bezpieczeństwem danych miał czuwać system replikacji macierzy oraz nowy system backupowy oparty o Data Domain. Poprzedni system kopii bezpieczeństwa nie mógł być zastosowany, ponieważ oparty był o napęd taśmowy, umieszczony w serwerze i obsługiwany przez oprogramowanie dostarczane wraz z systemem OS400. Naturalna stała się wiec potrzeba zaprojektowania nowego środowiska, uwzględniającego mechanizmy integracji z poszczególnymi rozwiązaniami wspierającymi system SAP. Wybór padł na rozwiązania dostarczane przez EMC, zapewniające skuteczne i szybkie metody przechowywania chronionych danych. Do przechowywania zabezpieczanych danych wybrano urządzenie EMC DataDomain, zarządzanie i wykonywanie strategii kopii bezpieczeństwa powierzono oprogramowaniu EMC NetWorker. Dzięki mechanizmom deduplikacji wykorzystywanej przez Data Domain, planowano osiągnąć niski koszt składowania.
W kwietniu 2012 przystąpiono do wykonania przygotowanego projektu. Wykonano wirtualizację oraz migrację systemów SAP. Uzyskano znaczną poprawę szybkości działania systemu; tą statystyczną, jak i tą znacznie ważniejszą – raportowaną przez użytkowników końcowych. Statystyka wykazała, że uzyskano kilkukrotne zmniejszenie średniego czasu czasu dialogowego SAP. Dla użytkowników końcowych było to znaczące polepszenie komfortu pracy w systemie SAP.
W trakcje projektu uruchomiono opisany powyżej system wykonywania kopii bezpieczeństwa. Wykorzystano metody integracji ze środowiskiem VMWare, DB2 oraz backup plikowy systemów Linux. Kalendarze backupów ustawiono w taki sposób, aby backup online bazy danych wykonywał się codziennie i był przechowywany przez wymagany okres czasu. Dodatkowo wykorzystano mechanizm udostępniany przez bazę danych DB2 pozwalający zapisywać kopię logu transakcyjnego bezpośrednio na urządzenie backupowe. Osiągnięto bardzo dobre współczynniki deduplikacji, a tym samy kompresji danych. W krótkim okresie po uruchomieniu system wskazywał wykonanie backupu kilkunastu terabajtów danych, jednocześnie wykorzystując około tylko kilkaset gigabajtów fizycznej przestrzeni udostępnianej przez Data Domain. Czas wykonywania backupu online-owego produkcyjnej bazy danych skrócił się do kilkunastu minut!. Wdrożony system kopii bezpieczeństwa potwierdził swoje możliwości i spełnił wymagania jakie przed nim stawiano.
Artur Pająk, Starszy Konsultant IT/BASIS, All for One Poland