W lawinie informacji

Megabajty danych w systemie SAP rozrastają się do gigabajtów, a te do terabajtów. Liczba dokumentów, podawana początkowo w tysiącach, zamienia się miliony i dziesiątki milionów. Implementacje nowych funkcji systILemu powodują coraz szybszy przyrost liczby danych. Dodajemy dyski, zmieniamy napędy taśmowe na coraz bardziej pojemne. Przybywa półek w macierzach dyskowych, rosną koszty sprzętu i nakłady pracy administratorów. Codzienne backupy przestają mieścić się w wyznaczonych nocnych oknach czasowych, zastępujemy je więc cotygodniowymi.

Lekarstwem na coraz dłuższe czasy odpowiedzi systemu stają się dodatkowe indeksy w bazie danych, dodatkowe procesory, kolejne kości pamięci do serwerów. Zdarza się nawet, że nie mając innego wyjścia, menedżerowie IT decydują się na wyłączenie archiwizacji logów bazy.

Mimo sporego wysiłku nie uda się w ten sposób spowolnić przyrostu bazy danych. Każde takie posunięcie jedynie odsuwa w czasie moment, w którym konieczne będzie dodanie kolejnego zasobu, wymiana istniejącego na większy, szybszy.

I tak, prędzej czy później, staniemy w obliczu konieczności implementacji procesów archiwizacji danych historycznych. Im szybciej się na to zdecydujemy, tym więcej czasu będziemy mieli na jej właściwe przygotowanie i realizację, zanim nasz system przestanie sobie radzić z ogromną ilością danych.

Zarządzanie danymi

Odchudzając bazę za pomocą właściwie wdrożonej strategii archiwizacji danych, jednocześnie można osiągnąć kilka celów:

  • obniżenie kosztu infrastruktury IT: unikniemy kosztów zakupu dodatkowych zasobów, sprawimy, że te obecnie używane wystarczą na dłużej,
  • zwiększenie wydajności bazy – mniejsza liczba rekordów w tablicach wpłynie na zmniejszenie czasu dostępu aplikacji do potrzebnych danych,
  • zwiększenie bezpieczeństwa systemu – łatwiej wykonać kopię bezpieczeństwa mniejszej bazy.

Dysponując przygotowywanymi codziennie pełnymi kopiami zapasowymi oraz wykonywanymi w sposób ciągły logami zmian, stosunkowo łatwo i szybko można odtworzyć bazę do momentu, w którym wystąpiła awaria. Często nadmiernie rozrośnięte bazy danych zabezpiecza się kopiami częściowymi lub przyrostowymi, obejmującymi pełną kopię bazy wykonywaną z mniejszą częstotliwością (np. raz w tygodniu) i kopie zmienionych danych wykonywane codziennie. Odtwarzanie utraconej lub uszkodzonej bazy z tak przygotowanych kopii jest trudniejsze i trwa dłużej.

Już we czesnych wersjach systemu SAP istniała możliwość archiwizacji danych. Koncepcja obiektów archiwizacji, programów zapisujących archiwa i kasujących dane po zweryfikowaniu archiwów zostały zaimplementowane już dawno i w swej istocie niewiele zmieniły się do dzisiaj.

Archiwizacja stanowi też kluczowy element najnowszej koncepcji – zarządzania cyklem życia informacji (Information Lifecycle Management).

Archiwizacja staje się niewydajna

Doświadczenia ostatnich lat ujawniły, że czysto techniczne podejście do archiwizacji danych historycznych napotyka na istotne ograniczenia. Liczba uregulowań prawnych określających sposób postępowania z informacjami przechowywanymi w systemach IT gwałtownie wzrosła. Przyczynił się do tego kierunek zmian zachodzących w światowej gospodarce.

Korporacje, których niemal cały majątek to zapisane w pamięci komputerów dane, łatwo unicestwić, można je też łatwo zmanipulować. Atak terrorystyczny na WTC 11 września 2001 r. czy skandal finansowy w korporacji Enron to wydarzenia, które w mediach odbiły się najszerszym echem, a przełom XX i XXI wieku pełen jest przykładów nadużyć, kreatywnej księgowości i innych przestępstw popełnianych przy wykorzystaniu narzędzi IT. Reakcją władz mającą na celu ukrócenie przestępstw informatycznych stały się bardziej restrykcyjne przepisy prawa narzucające na korporacje wymóg przejrzystego działania.

Nowe regulacje nakazują spełnienie wielu wymogów dotyczących czasu przechowywania informacji i dostępu do nich organów kontrolnych. Dodatkowym czynnikiem komplikującym procesy archiwizacji jest globalizacja i narastająca dynamizacja procesów gospodarczych. Ponadnarodowe koncerny muszą się stosować do zróżnicowanych, lokalnych standardów postępowania z informacjami. Często wiele rozlokowanych w różnych krajach oddziałów posługuje się wspólnym systemem IT.

Archiwizując dane, trzeba uwzględnić lokalne uregulowania określające np. różne okresy przechowywania danych w sposób umożliwiających ich bezpośredni i natychmiastowy dostęp (residence time), czas przechowywania danych w archiwach (retension period) czy miejsce fizycznego składowania nośników danych. Do lokalnych wymogów trzeba także dostosować techniki prezentacji danych podczas audytów.

Wszystkie te zmiany powodują, że dotychczasowa koncepcja archiwizacji danych staje się niewystarczająca. Ogromna liczba danych, nad którymi trzeba zapanować, ich wzajemne relacje i odmienny sposób postępowania wymusiły potrzebę opracowania nowych technik, pozwalających m.in. na kategoryzowanie danych, tworzenie rozbudowanych reguł sterujących procesami archiwizacji czy umożliwiających przygotowywanie raportów na potrzeby audytów.

Automatyzacja i kompletność

Każda informacja ma swój cykl życia. Jest tworzona, przez jakiś czas żyje wewnątrz bazy danych, podlega tam różnego rodzaju modyfikacjom, aż w końcu następuje jej archiwizacja i wreszcie usunięcie. Cały ten proces nazywamy cyklem życiainformacji (Information Lifecycle Management – ILM).

Firma SAP AG definiuje ILM jako kombinację procesów i technologii, które mają zapewnić dostęp do właściwych informacji, we właściwym czasie i miejscu, po najniższym możliwym koszcie i utrzymanie ich w wymaganym okresie.

ILM pociąga za sobą konieczność dokładnego poznania i skategoryzowania danych, zdefiniowania reguł rządzących informacjami, nałożenia tych reguł na dane poprzez właściwą konfigurację systemu, a następnie implementację reguł za pomocą technologii. Modelowe wdrożenie strategii ILM zilustrowano na schemacie.

W skład ILM wchodzi wiele sprawdzonych już narzędzi, inne dodane zostały niedawno po to, aby zautomatyzować implementację procesów ILM i zapewnić ich kompletność. Właśnie automatyzacja i kompletność stanowią wartość dodaną ILM.

Trzy filary ILM

ILM w środowisku SAP opiera się na trzech filarach:

  • archiwizacji danych (Data Archiving)
  • zarządzaniu regułami przechowywania (Retention Management)
  • magazynie danych (Retention Warehouse).

Większość dużych organizacji korzystających z systemów SAP stosuje archiwizację jako część strategii zarządzania danymi. Jeżeli system archiwizacji danych jest już zaimplementowany, to stanowi on doskonały punkt wyjścia do wdrożenia pełnego ILM, który umożliwia wykorzystanie plików archiwów powstałych nawet przed jego implementacją.

Pliki tego rodzaju można przekonwertować do środowiska ILM, w wyniku czego powstają nowe pliki, zawierające te same dane, lecz podlegające już nowym, zdefiniowanym w ILM regułom.

Drugim filarem ILM jest Retention Management. Centralną funkcję pełni w nim narzędzie definiowania reguł i polityk: Information Retention Manager, pozwalające w elastyczny sposób zdefiniować, opierając się na wielu kryteriach, reguły określające czas przechowywania danych, moment ich usunięcia oraz miejsce przechowywania.

Trzeci filar, Retention Warehause, to zestaw narzędzi umożliwiających dostęp do danych pochodzących z systemu SAP nawet wtedy, gdy system źródłowy nie jest już dostępny.

W dzisiejszych czasach często dochodzi do łączenia przedsiębiorstw i ich przejęć. Gdy do tego dojdzie, nierzadko pojawia się potrzeba zmiany systemu IT.

W takich wypadkach pozostaje konieczność utrzymywania „starych” systemów tylko po to, aby zapewnić sporadyczny dostęp do danych historycznych lub możliwość przeprowadzenia audytu przez organy kontroli skarbowej.

Retention Warehause umożliwia wykorzystanie zarchiwizowanych danych poza systemem źródłowym. Proces przygotowania danych obejmuje archiwizację wszystkich danych należących do zakończonych procesów biznesowych, uzupełnionych o dane kontekstowe – np. konfigurację, a następnie wykonanie migawki (snapshot) danych należących do otwartych procesów biznesowych.

Tak przygotowane dane można załadować do hurtowni danych SAP BW w celach raportowania lub na potrzeby audytu. Dane przygotowane w ramach Retention Warehause podlegają wszystkim regułom zdefiniowanym w Information Retention Manager.

Strategia przyszłości

ILM stanowi nie tylko rozbudowany zestaw narzędzi służących do archiwizacji danych. To także strategia, filozofia, powtarzający się proces analizy, konfiguracji i realizacji zdefiniowanych polityk. Jego celem jest osiągnięcie równowagi pomiędzy zgodnością z prawem, kosztem (Total Cost of Ownership – TCO, całkowity koszt posiadania) i ryzykiem.

Proces obniżania kosztu utrzymania systemów IT poprzez redukcję liczby danych musi podlegać regułom prawnym określającym czas, sposób i miejsce przechowywania danych. Do tej pory użytkownicy musieli w dużej mierze radzić sobie sami. Reguły przechowywania danych, spisane poza systemem, musiały być ręcznie konfigurowane i implementowane, oddzielnie dla poszczególnych typów danych.

ILM wspomaga nas w całym tym procesie. Dzięki niemu system kontroluje całe życie informacji, wie, gdzie przechowywane są dane, zna ich priorytet, wie, kiedy je zarchiwizować i usunąć.