Jak przechowalnie danych są przyszłością hurtowni danych[+5 Learning Resources]

Ponieważ firmy generują coraz więcej danych, tradycyjne podejście do hurtowni danych staje się coraz trudniejsze i bardziej kosztowne w utrzymaniu. Data Vault, stosunkowo nowe podejście do hurtowni danych, oferuje rozwiązanie tego problemu, zapewniając skalowalny, zwinny i ekonomiczny sposób zarządzania dużymi ilościami danych.

W tym poście zbadamy, w jaki sposób magazyny danych są przyszłością hurtowni danych i dlaczego coraz więcej firm przyjmuje to podejście. Udostępnimy również zasoby edukacyjne dla tych, którzy chcą zgłębić ten temat!

Co to jest przechowalnia danych?

Data Vault to technika modelowania hurtowni danych, szczególnie odpowiednia dla elastycznych hurtowni danych. Oferuje wysoki stopień elastyczności w zakresie rozszerzeń, kompletną historyzację danych w jednostkach czasowych i umożliwia silną równoległość procesów ładowania danych. Dan Linstedt opracował modelowanie Data Vault w latach 90.

Po pierwszej publikacji w 2000 roku zyskała większą uwagę w 2002 roku dzięki serii artykułów. W 2007 roku Linstedt zdobył poparcie Billa Inmona, który opisał to rozwiązanie jako „optymalny wybór” dla jego architektury Data Vault 2.0.

Każdy, kto ma do czynienia z terminem zwinna hurtownia danych, szybko skończy z Data Vault. Cechą charakterystyczną tej technologii jest to, że jest ona ukierunkowana na potrzeby firm, ponieważ umożliwia elastyczne i niewymagające dużego nakładu pracy dostosowanie hurtowni danych.

Data Vault 2.0 uwzględnia cały proces programowania i architekturę i składa się z metody komponentów (implementacji), architektury i modelu. Zaletą tego podejścia jest uwzględnienie wszystkich aspektów analizy biznesowej wraz z podstawową hurtownią danych podczas opracowywania.

Model Data Vault oferuje nowoczesne rozwiązanie umożliwiające przezwyciężenie ograniczeń tradycyjnego podejścia do modelowania danych. Dzięki swojej skalowalności, elastyczności i zwinności stanowi solidną podstawę do zbudowania platformy danych, która może pomieścić złożoność i różnorodność nowoczesnych środowisk danych.

Architektura typu „hub-and-spoke” Data Vault oraz separacja jednostek i atrybutów umożliwiają integrację i harmonizację danych w wielu systemach i domenach, ułatwiając stopniowy i zwinny rozwój.

Kluczową rolą Data Vault w budowaniu platformy danych jest ustanowienie jednego źródła prawdy dla wszystkich danych. Ujednolicony widok danych oraz wsparcie dla przechwytywania i śledzenia zmian danych historycznych za pomocą tabel satelitarnych umożliwia zgodność, audyt, wymagania prawne oraz kompleksową analizę i raportowanie.

Możliwości integracji danych Data Vault w czasie zbliżonym do rzeczywistego poprzez ładowanie delta ułatwiają obsługę dużych ilości danych w szybko zmieniających się środowiskach, takich jak Big Data i aplikacje IoT.

Magazyn danych a tradycyjne modele hurtowni danych

Third-Normal-Form (3NF) to jeden z najbardziej znanych tradycyjnych modeli hurtowni danych, często preferowany w wielu dużych wdrożeniach. Nawiasem mówiąc, odpowiada to pomysłom Billa Inmona, jednego z „ojców” koncepcji hurtowni danych.

Architektura Inmon opiera się na modelu relacyjnej bazy danych i eliminuje redundancję danych, dzieląc źródła danych na mniejsze tabele, które są przechowywane w hurtowniach danych i są ze sobą połączone przy użyciu kluczy podstawowych i obcych. Zapewnia spójność i dokładność danych poprzez egzekwowanie zasad integralności referencyjnej.

Celem normalnej formy było zbudowanie kompleksowego, obejmującego całą firmę modelu danych dla podstawowej hurtowni danych; ma jednak problemy ze skalowalnością i elastycznością ze względu na silnie powiązane hurtownie danych, trudności z ładowaniem w trybie zbliżonym do czasu rzeczywistego, pracochłonne żądania oraz odgórne projektowanie i wdrażanie.

Model Kimbal, używany w OLAP (przetwarzanie analityczne online) i hurtowniach danych, to kolejny znany model hurtowni danych, w którym tabele faktów zawierają zagregowane dane, a tabele wymiarów opisują przechowywane dane w schemacie gwiaździstym lub schemacie płatka śniegu. W tej architekturze dane są zorganizowane w tabele faktów i wymiarów, które są zdenormalizowane w celu uproszczenia zapytań i analiz.

Kimbal opiera się na modelu wymiarowym, który jest zoptymalizowany pod kątem zapytań i raportowania, dzięki czemu idealnie nadaje się do zastosowań Business Intelligence. Miał jednak problemy z izolacją informacji zorientowanych tematycznie, redundancją danych, niekompatybilnymi strukturami zapytań, trudnościami ze skalowalnością, niespójną szczegółowością tabel faktów, problemami z synchronizacją oraz potrzebą projektowania odgórnego z implementacją oddolną.

W przeciwieństwie do tego architektura magazynu danych jest podejściem hybrydowym, które łączy w sobie aspekty architektur 3NF i Kimball. Jest to model oparty na zasadach relacyjnych, normalizacji danych i matematyce redundancji, który inaczej przedstawia relacje między jednostkami i inaczej konstruuje pola tabeli i znaczniki czasu.

W tej architekturze wszystkie dane są przechowywane w surowym magazynie danych lub jeziorze danych, podczas gdy powszechnie używane dane są przechowywane w znormalizowanym formacie w magazynie biznesowym, który zawiera dane historyczne i kontekstowe, które można wykorzystać do raportowania.

Data Vault rozwiązuje problemy występujące w tradycyjnych modelach, będąc bardziej wydajnym, skalowalnym i elastycznym. Pozwala na ładowanie w czasie zbliżonym do rzeczywistego, lepszą integralność danych i łatwą rozbudowę bez wpływu na istniejące struktury. Model można również rozbudować bez migracji istniejących tabel.

Podejście do modelowaniaStruktura danychPodejście projektoweModelowanie 3NFTables in 3NFBottom-upKimbal ModelingStar Schema or Snowflake SchemaTop-downData VaultHub-and-SpokeBottom-up

Architektura magazynu danych

Data Vault ma architekturę typu hub-and-spoke i zasadniczo składa się z trzech warstw:

Warstwa pomostowa: zbiera surowe dane z systemów źródłowych, takich jak CRM lub ERP

Warstwa hurtowni danych: W przypadku modelowania jako model Data Vault ta warstwa obejmuje:

  • Raw Data Vault: przechowuje surowe dane.
  • Business Data Vault: zawiera zharmonizowane i przekształcone dane oparte na regułach biznesowych (opcjonalnie).
  • Metrics Vault: przechowuje informacje o czasie wykonywania (opcjonalnie).
  • Magazyn operacyjny: przechowuje dane, które przepływają bezpośrednio z systemów operacyjnych do hurtowni danych (opcjonalnie).

Warstwa Data Mart: Ta warstwa modeluje dane jako schemat gwiazdy i/lub inne techniki modelowania. Dostarcza informacji do analizy i raportowania.

Źródło obrazu: Lamia Yessad

Data Vault nie wymaga zmiany architektury. Nowe funkcje mogą być budowane równolegle bezpośrednio przy użyciu koncepcji i metod Data Vault, a istniejące komponenty nie zostaną utracone. Frameworki mogą znacznie ułatwić pracę: tworzą warstwę pomiędzy hurtownią danych a deweloperem i tym samym zmniejszają złożoność wdrożenia.

Komponenty magazynu danych

Podczas modelowania Data Vault dzieli wszystkie informacje należące do obiektu na trzy kategorie – w przeciwieństwie do klasycznego modelowania trzeciej postaci normalnej. Informacje te są następnie przechowywane ściśle oddzielone od siebie. Obszary funkcjonalne można mapować w Data Vault w tzw. hubach, linkach i satelitach:

# 1. Piasty

Huby są sercem podstawowej koncepcji biznesowej, takiej jak klient, sprzedawca, sprzedaż lub produkt. Tabela centralna jest tworzona wokół klucza biznesowego (nazwa magazynu lub lokalizacja), gdy nowe wystąpienie tego klucza biznesowego jest wprowadzane po raz pierwszy do hurtowni danych.

Piasta nie zawiera informacji opisowych ani FK. Składa się tylko z klucza biznesowego z wygenerowaną przez hurtownię sekwencją identyfikatorów lub kluczy mieszających, znacznikiem daty/czasu ładowania i źródłem rekordów.

#2. Spinki do mankietów

Powiązania ustanawiają relacje między kluczami biznesowymi. Każdy wpis w łączu modeluje nm relacji dowolnej liczby koncentratorów. Pozwala to magazynowi danych elastycznie reagować na zmiany w logice biznesowej systemów źródłowych, takie jak zmiany serdeczności relacji. Podobnie jak hub, link nie zawiera żadnych informacji opisowych. Składa się z identyfikatorów sekwencji koncentratorów, do których się odwołuje, identyfikatora sekwencji wygenerowanego przez magazyn, znacznika daty/godziny ładowania i źródła rekordów.

#3. Satelity

Satelity zawierają informacje opisowe (kontekst) dla klucza biznesowego przechowywanego w hubie lub relacji przechowywanej w łączu. Satelity działają „tylko do wkładania”, co oznacza, że ​​cała historia danych jest przechowywana w satelicie. Wiele satelitów może opisywać pojedynczy klucz biznesowy (lub relację). Jednak satelita może opisywać tylko jeden klucz (koncentrator lub łącze).

Źródło obrazu: Carbidfischer

Jak zbudować model magazynu danych

Budowanie modelu Data Vault obejmuje kilka kroków, z których każdy ma kluczowe znaczenie dla zapewnienia skalowalności, elastyczności i możliwości zaspokojenia potrzeb biznesowych modelu:

# 1. Zidentyfikuj jednostki i atrybuty

Zidentyfikuj jednostki biznesowe i odpowiadające im atrybuty. Obejmuje ścisłą współpracę z interesariuszami biznesowymi, aby zrozumieć ich wymagania i dane, które muszą przechwycić. Po zidentyfikowaniu tych jednostek i atrybutów podziel je na koncentratory, łącza i satelity.

#2. Zdefiniuj relacje encji i utwórz łącza

Po zidentyfikowaniu jednostek i atrybutów definiowane są relacje między jednostkami i tworzone są powiązania reprezentujące te relacje. Do każdego łącza przypisany jest klucz biznesowy, który identyfikuje relację między podmiotami. Satelity są następnie dodawane w celu uchwycenia atrybutów i relacji jednostek.

#3. Ustal zasady i standardy

Po utworzeniu łączy należy ustanowić zestaw reguł i standardów modelowania przechowalni danych, aby zapewnić elastyczność modelu i możliwość obsługi zmian w czasie. Te zasady i standardy powinny być regularnie przeglądane i aktualizowane, aby zapewnić, że pozostają aktualne i dostosowane do potrzeb biznesowych.

#4. Wypełnij model

Po utworzeniu modelu należy go wypełnić danymi przy użyciu metody ładowania przyrostowego. Polega na ładowaniu danych do koncentratorów, łączy i satelitów przy użyciu obciążeń delta. Ładowanie różnicowe zapewnia, że ​​ładowane są tylko zmiany wprowadzone w danych, co zmniejsza czas i zasoby wymagane do integracji danych.

#5. Przetestuj i zweryfikuj model

Na koniec model powinien zostać przetestowany i zweryfikowany, aby upewnić się, że spełnia wymagania biznesowe oraz jest wystarczająco skalowalny i elastyczny, aby obsłużyć przyszłe zmiany. Należy przeprowadzać regularne konserwacje i aktualizacje, aby upewnić się, że model pozostaje zgodny z potrzebami biznesowymi i nadal zapewnia ujednolicony widok danych.

Zasoby szkoleniowe magazynu danych

Mastering Data Vault może zapewnić cenne umiejętności i wiedzę, które są bardzo poszukiwane w dzisiejszych branżach opartych na danych. Oto pełna lista zasobów, w tym kursów i książek, które mogą pomóc w poznaniu zawiłości Data Vault:

# 1. Modelowanie hurtowni danych za pomocą Data Vault 2.0

Ten kurs Udemy to kompleksowe wprowadzenie do podejścia do modelowania Data Vault 2.0, zwinnego zarządzania projektami i integracji Big Data. Kurs obejmuje podstawy i podstawy Data Vault 2.0, w tym jego architekturę i warstwy, skarbce biznesowe i informacyjne oraz zaawansowane techniki modelowania.

Uczy, jak zaprojektować model Data Vault od podstaw, konwertować tradycyjne modele, takie jak 3NF i modele wymiarowe, do Data Vault oraz zrozumieć zasady modelowania wymiarowego w Data Vault. Kurs wymaga podstawowej znajomości baz danych i podstaw języka SQL.

Z wysoką oceną 4,4 na 5 i ponad 1700 recenzjami, ten najlepiej sprzedający się kurs jest odpowiedni dla każdego, kto chce zbudować solidne podstawy w zakresie Data Vault 2.0 i integracji Big Data.

#2. Modelowanie przechowalni danych wyjaśnione za pomocą przypadków użycia

Ten kurs Udemy ma na celu pomóc Ci w budowaniu modelu przechowalni danych na podstawie praktycznego przykładu biznesowego. Służy jako przewodnik dla początkujących po modelowaniu magazynu danych, obejmujący kluczowe pojęcia, takie jak odpowiednie scenariusze korzystania z modeli magazynu danych, ograniczenia konwencjonalnego modelowania OLAP oraz systematyczne podejście do konstruowania modelu magazynu danych. Kurs jest dostępny dla osób z minimalną znajomością baz danych.

#3. Data Vault Guru: pragmatyczny przewodnik

The Data Vault Guru autorstwa Patricka Kuby to kompleksowy przewodnik po metodologii przechowywania danych, który oferuje wyjątkową możliwość modelowania hurtowni danych przedsiębiorstwa przy użyciu zasad automatyzacji podobnych do tych, które są stosowane przy dostarczaniu oprogramowania.

Książka zawiera przegląd nowoczesnej architektury, a następnie oferuje dokładny przewodnik, w jaki sposób dostarczyć elastyczny model danych, który dostosowuje się do zmian w przedsiębiorstwie, przechowalnię danych.

Ponadto książka rozszerza metodologię przechowywania danych, zapewniając automatyczną korektę osi czasu, ścieżki audytu, kontrolę metadanych i integrację ze zwinnymi narzędziami dostarczania.

#4. Budowanie skalowalnej hurtowni danych z Data Vault 2.0

Ta książka zawiera wyczerpujący przewodnik tworzenia skalowalnej hurtowni danych od początku do końca przy użyciu metodologii Data Vault 2.0.

Ta książka omawia wszystkie istotne aspekty budowania skalowalnej hurtowni danych, w tym technikę modelowania Data Vault, która ma na celu zapobieganie typowym awariom hurtowni danych.

Książka zawiera liczne przykłady, które pomagają czytelnikom w jasnym zrozumieniu pojęć. Dzięki praktycznym spostrzeżeniom i przykładom z rzeczywistego świata ta książka jest niezbędnym źródłem informacji dla każdego, kto interesuje się hurtowniami danych.

#5. Słoń w lodówce: przewodnik po krokach prowadzących do sukcesu magazynu danych

The Elephant in the Fridge autorstwa Johna Gilesa to praktyczny przewodnik, którego celem jest pomoc czytelnikom w osiągnięciu sukcesu w Data Vault, zaczynając od biznesu i kończąc na biznesie.

Książka koncentruje się na znaczeniu ontologii przedsiębiorstwa i modelowania koncepcji biznesowych oraz zawiera wskazówki krok po kroku, jak zastosować te koncepcje w celu stworzenia solidnego modelu danych.

Dzięki praktycznym poradom i przykładowym wzorcom autor oferuje jasne i nieskomplikowane wyjaśnienie skomplikowanych tematów, dzięki czemu książka jest doskonałym przewodnikiem dla tych, którzy są nowicjuszami w Data Vault.

Ostatnie słowa

Data Vault reprezentuje przyszłość hurtowni danych, oferując firmom znaczące korzyści w zakresie elastyczności, skalowalności i wydajności. Jest szczególnie odpowiedni dla firm, które muszą szybko ładować duże ilości danych, oraz tych, które chcą zwinnie rozwijać swoje aplikacje Business Intelligence.

Ponadto firmy, które mają istniejącą architekturę silosową, mogą odnieść znaczne korzyści z wdrożenia nadrzędnej hurtowni danych przy użyciu Data Vault.

Możesz być również zainteresowany poznaniem rodowodu danych.