Wszystko, co musisz wiedzieć o Data Mesh

Data Mesh to architektura danych, której celem jest stworzenie wspólnego, centralnego organu dla danych w całej organizacji.

Ma na celu stworzenie kultury i zarządzania wokół danych, które umożliwią samoobsługowe, autonomiczne zespoły i umożliwią im współpracę i wprowadzanie innowacji przy użyciu danych. Rozumiemy, o co chodzi w Data Mesh.

Co to jest siatka danych?

Mówiąc prościej, Data Mesh to zdecentralizowana architektura do zarządzania danymi w organizacji, co oznacza, że ​​została zaprojektowana w celu zapewnienia kontroli i własności danych zespołom, które ich używają, zamiast centralizacji ich w jednej grupie lub dziale.

Podkreśla znaczenie danych jako kluczowego zasobu. Został zaprojektowany, aby pomóc organizacjom w osiągnięciu lepszego zarządzania danymi, jakości danych i integracji danych, jednocześnie wspierając kulturę podejmowania decyzji w oparciu o dane.

Architektura siatki danych

Architektura Data Mesh zazwyczaj obejmuje trzy główne komponenty: źródła danych, infrastrukturę i potoki danych zorientowane na domenę zarządzane przez właścicieli funkcjonalnych.

Źródło obrazu: Microsoft

  • Źródła danych: Są to różne źródła danych używane w organizacji, takie jak bazy danych, interfejsy API i czujniki.
  • Infrastruktura danych: Jest to podstawowa infrastruktura używana do przechowywania, przetwarzania i zarządzania danymi w organizacji. Może obejmować jeziora danych, hurtownie danych oraz inne systemy przechowywania i przetwarzania danych.
  • Potoki danych zorientowane na domenę: Są to potoki używane do przenoszenia danych ze źródeł danych do infrastruktury danych i udostępniania ich do użytku przez zespoły funkcjonalne, które ich potrzebują. Te potoki są zarządzane przez właścicieli funkcjonalnych, którzy są odpowiedzialni za zapewnienie wysokiej jakości danych i spełnianie potrzeb biznesowych.
  • Te trzy komponenty są ze sobą połączone i zintegrowane, a nie izolowane silosy danych. W architekturze Data Mesh zespoły są odpowiedzialne za dane, których używają, w tym za ich jakość, dostęp i bezpieczeństwo.

    To zdecentralizowane podejście pomaga zapewnić efektywne wykorzystanie danych i zapewnienie zespołom informacji niezbędnych do podejmowania świadomych decyzji. Promuje również kulturę podejmowania decyzji w oparciu o dane, czyniąc dane bardziej dostępnymi, przejrzystymi i godnymi zaufania.

    Kroki potrzebne do zaprojektowania architektury siatki danych

    Aby wdrożyć siatkę danych w organizacji, można wykonać następujące kroki:

    # 1. Zidentyfikuj domeny biznesowe

    Pierwszym krokiem we wdrażaniu siatki danych jest identyfikacja domen biznesowych w organizacji. Są to obszary działalności, które odpowiadają za dostarczanie wartości klientom. Każda domena biznesowa powinna mieć wyraźnego właściciela, który jest odpowiedzialny za dane używane w tej domenie.

    #2. Ustanowienie zarządzania danymi

    Należy ustanowić jasne ramy zarządzania danymi, aby zapewnić odpowiedzialne i etyczne wykorzystywanie danych. Obejmuje to ustanowienie ról i odpowiedzialności za zarządzanie danymi, ustanowienie standardów jakości i dokładności danych oraz zdefiniowanie procesów dostępu do danych i ich wykorzystania.

    #3. Zdefiniuj własność danych

    Każda domena biznesowa powinna być odpowiedzialna za dane, których używa, w tym za ich jakość i dokładność. Oznacza to, że domena biznesowa powinna być zaangażowana w tworzenie i utrzymywanie danych, a także ich wykorzystywanie i rozpowszechnianie.

    #4. Promuj umiejętność korzystania z danych

    Aby umożliwić pracownikom podejmowanie świadomych decyzji na podstawie danych, ważne jest promowanie umiejętności korzystania z danych w organizacji. Można tego dokonać poprzez programy szkoleniowe i edukacyjne, a także poprzez zapewnienie dostępu do narzędzi i zasobów, które umożliwiają pracownikom pracę z danymi.

    #5. Demokratyzacja dostępu do danych

    Data mesh promuje demokratyzację danych, co oznacza, że ​​dane powinny być dostępne dla wszystkich pracowników. Można tego dokonać, udostępniając narzędzia i zasoby, które umożliwiają pracownikom dostęp do danych i korzystanie z nich w całej organizacji.

    #6. Implementuj operacje na danych

    Aby zapewnić, że dane są właściwie zarządzane i utrzymywane, ważne jest wdrożenie procesów i praktyk dotyczących operacji na danych. Obejmuje to takie zadania, jak pozyskiwanie danych, transformacja danych oraz przechowywanie i pobieranie danych.

    Zasady siatki danych

    Siatka danych jest wdrażana za pomocą zestawu zasad i praktyk, które mają na celu stworzenie kultury podejmowania decyzji w oparciu o dane i umożliwiają pracownikom łatwiejszy dostęp do danych i korzystanie z nich z całej organizacji.

    Te cztery zasady obejmują:

    Źródło obrazu: altexsoft

    # 1. Zorientowana na domenę zdecentralizowana własność i architektura danych

    Zasada ta podkreśla znaczenie organizacji danych wokół domen biznesowych, przy czym każda jednostka biznesowa jest odpowiedzialna za dane, z których korzysta, oraz za jakość tych danych. Pomaga to zapewnić zgodność danych z potrzebami firmy i jej klientów oraz umożliwia jednostkom biznesowym łatwiejszy dostęp do danych z innych części organizacji i korzystanie z nich.

    #2. Dane jako produkt

    Zasada ta traktuje dane jako cenny zasób, którym należy zarządzać i którym należy zarządzać jak produktem. Obejmuje to definiowanie produktów danych, tworzenie zespołów produktów danych i tworzenie planu działania produktów danych.

    #3. Samoobsługowa infrastruktura danych jako platforma

    Zachęca do stworzenia samoobsługowego modelu danych, w którym jednostki biznesowe mają większą kontrolę nad danymi, których używają i mogą łatwiej uzyskiwać dostęp do danych z innych części organizacji i z nich korzystać.

    #4. Federacyjne zarządzanie obliczeniowe

    Ta zasada ustanawia ramy zarządzania danymi, które uwzględniają potrzeby i cele wielu interesariuszy, w tym jednostek biznesowych, informatyków i analityków danych. Takie podejście pomaga zapewnić, że dane są wykorzystywane w sposób odpowiedzialny i etyczny oraz promuje umiejętność korzystania z danych i podejmowanie decyzji w oparciu o dane w organizacji.

    Znaczenie siatki danych

    Istnieje kilka powodów, dla których organizacja może rozważyć przyjęcie siatki danych:

    Poprawiona jakość i dokładność danych

    Organizując dane wokół domen biznesowych i ustanawiając przejrzystą własność i zarządzanie, siatka danych może pomóc poprawić jakość i dokładność danych w organizacji. Może to pomóc w zapewnieniu zgodności danych z potrzebami firmy i jej klientów oraz może wspierać bardziej świadome podejmowanie decyzji.

    Zwiększona dostępność i użyteczność danych

    Data mesh promuje demokratyzację danych, co oznacza, że ​​dane powinny być dostępne dla wszystkich pracowników. Można tego dokonać, udostępniając narzędzia i zasoby, które umożliwiają pracownikom dostęp do danych i korzystanie z nich w całej organizacji. Umożliwiając pracownikom łatwiejszy dostęp do danych i korzystanie z nich, siatka danych może pomóc w poprawie umiejętności korzystania z danych i podejmowania decyzji na podstawie danych w organizacji.

    Większa kontrola nad danymi

    Dzięki siatce danych jednostki biznesowe mają większą kontrolę nad używanymi danymi i jakością tych danych. Może to pomóc w zapewnieniu, że dane są dostosowane do potrzeb firmy i łatwiej dostępne dla osób, które ich potrzebują.

    Lepsze zarządzanie danymi

    Siatka danych promuje ustanowienie przejrzystych ram zarządzania danymi, które pomagają zapewnić, że dane są wykorzystywane w sposób odpowiedzialny i etyczny. Obejmuje to ustanowienie ról i odpowiedzialności za zarządzanie danymi, ustanowienie standardów jakości i dokładności danych oraz zdefiniowanie procesów dostępu do danych i ich wykorzystania.

    Ogólnie rzecz biorąc, przyjęcie siatki danych może pomóc organizacjom w większym wykorzystaniu ich zasobów danych i promowaniu kultury podejmowania decyzji w oparciu o dane.

    Data Mesh a Data Lake

    Siatka danych i jezioro danych mają kilka różnic pod względem ich ukierunkowania, organizacji danych, nacisku na zarządzanie danymi i umiejętności czytania i pisania oraz podejścia do dostępu do danych i korzystania z nich.

    Oto porównanie siatki danych i jeziora danych w formie tabelarycznej:

    Data MeshData Lake Koncentruje się na potrzebach firmy i jej klientów Koncentruje się na technicznych aspektach przechowywania i przetwarzania danych Organizuje dane wokół domen biznesowych Organizuje dane w hierarchicznej strukturze plików Dane są własnością jednostek biznesowych i są przez nie zarządzane Dostęp do danych może mieć wiele działów lub zespołów Kładzie nacisk na zarządzanie danymi i umiejętność korzystania z nich niekoniecznie koncentruje się na zarządzaniu danymi lub umiejętności korzystania z danych Umożliwia kulturę podejmowania decyzji w oparciu o dane Zapewnia scentralizowane repozytorium do przechowywania i przetwarzania danych Zachęca do samoobsługowego dostępu do danych Może wymagać interwencji IT w celu uzyskania dostępu do danych i korzystania z nich Promuje demokratyzację danych Może mieć ograniczony dostęp do danych ze względu na bezpieczeństwo lub obawy dotyczące prywatności Przestrzega zasad projektowania opartego na domenach Nie przestrzega określonych ram projektowych Obejmuje procesy i praktyki operacji na danych Może nie mieć określonych procesów dla operacji na danych Może wymagać wcześniejszego planowania i projektowania Może być bardziej elastyczny i umożliwiać przechowywanie danych ad-hoc wiek i przetwarzanie

    Jezioro danych to centralne repozytorium, które umożliwia przechowywanie wszystkich ustrukturyzowanych i nieustrukturyzowanych danych w dowolnej skali. Jest to miejsce do przechowywania danych w ich surowej i granularnej postaci przed jakimkolwiek przetwarzaniem lub transformacją. Dzięki temu organizacje mogą przechowywać i analizować dane w sposób bardziej elastyczny i ekonomiczny niż tradycyjne hurtownie danych.

    Natomiast siatka danych ma na celu umożliwienie zespołom posiadania własnych danych i zarządzania nimi zamiast polegania na scentralizowanej grupie do zarządzania danymi za nich.

    Zasoby szkoleniowe Data Mesh

    W Internecie dostępnych jest wiele zasobów do nauki o siatce danych, a próba znalezienia najbardziej pomocnych z nich może być przytłaczająca. Nauczenie się siatki danych we właściwy sposób jest ważne, aby upewnić się, że masz solidne zrozumienie koncepcji i możesz skutecznie zastosować je w swojej pracy.

    Zasoby te mogą stanowić podstawę do zrozumienia zasad i praktyk związanych z siatką danych oraz mogą pomóc w zdobyciu umiejętności potrzebnych do skutecznego zarządzania danymi i analizowania ich w środowisku siatek danych.

    # 1. Data Mesh — nowoczesna koncepcja zdecentralizowanego zarządzania danymi

    W tym kursie Udemy trener omawia podstawy architektury siatki danych w celu efektywnego zarządzania danymi. A także zawiera różne studia przypadków dotyczące implementacji siatki danych.

    Ukończenie tego kursu na Udemy jest możliwe w ciągu tygodnia, w zależności od harmonogramu i ilości czasu, jaki możesz poświęcić na kurs. Należy jednak pamiętać, że kurs ma na celu zapewnienie kompleksowego przeglądu siatki danych i jako taki może wymagać więcej czasu na pełne zrozumienie i przyswojenie materiału.

    #2. Data Mesh: kompletna klasa mistrzowska

    Dla osób, które chcą rozwijać swoje zawody, ten kurs siatki danych jest doskonały. Ten kurs obejmuje każdy temat związany z projektowaniem siatki danych i architektury produktu danych,

    Pod koniec tego kursu będziesz w stanie wdrożyć koncepcję siatki danych w rzeczywistych przedsiębiorstwach. Do rozpoczęcia tego kursu nie jest wymagana żadna wcześniejsza wiedza na temat siatki danych,

    #3. Siatka danych: dostarczanie wartości opartej na danych na dużą skalę

    Ta książka wprowadza koncepcję siatki danych i zawiera przejrzysty przegląd sposobu projektowania architektury siatki danych oraz przewodnik dotyczący strategii i realizacji siatki danych.

    Wielu recenzentów uznało tę książkę za pomocny i praktyczny przewodnik do zrozumienia zasad i wzorców siatki danych oraz do wdrożenia jej w organizacjach.

    Wniosek

    Siatka danych to wzorzec projektowy i ramy kulturowe do budowania organizacji opartej na danych. Opiera się na idei stworzenia „jednego źródła prawdy” dla danych w organizacji i promowaniu koncepcji danych jako produktu.

    Osiąga się to poprzez zastosowanie zdecentralizowanego zarządzania danymi, w którym zespoły wielofunkcyjne są odpowiedzialne za jakość, dostępność i utrzymanie danych w swojej domenie.

    Data mesh podkreśla również znaczenie ustanowienia jasnego zrozumienia kontraktów dotyczących danych między różnymi zespołami i zachęca do korzystania z narzędzi i platform do odkrywania danych w celu ułatwienia udostępniania danych w organizacji.

    Mam nadzieję, że ten artykuł okazał się pomocny w poznawaniu siatki danych i jej zasad. Być może zainteresuje Cię również wiedza o wirtualizacji danych.