Wiedz o głównym schemacie: gwiazda kontra płatek śniegu

Schemat wielowymiarowy przeznaczony jest do budowy modelu systemów hurtowni danych.

Głównym celem tych schematów jest zaspokojenie potrzeb większych baz danych zbudowanych do celów analitycznych (OLAP).

Ta metoda służy do uporządkowania danych w bazie danych z dobrym rozmieszczeniem zawartości w bazie danych. Schemat pozwala klientom zadawać pytania związane z trendami biznesowymi lub rynkowymi.

Ponadto schemat wielowymiarowy reprezentuje dane w postaci kostek danych, które umożliwiają przeglądanie i modelowanie danych z różnych perspektyw i wymiarów.

Są trzy rodzaje, ale wiele osób myli gwiazdę z płatkiem śniegu. W związku z tym wybór preferowanego modelu staje się dla nich trudny.

Jeśli jesteś jednym z nich, omówmy różnice między schematem gwiazdy i płatka śniegu, zaczynając od definicji i zrozumienia ich zalet, wyzwań, diagramu i cech.

Co to jest schemat wielowymiarowy?

Schemat odnosi się do logicznego opisu kompletnej bazy danych i data martów. Zawiera nazwy rekordów i ich opisy, w tym agregaty i powiązane elementy danych.

Baza danych zazwyczaj używa modelu relacyjnego do opisu, podczas gdy system hurtowni danych używa modelu Schema.

Wielowymiarowy schemat można zdefiniować za pomocą Data Mining Query Language (DMQL).

Aby zdefiniować hurtownie danych i hurtownie danych, używa dwóch prymitywów — definicji wymiaru i definicji kostki.

Schemat wielowymiarowy wykorzystuje różne typy modeli schematów. Oni są:

  • Schemat gwiazdy
  • Schemat płatka śniegu
  • Schemat galaktyki

Porozmawiajmy o schematach gwiazd i płatków śniegu.

Gwiazda kontra płatek śniegu: czym one są?

Co to jest schemat gwiazdy?

Schemat gwiaździsty to architektoniczny model hurtowni danych i analizy biznesowej, który wymaga pojedynczej tabeli faktów do przechowywania danych pomiarowych i transakcyjnych. Używa również różnych mniejszych tabel wymiarowych do przechowywania atrybutów dotyczących danych biznesowych.

Jest nazwany zgodnie z jego strukturą. Podobnie jak gwiazda, tablica faktów zajmuje miejsce w środku diagramu, a małe tablice wymiarowe przylegają jak gałęzie do stołu środkowego, tworząc strukturę podobną do gwiazdy.

Każdy schemat gwiaździsty składa się z jednej tabeli faktów, ale wielu małych tabel wymiarowych. Tabele faktów zawierają określone, mierzalne dane, które należy przeanalizować, takie jak zarejestrowane wyniki, dane finansowe lub rekordy sprzedaży. Może to być chwilowe ujęcie danych historycznych lub transakcyjne.

Co więcej, schemat Star jest najprostszym i najbardziej podstawowym spośród hurtowni danych i schematów data mart. Jest wydajny w obsłudze podstawowych zapytań. Schemat gwiaździsty ogólnie obsługuje analizę biznesową, zapytania ad hoc, aplikacje analityczne i moduły przetwarzania analitycznego online.

Schemat gwiazdy obsługuje również liczbę, średnią, sumę i inne agregacje wielu rekordów. Użytkownicy mogą łatwo filtrować i grupować agregacje według wymiarów. Na przykład użytkownicy generują zapytania typu „znajdź wszystkie rekordy sprzedaży w czerwcu” lub „przeanalizuj łączne przychody z biura XYZ w 2022 r.”.

Co to jest schemat płatka śniegu?

Schemat płatka śniegu to wielowymiarowy model danych, który może być również nazywany rozszerzeniem schematu gwiaździstego. Dzieje się tak, ponieważ tabele wymiarów w schemacie płatka śniegu dzielą się na podwymiary.

Schemat jest płatkiem śniegu, jeśli co najmniej jedna tabela wymiarów nie łączy się bezpośrednio z tabelą faktów, ale łączy się przez inne tabele wymiarów.

Płatek śniegu to zjawisko, które normalizuje tabele wymiarów w schemacie gwiaździstym. Po znormalizowaniu wszystkich tabel wymiarów wynikowa struktura przypomina płatek śniegu zawierający tabelę faktów w środku struktury.

Mówiąc prościej, schemat płatka śniegu składa się z jednej tabeli faktów w środku modelu, która jest połączona z tabelami wymiarów, które są ponownie połączone z innymi tabelami wymiarów. Ten schemat służy do zwiększenia wydajności zapytań.

Model został stworzony do szybkiego i elastycznego wykonywania zapytań w złożonych relacjach i wymiarach. Jest to pomocne w przypadku relacji jeden do wielu i wiele do wielu między różnymi poziomami wymiarów.

Dzięki ściślejszemu przestrzeganiu większej liczby norm normalizacyjnych uzyskasz większą wydajność przechowywania. Jednak nadmiarowość danych jest znikoma, a wydajność niska w porównaniu do zdenormalizowanych modeli danych, takich jak schemat gwiazdy.

Gwiazda kontra płatek śniegu: jak one działają?

Jak działa schemat gwiazdy?

Tabela faktów w środku modelu gwiaździstego przechowuje dwa typy informacji — wartości liczbowe i wartości atrybutów wymiaru. Zrozummy je na przykładzie bazy danych sprzedaży.

  • Wartości liczbowe są unikalne dla każdego wiersza i punktu danych. Nie jest to skorelowane ani powiązane z danymi przechowywanymi w innym wierszu. Są to fakty dotyczące danej transakcji, takie jak łączna kwota, ilość zamówienia, dokładny czas, zysk netto, identyfikator zamówienia itp.
  • Wartości atrybutów wymiarowych nie przechowują żadnych danych bezpośrednio, ale przechowują wartości kluczy obcych dla wiersza w tabeli wymiarowej. Różne wiersze w środkowej tabeli odwołują się do tych informacji, takich jak wartość danych, identyfikator pracownika sprzedaży, identyfikator oddziału, identyfikator produktu itp.

Tabele wymiarów zawsze przechowują informacje pomocnicze z tabeli faktów. Każda tabela wymiarowa odnosi się do kolumny tabeli faktów wraz z wartością wymiaru i przechowuje dodatkowe dane dotyczące tej wartości.

Przykład: tabela wymiarów pracownika używa identyfikatora pracownika jako wartości klucza, a także zawiera informacje, takie jak imię i nazwisko, płeć, adres i numer telefonu. Podobnie tabela wymiarów produktu przechowuje informacje, w tym nazwę produktu, kolor, pierwszą datę wprowadzenia na rynek, koszt produkcji itp.

Jak działa schemat płatka śniegu?

Pomyśl o projekcie płatka śniegu z centralnym pudełkiem i różnymi połączeniami przez to pudło z różnymi kropkami. Aby utrzymać hurtownie danych i hurtownie danych, pojawia się projekt schematu płatka śniegu.

Jest podobny do schematu gwiaździstego, ale z drobnymi zmianami. W przeciwieństwie do schematu gwiaździstego schemat płatka śniegu rozszerza tabele wymiarów podrzędnych, które są połączone z tabelami wymiarów.

Podstawowym celem tego modelu jest normalizacja zdenormalizowanych informacji modelu gwiazdy. W ten sposób może rozwiązać typowe problemy związane ze schematem gwiazdy.

W rdzeniu schematu znajduje się tabela faktów, która łączy się z informacjami zawartymi w tabelach wymiarów. Tabele te ponownie promieniują na zewnątrz do tabel podwymiarowych, które zawierają szczegółowe informacje opisujące informacje z tabeli wymiarów.

Przykład: Schemat płatka śniegu zawiera tabelę faktów sprzedaży oraz tabele lokalizacji sklepu, linii, rodziny, produktu i czasu. Wymiary rynkowe składają się z dwóch tabel wymiarów, przy czym sklep jest tabelą wymiarów podstawowych, a lokalizacja sklepu jest tabelą wymiarów podrzędnych. Wymiar produkt ma trzy tabele podwymiarów, które wymieniają tabelę podwymiarów produktu, linii i rodziny.

Gwiazda kontra płatek śniegu: charakterystyka

Charakterystyka schematu gwiazdy

  • Schemat gwiazdy może filtrować dane ze znormalizowanych danych, aby spełnić potrzeby hurtowni danych. Unikalny klucz jest generowany z powiązanych informacji dla każdej tabeli faktów, aby zidentyfikować każdy wiersz.
  • Zapewnia szybkie obliczenia i agregacje, takie jak przychód z uzyskanych dochodów i łączna liczba sprzedanych przedmiotów na koniec każdego miesiąca. Te szczegóły można filtrować zgodnie z potrzebami, obramowując odpowiednie zapytania.
  • Jest to pomiar zdarzeń, który zawiera skończone wartości liczbowe składające się z klucza obcego. Te klucze są powiązane z tabelami wymiarowymi. Istnieją różne typy tabel faktów, które są otoczone wartościami na poziomie atomowym.
  • Tabela faktów transakcji zawiera dane o określonych zdarzeniach, takich jak wyprzedaże i święta.
  • Rejestrowanie faktów obejmuje określone okresy, takie jak informacje o koncie na koniec roku lub co kwartał.
  • Tabela wymiarowa podaje szczegółowe dane dotyczące atrybutów lub rekordów znalezionych w tabeli środkowej.
  • Użytkownik ma możliwość samodzielnego zaprojektowania stołu według potrzeb.
  • Do gromadzenia tabel migawek można użyć schematu gwiaździstego.

Charakterystyka schematu płatka śniegu

  • Schemat płatka śniegu wymaga niewielkiej ilości miejsca na dysku.
  • Model ten jest łatwy do wdrożenia dzięki oddzielnym i głównym tabelom wymiarów.
  • Tabele wymiarów zawierają co najmniej dwa atrybuty do definiowania informacji w wielu ziarnach.
  • Ze względu na wiele tabel wydajność jest niska w porównaniu ze schematem gwiaździstym.
  • Schemat płatka śniegu ma najwyższy poziom integralności danych i niską nadmiarowość ze względu na normalizację.

Gwiazda kontra płatek śniegu: zalety

Zalety schematu gwiazdy

  • Schemat gwiaździsty to najprostszy sposób wśród schematów data mart.
  • Ma prostą logikę raportowania. Ta logika jest implikowana dynamicznie.
  • Został zaprojektowany przy użyciu kostek zasilających stosowanych w procesie transakcji online, aby kostki działały wydajnie i efektywnie.
  • Schemat gwiaździsty składa się z prostej logiki i zapytań, które można łatwo wyodrębnić z procesu transakcyjnego.
  • Oferuje zwiększoną wydajność aplikacji do raportowania.
  • Jest wdrożony, aby kontrolować szybkie odzyskiwanie danych.
  • Przefiltrowane i wybrane informacje można łatwo zastosować w różnych przypadkach.

Zalety schematu płatka śniegu

  • Schemat gwiazdy służy do rozwijania wydajności zapytań ze względu na mniejsze wymagania dotyczące pamięci dyskowej.
  • Oferuje większą skalowalność w relacjach między komponentami i poziomami wymiarów.
  • Łatwiejsze w utrzymaniu.
  • Schemat gwiazdy zapewnia szybkie pobieranie danych.
  • Jest to powszechny i ​​prosty schemat danych do hurtowni danych.
  • Pomaga poprawić jakość danych.
  • Uporządkowane dane ograniczają problem integralności danych.

Gwiazda kontra płatek śniegu: ograniczenia

Ograniczenia schematu gwiazdy

Ma wysoki stan denormalizacji i integralności. Cały proces upadnie, jeśli użytkownik nie zaktualizuje danych. Bezpieczeństwo i zabezpieczenia są również ograniczone. Ponadto schemat gwiazdy nie jest tak elastyczny jak model analityczny. Nie oferuje skutecznego wsparcia dla różnych relacji.

Ograniczenia schematu płatka śniegu

Głównym ograniczeniem, które znajdziesz w Snowflake, są dodatkowe prace konserwacyjne ze względu na rosnącą liczbę małych tabel wymiarów. Wiele złożonych zapytań utrudnia znalezienie wymaganych danych. Dodatkowo czas realizacji pytania jest wysoki ze względu na wyższe tabele. Model ten jest również sztywny i wymaga wyższych kosztów utrzymania.

Gwiazda kontra płatek śniegu: różnice

Gwiazda i Płatek śniegu to typy schematów wielowymiarowych, ale mają różne struktury i właściwości. Te pierwsze są jak gwiazda, a te drugie przypominają płatek śniegu, określając ich nazwy.

W schemacie gwiaździstym tylko jedno sprzężenie tworzy relację między centralną tabelą faktów a tabelami wymiarów bocznych. Z drugiej strony w schemacie typu płatek śniegu do łączenia z tabelami wymiarów potrzebne są wielokrotne sprzężenia.

Schemat gwiaździsty jest zwykle używany, gdy w tabeli wymiarów jest mniej wierszy, natomiast schemat typu płatek śniegu jest używany, gdy tabela wymiarów jest stosunkowo duża.

Poniższy diagram rozróżnia dwa modele oraz sposób, w jaki tabele wymiarów i tabela faktów są połączone w różnych schematach.

ParametrySchemat StarSchemaDiskSchemat spaceStar zajmuje więcej miejsca na dysku.Schemat Snowflake zajmuje mniej miejsca na dysku.Nadmiarowość danychMa wysoką nadmiarowość danych.Ma niską nadmiarowość danych.NormalizacjaTabele wymiarów są zdenormalizowane, co oznacza powtarzanie tej samej wartości w obrębie tabeli.Tabele wymiarów są w pełni znormalizowana.Wydajność zapytańWykonywanie zapytań zajmuje minimalną ilość czasu, co skutkuje lepszą wydajnością.Wykonywanie zapytania zajmuje więcej czasu niż schemat gwiazdy, co zmniejsza wydajność niż schemat gwiazdy.Złożoność zapytaniaZłożoność zapytania jest niska.Złożoność zapytania jest wyższy niż schemat gwiazdy.KonserwacjaZe względu na dużą nadmiarowość danych utrzymanie schematu gwiazdy jest nieco trudne.Ze względu na niską nadmiarowość danych łatwo jest utrzymać i zmienić schemat płatka śniegu.Integralność danychIntegralność danych jest wysoka, ponieważ dane są przechowywane nadmiarowo w przypadku wielu kopie istnieją w tabelach wymiarów.Integralność danych jest niska, ponieważ całkowicie normalizuje tabele wymiarów. Hierarchie Hierarchie dla tabel wymiarów w schemacie gwiazdy są przechowywane w tabeli wymiarów.Hierarchie są podzielone na oddzielne tabele wymiarów.Projekt DB Ma prosty projekt DB.Ma bardzo złożony projekt DB.Tabela faktówTabelę faktów otacza wiele tabel wymiarów. Tabela faktów jest otoczona tabelami wymiarów, które są również otoczone tabelami wymiarów podrzędnych.Schemat Set upStar jest łatwy do zaprojektowania i skonfigurowania, ponieważ reprezentują je bezpośrednie relacje.Z drugiej strony, konfiguracja schematu płatka śniegu jest nieco skomplikowana. Przetwarzanie kostekPrzetwarzanie kostek jest szybsze.Z powodu złożonego łączenia przetwarzanie kostek jest nieco wolniejsze.Klucze obceMa minimalną liczbę kluczy obcych.Ma maksymalną liczbę kluczy obcych.

Wniosek

Schematy Star i Snowflake są przydatne w różnych sektorach. Tak więc decyzja, który z nich jest lepszy, opiera się na ich wymaganiach.

Schemat płatka śniegu jest rozszerzeniem schematu gwiaździstego, w którym normalizuje tabele wymiarów w schemacie gwiaździstym.

Schemat gwiaździsty jest prosty w projektowaniu, uruchamia zapytania szybciej, a konfiguracja jest łatwa. Z drugiej strony schemat płatka śniegu jest łatwiejszy w utrzymaniu, zajmuje mniej miejsca na dysku i jest mniej podatny na problemy z integralnością danych.

Tak więc schemat gwiaździsty może być lepszym rozwiązaniem, jeśli potrzebujesz prostego projektu, mniejszej liczby kluczy obcych i szybszego przetwarzania kostek. Jeśli jednak potrzebujesz mniej miejsca na dysku, niskiej integralności danych i niewielkiej konserwacji, bardziej odpowiedni może być schemat płatka śniegu.

Możesz także zapoznać się z najlepszymi rozwiązaniami grafowej bazy danych.