Co to jest usługa Azure SQL Data Warehouse?

Firma Microsoft przekształciła swoje usługi Azure w rozwiązania chmurowe klasy korporacyjnej zawierające najnowocześniejsze funkcje, takie jak zarządzanie danymi i ich analiza.

Firma Microsoft uruchomiła usługę Azure SQL Data Warehouse, gdy podjęła decyzję o korzystaniu z chmury. Firma Microsoft z wielką energią rozwija usługę Azure SQL Data Warehouse. Jest to elastyczna usługa zarządzania bazą danych, która łączy z nią elastyczne funkcje hurtowni danych.

Spis treści:

Co to jest usługa Azure SQL Data Warehouse?

Azure SQL Data Warehouse (obecnie nazywana Azure Synapse Dedicated SQL Pool, hurtownia danych oparta na chmurze, umożliwia tworzenie i dostarczanie hurtowni danych na platformie Microsoft Azure. Hurtownia danych Azure może przetwarzać duże ilości danych relacyjnych i nierelacyjnych. Możliwości hurtowni danych SQL i platforma przetwarzania w chmurze.

Obsługuje natywnie serwery SQL i umożliwia migrację istniejących serwerów SQL do usługi SQL Data Warehouse. Możesz także używać tych samych zapytań i konstrukcji. Ponadto abonenci mają natychmiastowy dostęp do skalowania, wstrzymywania i zmniejszania zasobów hurtowni danych.

Służy do zapewnienia kompletnego rozwiązania hurtowni danych klasy korporacyjnej opartego na SQL. Może być również używany w następujący sposób:

Migracja istniejących hurtowni danych (on-premises) do chmury
Zapewnij rozwiązanie hurtowni danych aplikacjom i usługom, które wymagają przechowywania i pobierania danych w czasie wykonywania — takich jak aplikacje internetowe.
Hybrydowe rozwiązanie hurtowni danych, które łączy się z hurtownią danych hostowaną na platformie Azure i programem SQL Server na miejscu.

Najlepszą cechą usługi Azure SQL Data Warehouse jest jej elastyczny charakter. Pozwala na skalowalność i możliwość oddzielnego zarządzania zarówno zasobami pamięci masowej, jak i obliczeniowymi. Tworzy platformę win/win, w której użytkownicy płacą tylko za to, z czego korzystają i kiedy z niej korzystają.

Strona obliczeniowa usługi Azure SQL Data Warehouse opiera się na jednostce hurtowni danych (DWU), która śledzi zasoby obliczeniowe, takie jak operacje we/wy magazynu i pamięć we wszystkich uczestniczących węzłach obliczeniowych.

Azure SQL Data Warehouse oferuje funkcję zabezpieczeń połączeń. Pozwala to ograniczyć dostęp do określonych adresów IP lub zakresów adresów IP za pomocą reguł zapory. Integracja z uwierzytelnianiem usługi Azure Active Directory (AAD) umożliwi łączenie się z usługą Azure SQL Data Warehouse przy użyciu tożsamości z usługi Azure AD.

Szyfrowanie wielowarstwowe zapewnia ochronę w stanie spoczynku, w ruchu i podczas użytkowania, aby chronić dane przed niewłaściwym wykorzystaniem. Dostępne są dodatkowe narzędzia do audytu i monitorowania danych oraz identyfikacji naruszeń bezpieczeństwa.

W połączeniu z innymi narzędziami firmy Microsoft usługa Azure SQL Data Warehouse oferuje niezrównaną wydajność, co stanowi dużą przewagę nad innymi porównywalnymi usługami na rynku.

Dedykowana pula SQL usługi Azure Synapse

Azure Synapse SQL Pool Dedykowana pula SQL (wcześniej Azure SQL Data Warehouse) jest bankiem danych masowo przetwarzania równoległego, podobnym do kolumnowych technologii skalowalnych baz danych, takich jak Snowflake i Amazon Redshift. Dla użytkownika końcowego wygląda jak tradycyjny SQL Server, ale nie przechowuje i nie przetwarza danych w jednym węźle.

Może to znacznie poprawić wydajność hurtowni danych, które są większe niż kilka terabajtów, ale mogą istnieć lepsze rozwiązania dla mniejszych wdrożeń.

Podstawowa architektura bardzo różni się od tradycyjnych serwerów SQL. Oznacza to, że składnia i metody programowania również się różnią.

Dystrybucje są mapowane na węzły obliczeniowe w dedykowanej puli SQL. Pula ponownie mapuje dystrybucje do węzłów obliczeniowych, gdy kupujesz więcej zasobów obliczeniowych.

Możesz importować duże dane za pomocą prostych zapytań PolyBase SQL, a następnie użyć rozproszonego aparatu zapytań do wysokowydajnych analiz.

Dedykowana pula SQL, dawniej SQL DW, zapewni Twojej firmie jedno źródło informacji, które pozwoli Ci szybciej integrować i analizować dane oraz zapewnia bardziej szczegółowe informacje.

Jaka jest różnica między dedykowanymi pulami SQL usługi Azure Synapse a dedykowanymi pulami SQL w obszarze roboczym usługi Azure Synapse Analytics?

PowerShell to jeden z najbardziej mylących obszarów w dokumentacji między „dedykowaną pulą SQL (wcześniej SQLDW) a dedykowanymi pulami SQL „Synapse Analytics”.

Oryginalna implementacja SQL DW używa serwera logicznego podobnego do Azure SQL DB. Udostępniony jest moduł programu PowerShell o nazwie Az.Sql.

Ten moduł tworzy nową pulę SQL (dawniej SQLDW) przy użyciu polecenia cmdlet New.AzSqlDatabase. Ma parametr „Edycja”, który pozwala określić, że chcesz mieć DataWarehouse.

Synapse Analytics został dostarczony z nowym modułem PowerShell od Az.Synapse, gdy został po raz pierwszy wydany. Aby utworzyć dedykowaną pulę SQL w obszarze roboczym Synapse Analytics, należy użyć New-AzSynapseSqlPool.

Ten moduł PowerShell nie wymaga dołączenia parametru „Edycja”, ponieważ jest on używany tylko w przypadku artefaktów Synapse.

Dedykowana pula SQL zapewnia przetwarzanie i przechowywanie w oparciu o T-SQL. Dane mogą być ładowane, modelowane i przetwarzane w Synapse, aby zapewnić szybszy wgląd.

Usługa Azure Synapse oferuje pule bezserwerowego SQL i Apache Spark oprócz dedykowanych pul SQL. Możesz wybrać właściwy w oparciu o swoje wymagania.
Bezserwerowa pula SQL umożliwia wykonywanie zapytań dotyczących danych przechowywanych w jeziorze danych.

Co robi dedykowana pula SQL usługi Azure Synapse?

Dedykowana pula SQL usługi Azure Synapse wykorzystuje architekturę skalowalną w poziomie do dystrybucji obliczeń danych na wiele węzłów. Obliczenia można skalować niezależnie od magazynu, ponieważ obliczenia różnią się od magazynu.

Bezserwerowe pule SQL są bezserwerowe i skalują się automatycznie w celu spełnienia wymagań dotyczących zasobów zapytań. Przystosowuje się do zmieniających się topologii poprzez dodawanie, usuwanie lub przełączanie awaryjne węzłów. Gwarantuje to, że Twoje zapytanie ma wystarczające zasoby i może zostać pomyślnie zakończone.

Synapse SQL opiera się na architekturze opartej na węzłach. Synapse SQL wykorzystuje architekturę opartą na węzłach. Aplikacje mogą łączyć się z węzłem sterowania i wydawać polecenia T-SQL. To jedyny punkt dla Synapse SQL.

Węzły kontrolne SQL Azure Synapse używają rozproszonego aparatu zapytań, który optymalizuje zapytania pod kątem przetwarzania równoległego, a następnie przekazuje operacje do węzłów obliczeniowych, aby mogły wykonywać swoją pracę równolegle.

Bezserwerowy węzeł kontrolny puli SQL wykorzystuje aparat przetwarzania zapytań rozproszonych (DQP) do optymalizacji i orkiestracji wykonywania rozproszonego.

Odbywa się to poprzez podzielenie zapytania użytkownika na mniejsze zapytania, które można wykonać w węzłach obliczeniowych. Każde zadanie jest rozproszoną jednostką wykonawczą. Pobiera dane z innych zadań, grupuje pliki i odczytuje je z pamięci.

Węzły obliczeniowe przechowują wszystkie dane użytkownika i uruchamiają równoległe zapytania. Usługa przenoszenia danych (DMS), wewnętrzna usługa na poziomie systemu, przenosi dane między węzłami, aby umożliwić równoległe zapytania i zwracać dokładne wyniki.

Synapse SQL używa usługi Azure Storage do zabezpieczania danych użytkownika. Usługa Azure Storage przechowuje Twoje dane i zarządza nimi. Za korzystanie z magazynu pobierana jest osobna opłata.

Funkcje dedykowanych pul SQL Azure Synapse

Oto najważniejsze funkcje puli SQL Azure Synapse:

Możesz zapytać o dane w różnych formatach, takich jak Parquet, JSON i CSV w Data Lake.
Użytkownicy mogą wyświetlać najnowsze dane za pomocą abstrakcji relacyjnej.
T-SQL pozwala w prosty, skalowalny sposób przekształcać dane w jeziorze
Naukowcy zajmujący się danymi mogą szybko zbadać strukturę i zawartość danych jeziora za pomocą funkcji OPENROWSET lub funkcji automatycznego wnioskowania o schemacie.
Inżynierowie danych mogą używać puli do eksploracji jeziora i przekształcania, tworzenia lub upraszczania potoków transformacji danych.
Analitycy danych mogą uzyskiwać dostęp do danych i uruchamiać zewnętrzne tabele za pośrednictwem języka T-SQL i innych znanych narzędzi. Te narzędzia można również podłączyć do bezserwerowej puli SQL.
Błyskawicznie generuj raporty analizy biznesowej przez specjalistów ds. analizy biznesowej za pomocą tabel Spark lub jeziora danych.

Dedykowana pula SQL vs. Bezserwerowa pula SQL

Bezserwerowa pula SQL

Obszary robocze usługi Azure Synapse mają bezserwerową pulę SQL, która działa jako usługa zapytań w jeziorach danych. Dostęp do danych nie wymaga dodatkowej konfiguracji. Jest całkowicie bezserwerowy i nie wymaga żadnej infrastruktury do skonfigurowania ani utrzymania.

Skalowanie może odbywać się automatycznie, aby spełnić wymagania dotyczące zasobów. Użytkownik płaci tylko za przetworzone dane, a nie za zarezerwowane zasoby. Bezserwerowa pula SQL tworzy również statystyki w celu optymalizacji wykonywania zapytań.

Na przykład, gdy uruchamiamy zapytanie dwukrotnie lub uruchamiamy dwa zapytania z podobnymi planami wykonania, statystyki te mogą być ponownie wykorzystane.
Cechy te pozwalają nam na szybką analizę dużych ilości danych bez kopiowania czy ładowania ich do konkretnego sklepu.

Dedykowana pula SQL

Dedykowana pula SQL firmy Synapse jest następcą usługi Azure SQL Data Warehouse i oferuje wszystkie funkcje hurtowni danych dla przedsiębiorstw. Jednak nie ma bezserwerowej puli SQL. Zamiast tego użytkownicy muszą tworzyć i usuwać dedykowaną pulę SQL Synapse. Możemy również wybrać zasoby, z których będzie korzystał.

Zasoby te są mierzone przy użyciu dedykowanych pul SQL firmy Synapse. Nazywane są one jednostkami hurtowni danych (DWU). DWU odnosi się do kombinacji zasobów procesora, pamięci i we/wy.

Liczba jednostek DWU określa wydajność i koszt puli. Zamiast naliczania opłat za zapytanie, będziemy obciążani za każdy czas aktywności puli, niezależnie od wykonanej pracy.

Aby uniknąć dodatkowych kosztów, dedykowane pule można zatrzymywać i ponownie uruchamiać. Na potrzeby naszego testu stworzyliśmy dedykowaną pulę SQL o wielkości 100 DWU.

Po utworzeniu puli dane można do niej załadować za pomocą polecenia COPY, PolyBase z zapytaniami T-SQL lub potoku. Dane te będą przechowywane w pamięci kolumnowej w tabelach relacyjnych.

Dedykowana pula SQLServerless SQL PoolUmożliwia wysyłanie zapytań do Data Lake i ich pozyskiwanie.Użytkownicy mogą wysyłać zapytania do plików Data Lake.Infrastruktura jest wymagana.Nie jest konieczne tworzenie infrastruktury ani utrzymywanie klastrów.Przed przeprowadzeniem jakiejkolwiek operacji konieczne jest uzyskanie serwery dedykowane.Do przekształcania lub eksploracji danych nie jest wymagana żadna infrastruktura.Do przechowywania danych używane są tabele relacyjne.Data Lake przechowuje dane.Możesz zarządzać kosztami, wstrzymując pulę SQL i zmniejszając magazyn.Koszt jest automatycznie obsługiwany i fakturowany zgodnie z na zasadzie płatności za żądanie.Zarezerwowane zasoby podlegają kosztom.Naliczane są koszty przetwarzania danych za zapytanie.Płać za udostępnioną jednostkę DWU.Płać za przetworzone TB.

Wniosek

To wszystko dotyczyło usługi Azure SQL Data Warehouse (obecnie nazywanej dedykowaną pulą SQL Azure Synapse). Podczas gdy dedykowana pula SQL może wyglądać podobnie do tradycyjnego serwera SQL pod wieloma względami, podstawowa architektura (przetwarzanie masowo równoległe) jest zupełnie inna. Oznacza to, że niektóre koncepcje i techniki mają zastosowanie tylko do dedykowanej puli SQL.

Możesz również zbadać różnice między Data Lake i Data Warehouse.