Wprowadzenie do Amazon EMR (Elastic MapReduce) dla początkujących

Era komputerów osiągnęła niezwykły poziom zaawansowania, a ich możliwości wciąż dynamicznie rosną. W ciągu ostatnich trzech dekad komputery przeszły prawdziwą rewolucję, szczególnie w obszarze mocy obliczeniowej i zdolności do wykonywania wielu zadań jednocześnie.

Czy potrafisz wyobrazić sobie skok wydajności, który nastąpiłby, gdyby zadania były rozdzielane pomiędzy wiele maszyn i wykonywane równolegle? Taki właśnie model działania to przetwarzanie rozproszone, które można porównać do pracy zespołowej, w której każdy komputer wnosi swój wkład.

Możesz się zastanawiać, dlaczego w ogóle omawiamy koncepcję przetwarzania rozproszonego. Otóż dlatego, że jest ona fundamentalnie związana z usługą Amazon EMR (Elastic MapReduce). Amazon EMR, oferowany przez AWS, opiera swoje działanie na zasadach przetwarzania rozproszonego, umożliwiając przetwarzanie i analizowanie olbrzymich zbiorów danych w środowisku chmurowym.

Amazon EMR pozwala na analizę i przetwarzanie rozległych zbiorów danych z wykorzystaniem wybranej struktury przetwarzania rozproszonego, operując na danych przechowywanych w instancjach S3.

Jak działa Amazon EMR?

Źródło: aws.amazon.com

Pierwszym krokiem jest umieszczenie danych w wybranym magazynie, takim jak Amazon S3, DynamoDB, lub innych platformach pamięci masowej AWS, które są doskonale zintegrowane z EMR.

Następnie konieczne jest wykorzystanie platformy Big Data do obróbki i analizy zgromadzonych danych. Szeroki wybór platform, takich jak Apache Spark, Hadoop, Hive i Presto, pozwala wybrać tę, która najlepiej odpowiada potrzebom. Wybraną platformę można wdrożyć w magazynie danych.

Kolejnym etapem jest utworzenie klastra EMR, składającego się z instancji EC2, który będzie odpowiedzialny za równoległe przetwarzanie i analizę danych. Użytkownik ma możliwość konfiguracji liczby węzłów i innych parametrów klastra.

Dane i struktury są rozdzielane przez podstawowy magazyn pomiędzy węzły, gdzie poszczególne fragmenty danych są przetwarzane oddzielnie. Wyniki uzyskane z tych operacji są następnie łączone.

Po zakończeniu przetwarzania i uzyskaniu wyników, klaster może zostać zamknięty, uwalniając tym samym przydzielone zasoby.

Korzyści z Amazon EMR

Przedsiębiorstwa, niezależnie od ich wielkości, nieustannie poszukują ekonomicznie efektywnych rozwiązań. Amazon EMR, jako usługa o przystępnej cenie, umożliwia łatwe uruchamianie różnych platform big data w środowisku AWS, zapewniając komfortowe przetwarzanie i analizę danych przy jednoczesnym obniżeniu kosztów.

✅ **Elastyczność:** Nazwa "Elastic MapReduce" już sugeruje ten aspekt. W zależności od zapotrzebowania, Amazon EMR umożliwia dynamiczną zmianę rozmiaru klastrów, zarówno ręcznie, jak i automatycznie. Na przykład, w danej chwili może być potrzebne 200 instancji do obsługi zapytań, a po godzinie lub dwóch zapotrzebowanie to może wzrosnąć do 600 instancji. Amazon EMR jest idealnym rozwiązaniem, gdy elastyczność i dostosowanie do szybko zmieniającego się popytu są kluczowe.

✅ **Magazyny danych:** Niezależnie od tego, czy są to Amazon S3, rozproszony system plików Hadoop, Amazon DynamoDB czy inne magazyny danych AWS, Amazon EMR bezproblemowo integruje się z nimi.

✅ **Narzędzia do przetwarzania danych:** Amazon EMR obsługuje szeroką gamę platform big data, takich jak Apache Spark, Hive, Hadoop i Presto. Dodatkowo, w ramach tego środowiska można uruchamiać algorytmy i narzędzia związane z uczeniem maszynowym i głębokim uczeniem.

✅ **Opłacalność:** W odróżnieniu od wielu komercyjnych rozwiązań, Amazon EMR pozwala na rozliczanie tylko faktycznie wykorzystanych zasobów, w cyklu godzinowym. Istnieje również możliwość wyboru różnych modeli cenowych, dopasowanych do konkretnego budżetu.

✅ **Konfiguracja klastra:** Platforma daje możliwość dostosowania każdego elementu klastra do indywidualnych potrzeb. Można również połączyć platformę big data z optymalnym typem klastra. Na przykład, połączenie instancji opartych na Apache Spark z Graviton2 może przynieść znaczące korzyści w zakresie wydajności w EMR.

✅ **Kontrola dostępu:** Narzędzia AWS Identity and Access Management (IAM) pozwalają na precyzyjne zarządzanie uprawnieniami w EMR. Na przykład, można zezwolić konkretnym użytkownikom na modyfikowanie klastra, podczas gdy innym przyznać jedynie uprawnienia do jego przeglądania.

✅ **Integracja:** Integracja EMR z innymi usługami AWS przebiega bezproblemowo, co pozwala na pełne wykorzystanie mocy serwerów wirtualnych, solidnych zabezpieczeń, skalowalnej pojemności i możliwości analitycznych oferowanych przez AWS.

Zastosowania Amazon EMR

#1. Uczenie maszynowe

Amazon EMR umożliwia efektywną analizę danych z wykorzystaniem uczenia maszynowego i głębokiego uczenia. Przykładowo, uruchamianie różnych algorytmów na danych medycznych w celu monitorowania wskaźników zdrowotnych, takich jak BMI, tętno, ciśnienie krwi, poziom tkanki tłuszczowej, ma kluczowe znaczenie przy tworzeniu urządzeń do monitorowania kondycji. Wszystkie te procesy można realizować w ramach EMR, w sposób szybszy i wydajniejszy.

#2. Transformacje dużych zbiorów danych

Firmy z branży handlowej gromadzą ogromne ilości danych cyfrowych w celu analizy zachowań klientów i optymalizacji swojej działalności. Amazon EMR, w połączeniu ze Spark, jest idealnym rozwiązaniem do pobierania i transformacji dużych zbiorów danych.

#3. Eksploracja danych

Czy potrzebujesz przetwarzać zbiór danych, którego analiza zajmuje dużo czasu? Amazon EMR doskonale sprawdza się w eksploracji danych i analizie predykcyjnej złożonych zestawów danych, zwłaszcza tych nieustrukturyzowanych. Architektura klastrowa EMR pozwala na efektywne przetwarzanie równoległe.

#4. Badania naukowe

Amazon EMR to ekonomiczna i wydajna platforma do prowadzenia różnorodnych badań. Skalowalność tej platformy eliminuje problemy z wydajnością podczas analizy dużych zbiorów danych, co sprawia, że jest ona idealna dla laboratoriów analitycznych i badań naukowych.

#5. Przesyłanie strumieniowe w czasie rzeczywistym

Kolejną ważną funkcjonalnością Amazon EMR jest obsługa przesyłania strumieniowego w czasie rzeczywistym. Za pomocą Apache Kafka i Apache Flink, działających w środowisku Amazon EMR, można tworzyć skalowalne potoki danych do przesyłania strumieniowego w grach online, transmisjach wideo, monitorowaniu ruchu czy handlu akcjami.

Czym EMR różni się od Amazon Glue i Redshift?

AWS EMR kontra Glue

Zarówno Amazon EMR, jak i Amazon Glue to potężne usługi AWS, które odgrywają istotną rolę w zarządzaniu danymi.

Amazon Glue pozwala na szybkie i wydajne pobieranie, transformowanie i ładowanie danych z różnych źródeł do hurtowni danych, natomiast Amazon EMR umożliwia przetwarzanie aplikacji Big Data za pomocą platform takich jak Hadoop, Spark czy Hive.

Amazon Glue jest zasadniczo narzędziem do zbierania i przygotowywania danych do analizy, podczas gdy Amazon EMR służy do ich przetwarzania.

EMR kontra Redshift

Załóżmy, że chcesz w łatwy sposób przeszukiwać swoje dane i wysyłać do nich zapytania. W tym celu często wykorzystuje się SQL. Amazon Redshift oferuje zoptymalizowane usługi przetwarzania analitycznego online, które pozwalają na szybkie i efektywne wyszukiwanie dużych ilości danych za pomocą SQL.

W przypadku przechowywania danych, Amazon EMR korzysta z zewnętrznych dostawców, takich jak S3 i DynamoDB, zapewniając wysoce skalowalne, bezpieczne i dostępne usługi. Natomiast Redshift dysponuje własną warstwą danych, która umożliwia przechowywanie danych w formacie kolumnowym.

Podejścia do optymalizacji kosztów Amazon EMR

#1. Przetwarzanie sformatowanych danych

Im większy zbiór danych, tym dłużej trwa jego przetwarzanie. Przekazywanie nieprzetworzonych danych bezpośrednio do klastra dodatkowo komplikuje proces, wydłużając czas potrzebny do odnalezienia i przetworzenia odpowiedniej partii danych.

Dane sformatowane, zawierające metadane dotyczące kolumn, typu danych, rozmiaru i innych parametrów, znacząco oszczędzają czas potrzebny na wyszukiwanie i agregację. Warto również zredukować rozmiar danych, wykorzystując metody kompresji, ponieważ mniejsze zbiory danych są przetwarzane szybciej.

#2. Wykorzystanie ekonomicznych usług przechowywania

Korzystanie z ekonomicznych usług przechowywania danych wejściowych i wyjściowych redukuje koszty związane z Amazon EMR. Amazon S3 jest prostą i niedrogą usługą, w ramach której płaci się tylko za faktycznie wykorzystane miejsce.

#3. Dobór odpowiedniego rozmiaru instancji

Stosowanie właściwych instancji o odpowiedniej wielkości może znacząco obniżyć koszty związane z EMR. Instancje EC2 są rozliczane w cyklu sekundowym, a ich cena jest zależna od rozmiaru. Niemniej jednak, koszt zarządzania klastrem, niezależnie od tego czy składa się on z jednej dużej maszyny (np. 0,7x) czy wielu mniejszych (np. 0,36x), jest taki sam. Z tego powodu, wykorzystanie większych maszyn jest bardziej opłacalne.

#4. Wykorzystanie instancji spot

Instancje spot stanowią atrakcyjną opcję zakupu nieużywanych zasobów EC2 po niższych cenach. Są one tańsze od instancji na żądanie, ale nie są trwałe i mogą zostać odebrane w przypadku wzrostu popytu. Instancje spot są elastyczne i odporne na awarie, ale nie nadają się do zadań długotrwałych.

#5. Automatyczne skalowanie

Funkcja automatycznego skalowania jest idealna do unikania problemów związanych z przewymiarowaniem lub niedowymiarowaniem klastrów. Pozwala ona na dobór optymalnej liczby i typu instancji w klastrze na podstawie aktualnego obciążenia, co ma pozytywny wpływ na redukcję kosztów.

Podsumowanie

Rozwój chmury obliczeniowej i technologii big data nieustannie postępuje, oferując coraz więcej narzędzi i platform do nauki i wdrożeń. Amazon EMR jest jedną z takich platform, która ułatwia przetwarzanie i analizę dużych zbiorów danych w środowisku chmurowym.

W tym artykule przybliżyliśmy, czym jest Amazon EMR, jakie korzyści oferuje, jak działa, jakie ma zastosowania, oraz jak można optymalizować koszty jego wykorzystania, aby ułatwić rozpoczęcie pracy z tą platformą.

Zachęcamy także do zapoznania się z artykułem na temat AWS Athena.