Przewodnik wprowadzający do danych szeregów czasowych

Photo of author

By maciekx

W kontekście gromadzenia informacji, „czas” stanowi fundamentalną zmienną. W analizie szeregów czasowych to właśnie czas nadaje sens danym, stanowiąc ich kluczowy element.

Czym są dane szeregów czasowych?

Dane szeregów czasowych to uporządkowane chronologicznie sekwencje punktów danych. Ich istotą jest zależność porządkowa między kolejnymi obserwacjami. W obecnej erze cyfrowej, bazującej na danych, szeregi czasowe są wszechobecne. Każde wydarzenie jest osadzone w strumieniu czasu, co sprawia, że nieustannie stykamy się z różnorodnymi danymi szeregów czasowych.

Najczęściej szeregi czasowe są rejestrowane w regularnych odstępach, co klasyfikuje je jako szeregi regularne. Niemniej jednak, nie wszystkie dane szeregów czasowych powstają w równych interwałach. W takich sytuacjach mamy do czynienia z nieregularnymi szeregami czasowymi, gdzie dane zachowują sekwencję czasową, ale pomiary mogą być wykonywane w zmiennych odstępach. Przykładem mogą być transakcje w bankomatach lub wpłaty na konto, które charakteryzują się nieregularnymi interwałami między danymi.

Z technicznego punktu widzenia, szereg czasowy opisuje zmianę jednej lub więcej zmiennych w danym okresie. Gdy w czasie zmienia się tylko jedna zmienna, mówimy o jednowymiarowym szeregu czasowym. Przykładem jest czujnik temperatury, który co sekundę rejestruje odczyt. Wówczas w każdej sekundzie mamy jedną wartość – temperaturę. Z kolei, gdy więcej zmiennych ulega zmianie w czasie, mamy do czynienia z wielowymiarowym szeregiem czasowym. Przykładem jest analiza ekonomii bankowej, gdzie zmiany stopy repo mogą wpływać na inne zmienne, np. na wypłaty kredytów dla firm.

Dane szeregów czasowych znajdują zastosowanie w wielu dziedzinach, od finansów, geologii i meteorologii, poprzez produkcję, informatykę, IoT, aż po nauki fizyczne i społeczne. Wykorzystuje się je do śledzenia zmian pogody, wskaźników demograficznych, wahań rynkowych, wydajności sieci i wielu innych. Główne zastosowania obejmują monitorowanie, prognozowanie i detekcję anomalii. Na przykład, przewidywanie szeregów czasowych jest kluczowe w określaniu popularności systemów zarządzania bazami danych. Poniższa ilustracja przedstawia wzrost popularności DBMS w latach 2019-2021, zobrazowany na wykresie szeregu czasowego.

Źródło

Kluczowe składowe szeregów czasowych

Czynniki wpływające na wartości obserwacji w szeregach czasowych uznawane są za ich kluczowe składowe. Możemy je podzielić na trzy główne kategorie:

  • Tendencje długoterminowe lub trendy
  • Ruchy krótkoterminowe
  • Wahania sezonowe
  • Zmiany cykliczne
  • Ruchy losowe lub nieregularne

Trend

Trend, inaczej komponent długoterminowy, opisuje ogólną tendencję danych do wzrostu lub spadku w dłuższym okresie. Istotne jest, że kierunek ruchu nie musi być stały w każdym fragmencie czasu.

Trend może wykazywać wzrost, spadek lub stabilizację w różnych okresach. Niemniej jednak, ogólna tendencja zawsze wskazuje na wzrostowy, spadkowy lub stabilny charakter. Takie tendencje obserwujemy, na przykład, w produktywności rolnictwa, śmiertelności czy ilości wytwarzanych urządzeń.

Trend liniowy i nieliniowy

Wizualizacja szeregu czasowego na wykresie pozwala na identyfikację typu trendu na podstawie grupowania danych. Jeżeli punkty danych układają się wzdłuż linii prostej, mówimy o trendzie liniowym. W przeciwnym wypadku, gdy dane tworzą nieregularny kształt, mamy do czynienia z trendem nieliniowym, ponieważ zmiana między zmiennymi nie jest stała, czyli mamy korelację krzywoliniową.

Ruchy krótkoterminowe

Te składowe szeregów czasowych mają tendencję do cyklicznego powtarzania się w określonych okresach. Są to krótkie, nieregularne zmiany wpływające na analizowane zmienne. Ruchy krótkoterminowe dzielimy na:

Zmiany sezonowe

Zmiany sezonowe charakteryzują się regularnością i okresowością, powtarzając się w okresie krótszym niż rok. Zwykle prezentują zbliżony wzorzec w ciągu 12 miesięcy. Takie odchylenia obserwuje się, gdy dane rejestrowane są w regularnych odstępach, np. co godzinę, dzień, tydzień, miesiąc lub kwartał.

Wahania sezonowe wynikają z naturalnych czynników lub działań człowieka. Kluczowe znaczenie mają pory roku i warunki klimatyczne. Na przykład, produkcja rolna jest silnie uzależniona od pór roku, a sprzedaż parasoli rośnie w porze deszczowej, zaś lodówki i klimatyzatory zyskują na popularności latem.

Do konwencji stworzonych przez człowieka należą festiwale, uroczystości i okazje takie jak śluby, które powtarzają się w cyklu rocznym.

Zmiany cykliczne

Zmiany w szeregach czasowych, które rozciągają się na okres dłuższy niż rok, określa się mianem zmian cyklicznych. W kontekście działalności firmy, pełen cykl to „cykl biznesowy”. Wzrost lub spadek wskaźników biznesowych zależy od wielu czynników, takich jak warunki ekonomiczne, zarządzanie oraz inne współdziałające siły. Te zmiany cykliczne mogą być regularne, ale nie okresowe. Zazwyczaj przedsiębiorstwa przechodzą czteroetapowy cykl, obejmujący fazy prosperity, recesji, depresji i ożywienia.

Zmiany cykliczne są ważnym elementem szeregów czasowych, ponieważ rozwój przedsiębiorstw w dużej mierze opiera się na generowanych sekwencyjnych punktach danych.

Ruchy losowe lub nieregularne

Losowe czynniki powodują znaczną zmienność w obserwowanych danych. Są to nieprzewidywalne fluktuacje, które nie podlegają żadnemu wzorcowi. Są to zjawiska nagłe i nieprzewidywalne, jak np. trzęsienia ziemi, powodzie czy inne katastrofy.

Analiza danych szeregów czasowych, związanych z losowymi zdarzeniami, ma na celu lepsze przygotowanie się na podobne sytuacje, które mogą wystąpić w przyszłości.

Rodzaje szeregów czasowych

Dane szeregów czasowych dzielimy na cztery podstawowe typy: deterministyczne, niedeterministyczne, stacjonarne i niestacjonarne. Przyjrzyjmy się bliżej każdemu z nich.

#1. Deterministyczne szeregi czasowe

Deterministyczny szereg czasowy można opisać za pomocą wyrażenia analitycznego. Nie zawiera on aspektów losowych czy probabilistycznych. Matematycznie można go precyzyjnie przedstawić dla wszystkich momentów czasowych za pomocą szeregu Taylora, pod warunkiem, że znane są wszystkie jego pochodne w dowolnym momencie. Te pochodne jasno określają przeszłość i przyszłość w danym czasie. Przy spełnieniu wszystkich warunków, jego przyszłe zachowanie można dokładnie przewidzieć, a przeszłe przeanalizować.

#2. Niedeterministyczne szeregi czasowe

Niedeterministyczny szereg czasowy ma element losowy, który uniemożliwia jego precyzyjny opis. W efekcie wyrażenia analityczne nie są wystarczające, by opisać takie szeregi czasowe. Szeregi te mogą być niedeterministyczne z następujących przyczyn:

  • Nie mamy pełnego dostępu do informacji potrzebnych do jego opisania. Chociaż dane mogą istnieć, nie da się ich traktować jako jednoznacznie mierzalne.
  • Proces generowania danych ma charakter losowy.

Ze względu na element losowości, niedeterministyczne szeregi czasowe podlegają prawom probabilistycznym. Dlatego dane analizuje się w kategoriach statystycznych, wykorzystując rozkłady prawdopodobieństwa i średnie, a także miary dyspersji, np. wariancje.

#3. Stacjonarne szeregi czasowe

W stacjonarnych szeregach czasowych właściwości statystyczne, takie jak średnia czy wariancja, nie zależą od czasu. Stacjonarny szereg czasowy jest łatwiejszy do przewidzenia, ponieważ możemy założyć, że jego właściwości statystyczne pozostaną niezmienne. Dlatego wiele metod prognozowania statystycznego opiera się na założeniu, że szeregi czasowe są w przybliżeniu stacjonarne, czyli można je uznać za stacjonarne po zastosowaniu odpowiednich transformacji matematycznych.

#4. Niestacjonarne szeregi czasowe

W szeregu niestacjonarnym właściwości statystyczne zmieniają się w czasie. Szeregi z trendami lub sezonowością są klasyfikowane jako niestacjonarne, ponieważ te elementy mogą wpływać na wartość szeregu w różnych przedziałach czasowych. Niestacjonarne szeregi czasowe są nieprzewidywalne, co uniemożliwia ich modelowanie i prognozowanie.

Źródło

Analiza i prognozowanie szeregów czasowych

Analiza i prognozowanie szeregów czasowych to przydatne narzędzia do obserwowania, analizowania i badania ewolucji oraz dynamiki procesów życiowych i różnych obiektów. Przyjrzyjmy się bliżej każdemu z nich.

Analiza szeregów czasowych

Analiza szeregów czasowych to proces badania danych, które zostały zgromadzone w określonym przedziale czasu. Analitycy rejestrują dane w stałych odstępach czasu, np. od sekund do lat.

Dane szeregów czasowych opisują badane zmienne, umożliwiając szczegółową analizę wzorców fluktuacji w danym okresie. Parametry analizy mogą różnić się w zależności od dziedziny. Przykłady:

  • Badania naukowe – Dane rejestrowane codziennie
  • Strona komercyjna – Dzienna liczba odwiedzin klientów
  • Giełda – Wartości akcji w ujęciu tygodniowym
  • Sezon – Liczba deszczowych dni w roku

Aby zapewnić spójność i wiarygodność, analiza szeregów czasowych opiera się na dużych zbiorach danych. Wielkość próby jest istotna dla prawidłowego odzwierciedlenia autentyczności odkrytego trendu lub wzorca.

Analiza szeregów czasowych umożliwia również prognozowanie przyszłych zdarzeń na podstawie danych historycznych.

Prognozowanie szeregów czasowych

Analiza szeregów czasowych pozwala organizacjom na identyfikację przyczyn wahań trendów w czasie. Dzięki tym danym firmy mogą dalej analizować i lepiej rozumieć, jak radzić sobie z nieznanymi trendami oraz prognozować przyszłe zdarzenia. Firmy wykorzystują wizualizacje danych do identyfikacji anomalii w danych.

Prognozowanie szeregów czasowych opiera się na dwóch podstawowych założeniach:

  • Przyszłe wydarzenia można przewidzieć na podstawie danych historycznych.
  • Nadchodzące trendy będą podobne do tych z przeszłości.

Celem prognozowania jest przewidywanie, czy punkty danych pozostaną takie same, czy ulegną zmianie w przyszłości. Przykłady z różnych sektorów przemysłu:

  • Giełda – Prognozowanie ceny akcji na zamknięciu sesji.
  • Sprzedaż – Prognozowanie dziennej sprzedaży produktów w sklepie.
  • Ceny – Prognozowanie średniej dziennej ceny paliwa.

Do prognozowania szeregów czasowych stosuje się takie techniki statystyczne, jak prosta średnia ruchoma (SMA), wygładzanie wykładnicze (SES), autoregresywna zintegrowana średnia ruchoma (ARIMA) oraz sieci neuronowe (NN).

Dane szeregów czasowych w chmurze

Aby w pełni wykorzystać potencjał danych szeregów czasowych, firmy muszą mieć możliwość szybkiego ich przechowywania i wyszukiwania. Instytucje finansowe polegają na dużych zbiorach danych historycznych i strumieniowych, aby przeprowadzać analizy w czasie rzeczywistym i podejmować trafne decyzje biznesowe. Może to obejmować przewidywanie zmian cen akcji, określanie wymogów kapitałowych lub prognozowanie kursów walut. Aby zapewnić elastyczność i sprawne przetwarzanie, wiele firm decyduje się na migrację swoich baz danych szeregów czasowych do chmury.

Migracja baz danych szeregów czasowych do chmury umożliwia organizacjom dostęp do nieograniczonych zasobów na żądanie. Pozwala firmom na wykorzystanie mocy obliczeniowej do maksymalizacji przepustowości sieci bez problemów z opóźnieniami.

Bazy danych szeregów czasowych w infrastrukturze chmurowej są idealne dla zadań wymagających dużej mocy obliczeniowej, np. obliczania ryzyka w odpowiedzi na zmieniające się trendy rynkowe. Firmy finansowe mogą uniknąć kosztów związanych z utrzymaniem własnych centrów danych i skupić się na wykorzystaniu zasobów do poprawy produktywności.

Dostawcy chmur, tacy jak AWS, oferują Amazon Timestream, usługę bazy danych szeregów czasowych, która ułatwia ładowanie, przechowywanie i analizowanie danych. Oferują one pamięć masową, narzędzia do analizy w czasie rzeczywistym i funkcję strumieniowego przesyłania danych, by obsługiwać zdarzenia w czasie ich wystąpienia.

Dzięki temu infrastruktura chmurowa zwiększa i skaluje korzyści płynące z danych szeregów czasowych.

Zastosowania szeregów czasowych

Modele szeregów czasowych mają dwa główne cele:

  • Zrozumienie czynników, które wygenerowały dany wzorzec danych.
  • Dopasowanie modelu do prognozowania i monitorowania na podstawie przeprowadzonej analizy.

Przykłady zastosowania szeregów czasowych w różnych aplikacjach:

#1. Szeregi czasowe w finansach i biznesie

Wszystkie decyzje finansowe, biznesowe i inwestycyjne opierają się na aktualnych trendach i prognozach popytu. Dane szeregów czasowych służą do wyjaśniania, korelowania i przewidywania dynamiki rynku finansowego. Eksperci finansowi wykorzystują analizę danych, aby prognozować i podejmować działania minimalizujące ryzyko, stabilizujące ceny i ułatwiające handel.

Analiza szeregów czasowych odgrywa kluczową rolę w analizie finansowej. Jest stosowana do przewidywania stóp procentowych, zmienności na rynkach akcji i wielu innych czynników. Interesariusze i decydenci biznesowi mogą dzięki niej podejmować świadome decyzje dotyczące produkcji, zakupów, alokacji zasobów i optymalizacji procesów.

W sektorze inwestycyjnym analiza ta jest wykorzystywana do monitorowania kursów papierów wartościowych i ich wahań w czasie. Cenę papieru można obserwować w krótkim czasie (np. na podstawie danych godzinnych lub dziennych) lub w długim okresie (np. na podstawie danych z miesięcy lub lat). Analiza szeregów czasowych jest skutecznym narzędziem do śledzenia zachowania papierów wartościowych, aktywów i zmiennych ekonomicznych.

#2. Szeregi czasowe w medycynie

Opieka zdrowotna coraz bardziej opiera się na danych. Obok analiz finansowych i biznesowych, medycyna w znacznym stopniu wykorzystuje analizę szeregów czasowych.

Weźmy pod uwagę leczenie pacjentów z rakiem, gdzie synergia danych szeregów czasowych, dostosowanych procedur i technik eksploracji danych ma kluczowe znaczenie. Taka hybrydowa struktura może być wykorzystana do śledzenia postępów pacjenta i reakcji na leczenie na podstawie danych z szeregów czasowych (np. zdjęć rentgenowskich).

W opiece zdrowotnej wyciąganie wniosków z ciągle zmieniających się danych szeregów czasowych jest fundamentalne. Zaawansowane praktyki medyczne wymagają łączenia dokumentacji pacjentów w czasie, aby mieć lepszy wgląd w ich stan zdrowia. Parametry zdrowotne pacjenta muszą być regularnie rejestrowane, aby uzyskać klarowny obraz ich stanu zdrowia.

Wraz z rozwojem nowoczesnej aparatury medycznej, analiza szeregów czasowych stała się ważnym elementem opieki zdrowotnej. Przykłady:

  • Urządzenia EKG: Monitorują pracę serca poprzez rejestrowanie impulsów elektrycznych.
  • Urządzenia EEG: Mierzą aktywność elektryczną mózgu.

Te urządzenia umożliwiły lekarzom przeprowadzanie analizy szeregów czasowych w celu szybszej, skuteczniejszej i dokładniejszej diagnostyki medycznej.

Ponadto, dzięki urządzeniom IoT, takim jak czujniki i przenośne urządzenia medyczne, ludzie mogą regularnie mierzyć parametry swojego zdrowia w czasie, co prowadzi do spójnego gromadzenia danych medycznych zarówno u osób chorych, jak i zdrowych.

#3. Szeregi czasowe w astronomii

Astronomia i astrofizyka to dziedziny, które w dużym stopniu wykorzystują dane szeregów czasowych.

Astronomia zajmuje się wykreślaniem trajektorii obiektów kosmicznych i wykonywaniem dokładnych pomiarów. Eksperci w tej dziedzinie wykorzystują dane szeregów czasowych podczas kalibracji i konfiguracji instrumentów oraz badania obiektów astronomicznych.

Dane szeregów czasowych są od dawna kojarzone z astronomią. Już w 800 rpne zbierano dane dotyczące plam słonecznych. Od tego czasu analiza szeregów czasowych jest wykorzystywana do:

  • Odkrywania odległych gwiazd na podstawie odległości międzygwiezdnych.
  • Obserwacji wydarzeń kosmicznych, jak supernowe, aby lepiej zrozumieć pochodzenie wszechświata.

Dane szeregów czasowych odnoszą się do długości fal i intensywności światła emitowanego przez gwiazdy. Astronomowie monitorują te dane w czasie rzeczywistym, aby wykrywać zdarzenia kosmiczne na bieżąco.

Ostatnio pojawiły się nowe obszary badawcze, jak astroinformatyka i astrostatystyka, które łączą różne dziedziny i wykorzystują dane szeregów czasowych do szybkiego i skutecznego wykrywania i klasyfikowania obiektów astronomicznych.

#4. Szeregi czasowe w prognozowaniu pogody

Już Arystoteles badał wzorce pogodowe. Z biegiem czasu, naukowcy zaczęli rejestrować dane pogodowe za pomocą przyrządów, np. barometrów. Dane te były zbierane i przechowywane w różnych lokalizacjach.

Z czasem prognozy pogody zaczęły pojawiać się w gazetach. Dziś stacje pogodowe są instalowane na całym świecie, aby zbierać dokładne dane. Te stacje są połączone w sieć i służą do gromadzenia, analizowania i korelowania danych, co umożliwia prognozowanie pogody.

#5. Szeregi czasowe w rozwoju biznesu

Dane szeregów czasowych umożliwiają firmom podejmowanie lepszych decyzji biznesowych. Analiza danych historycznych pozwala wyciągać wnioski o przyszłych wydarzeniach i identyfikować możliwości. Wzorzec danych z przeszłości służy do oceny następujących parametrów:

  • Rozwój firmy: Dane szeregów czasowych są najlepszym źródłem informacji do oceny wyników finansowych i pomiaru wzrostu.
  • Oszacowanie trendu: Różne metody szeregów czasowych można wykorzystać do oszacowania pojawiających się trendów, np. wzrostu lub spadku sprzedaży konkretnego urządzenia elektronicznego.
  • Odkrywanie wzorców sezonowych: Dane mogą ujawnić wahania i wzorce sezonowe, pomagające w prognozowaniu. Jest to szczególnie ważne na rynkach, gdzie ceny podlegają sezonowym wahaniom.

Podsumowanie 👨‍🏫

Podsumowując, dane szeregów czasowych to złożone zbiory danych, rejestrowane w stałych odstępach czasu. Analiza, modelowanie i prognozowanie szeregów czasowych stały się częścią naszego codziennego życia, wraz z rozwojem IoT, inteligentnych domów i urządzeń mobilnych. Poza tym, dane szeregów czasowych znajdują zastosowanie w wielu dziedzinach, w tym w medycynie, astrofizyce, ekonomii, inżynierii, biznesie i wielu innych.


newsblog.pl