Przewodnik wprowadzający do danych szeregów czasowych

„Czas” jest kluczową zmienną, jeśli chodzi o gromadzenie danych. W analizie szeregów czasowych czas jest ważnym elementem danych.

Co to są dane szeregów czasowych?

Dane szeregów czasowych odnoszą się do serii punktów danych uporządkowanych w czasie. Wprowadza zależność rzędu między zbiorem obserwacji. Szeregi czasowe są wszechobecne w dzisiejszym świecie opartym na danych. Ponieważ każde zdarzenie podąża za strzałką czasu, jesteśmy w ciągłej interakcji z różnymi danymi szeregów czasowych.

Ogólnie przyjmuje się, że szeregi czasowe są generowane w regularnych odstępach czasu i są określane jako regularne szeregi czasowe. Jednak dane w ramach tych szeregów czasowych nie muszą być generowane w regularnych odstępach czasu. Takie przypadki obejmują nieregularne szeregi czasowe, w których dane są zgodne z sekwencją czasową. Oznacza to, że pomiary mogą nie odbywać się w regularnych odstępach czasu. Jednak dane mogą być generowane w dyskretnych odstępach czasu lub jako seria. Wypłaty z bankomatów lub wpłaty na konto to przykłady nieregularnych szeregów czasowych.

Technicznie rzecz biorąc, w szeregu czasowym jedna lub więcej zmiennych zmienia się w danym okresie. Jeśli pojedyncza zmienna zmienia się w czasie, nazywa się ją jednowymiarowym szeregiem czasowym. Rozważmy na przykład czujnik mierzący temperaturę w pomieszczeniu co sekundę. Tutaj w każdej chwili (tj. sekundzie) generowana jest tylko jednowymiarowa wartość temperatury. Wręcz przeciwnie, gdy więcej niż jedna zmienna zmienia się w czasie, nazywa się to wielowymiarowym szeregiem czasowym. Weźmy na przykład ekonomię banków. W takich przypadkach stosuje się wielowymiarowe szeregi czasowe, aby zrozumieć, w jaki sposób zmiany polityki dotyczące jednej zmiennej, takiej jak stopa repo, mogą wpływać na inne zmienne (tj. wypłatę kredytu dla banków komercyjnych).

Dane szeregów czasowych znajdują zastosowanie w każdej dyscyplinie, od finansów, geologii, meteorologii, produkcji po informatykę, IoT, nauki fizyczne i społeczne. Służy do śledzenia zmian pogody, wskaźnika urodzeń, wskaźnika śmiertelności, wahań rynkowych, wydajności sieci i wielu innych zastosowań. Niektóre z jego głównych przypadków użycia obejmują monitorowanie, prognozowanie i wykrywanie anomalii. Na przykład prognozowanie szeregów czasowych odgrywa kluczową rolę w określaniu popularności systemów zarządzania bazami danych. Poniższy rysunek przedstawia rosnącą popularność DBMS na przestrzeni lat (2019-2021) na wykresie szeregów czasowych.

https://www.influxdata.com/time-series-database/

Kluczowe składniki szeregów czasowych

Czynniki wpływające na wartości obserwacji w szeregach czasowych traktowane są jako ich składowe kluczowe. Trzy kategorie komponentów obejmują:

  • Trend lub ruchy długoterminowe
  • Ruchy krótkoterminowe
  • Wahania sezonowe
  • Cykliczne zmiany
  • Losowe lub nieregularne ruchy
  • Tendencja

    Tendencja danych do wzrostu lub spadku w długim okresie czasu jest określana jako trend lub składnik długoterminowy. Należy jednak zauważyć, że ruch w górę lub w dół niekoniecznie musi odbywać się w tym samym kierunku w danym przedziale czasu.

    Tendencje mogą rosnąć, spadać lub pozostawać stabilne w różnych odcinkach czasu. Ogólny trend musi jednak zawsze odpowiadać formacji wzrostowej, spadkowej lub stabilnej. Takie tendencje ruchowe są widoczne w przykładach, takich jak produktywność rolnictwa, śmiertelność, produkowane urządzenia, liczba fabryk itp.

    Trend liniowy i nieliniowy

    Wykreślenie wartości szeregów czasowych w funkcji czasu na wykresie ujawnia typ trendu oparty na wzorcu grupowania danych. Jeśli klaster danych jest mniej więcej wokół linii prostej, wówczas trend jest określany jako trend liniowy. W przeciwnym razie wzór klastra danych pokazuje nieliniowy trend, ponieważ stosunek zmian między dwiema zmiennymi nie jest stabilny ani stały. Dlatego takie trendy nazywane są również korelacjami krzywoliniowymi.

    Ruchy krótkoterminowe

    W szeregu czasowym składniki te mają tendencję do powtarzania się w pewnym okresie czasu. Mają nieregularne krótkie serie i wpływają na badane zmienne. Dwa typy kategorii w ramach ruchu krótkoterminowego obejmują:

    Zmiany sezonowe

    Wersje te działają regularnie i okresowo przez okres krótszy niż rok. Zwykle mają podobny lub prawie taki sam wzór w okresie 12 miesięcy. Takie odchylenia stają się częścią szeregu czasowego, jeśli dane są rejestrowane regularnie, tj. co godzinę, codziennie, co tydzień, co miesiąc lub co kwartał.

    Wahania sezonowe są spowodowane przez człowieka lub występują naturalnie. Kluczową rolę w takich zmianach odgrywają różne pory roku lub warunki klimatyczne. Na przykład produkcja roślinna jest całkowicie zależna od pór roku. Podobnie rynek parasoli lub płaszczy przeciwdeszczowych jest zależny od pory deszczowej, podczas gdy sprzedaż lodówek i klimatyzatorów osiąga szczyt w sezonie letnim.

    Do konwencji stworzonych przez człowieka należą festiwale, przyjęcia i okazje, takie jak śluby. Takie krótkotrwałe wydarzenia powtarzają się rok po roku.

    Cykliczne zmiany

    Zmiany szeregów czasowych, które mają tendencję do działania w okresie dłuższym niż rok, nazywane są zmianami cyklicznymi. W przypadku firmy jeden pełny okres jest uważany za „cykl biznesowy”. Skok lub spadek wydajności biznesowej zależy od różnych czynników, takich jak struktura gospodarcza, zarządzanie biznesem i inne współdziałające siły. Te cykliczne zmiany biznesowe mogą być regularne, ale nie okresowe. Ogólnie rzecz biorąc, przedsiębiorstwa przechodzą czterofazowy cykliczny proces, obejmujący dobrobyt, recesję, depresję i ożywienie.

    Takie cykliczne zmiany są integralną częścią wzorca szeregów czasowych, ponieważ rozwój biznesu w dużej mierze opiera się na generowanych „sekwencyjnych punktach danych”.

    Losowe lub nieregularne ruchy

    Losowe składowe powodują znaczną zmienność obserwowanej zmiennej. Są to czysto nieregularne fluktuacje bez ustalonego wzorca. Siły te są nieprzewidziane, nieprzewidywalne i nieprzewidywalne z natury — na przykład trzęsienia ziemi, powodzie, głód i inne katastrofy.

    Zdarzenia losowe opisane powyżej są analizowane przy użyciu źródłowych danych szeregów czasowych, aby lepiej radzić sobie z takimi rzeczywistymi scenariuszami, które mogą wystąpić w przyszłości.

    Rodzaje szeregów czasowych

    Dane szeregów czasowych można podzielić na cztery typy: deterministyczne, niedeterministyczne, stacjonarne i niestacjonarne. Przyjrzyjmy się szczegółowo każdemu typowi.

    # 1. Deterministyczne szeregi czasowe

    Deterministyczny szereg czasowy można opisać wyrażeniem analitycznym. Nie obejmuje aspektów losowych ani probabilistycznych. Matematycznie można to wyrazić dokładnie dla wszystkich przedziałów czasu w postaci rozwinięcia w szereg Taylora. Jest to możliwe, jeśli wszystkie jego pochodne są znane w dowolnym momencie. Te pochodne wyraźnie określają przeszłość i przyszłość w tym czasie. Jeśli wszystkie warunki są spełnione, można dokładnie przewidzieć jego przyszłe zachowanie i przeanalizować, jak zachowywał się w przeszłości.

    #2. Niedeterministyczne szeregi czasowe

    Niedeterministyczny szereg czasowy ma związany z nim losowy aspekt, który uniemożliwia jego jawny opis. W związku z tym wyrażenia analityczne nie są wystarczająco wykonalnymi rozwiązaniami, aby wyrazić takie szeregi czasowe. Szeregi czasowe mogą być niedeterministyczne z następujących powodów:

  • Informacje wymagane do jego opisania nie są dostępne w całości. Chociaż dane mogą być zasadniczo obecne, nie można ich jednoznacznie traktować jako wymiernych.
  • Proces generowania danych ma charakter losowy.
  • Ze względu na czynnik losowy niedeterministyczne szeregi czasowe podlegają prawom probabilistycznym. Dlatego dane są adresowane w kategoriach statystycznych – dane implikujące są definiowane przez rozkłady prawdopodobieństwa i średnie w różnych formach. Obejmuje to środki i miary dyspersji, tj. wariancje.

    #3. Stacjonarne szeregi czasowe

    W stacjonarnych szeregach czasowych właściwości statystyczne, takie jak średnia, wariancja i inne, nie zależą od aspektu czasu. Stacjonarny szereg czasowy jest łatwiejszy do przewidzenia, ponieważ można z całą pewnością stwierdzić, że jego właściwości statystyczne pozostaną takie same, jak obserwowane w przeszłości. Dlatego różne metody prognozowania statystycznego opierają się na argumencie, że szeregi czasowe są prawie stacjonarne. Oznacza to, że szeregi czasowe można w przybliżeniu uznać za stacjonarne, stosując proste przekształcenia matematyczne.

    #4. Niestacjonarne szeregi czasowe

    W szeregu niestacjonarnym właściwości statystyczne zmieniają się w czasie. W związku z tym szeregi czasowe z trendami lub sezonowością mieszczą się w kategorii niestacjonarnej, ponieważ trend i sezonowość mogą wpływać na wartość szeregów czasowych w różnych przedziałach czasowych. Niestacjonarne szeregi czasowe opisują nieprzewidywalne dane, uniemożliwiając ich modelowanie lub prognozowanie.

    https://www.oreilly.com/library/view/hands-on-machine-learning/9781788992282/15c9cc40-bea2-4b75-902f-2e9739fec4ae.xhtml

    Analiza i prognozowanie szeregów czasowych

    Analiza szeregów czasowych i prognozowanie to przydatne narzędzia do obserwacji, analizowania i badania ewolucji i dynamiki procesów życiowych i różnego rodzaju obiektów. Przyjrzyjmy się każdemu z nich głębiej.

    Analiza szeregów czasowych

    Analiza szeregów czasowych jest definiowana jako proces analizy danych zebranych w pewnym okresie czasu. Tutaj analitycy danych rejestrują dane w stałych odstępach czasu przez określony czas. Szybkość obserwacji danych, tj. przedział czasu, może wahać się od sekund do lat.

    Dane szeregów czasowych opisują badane zmienne, ponieważ zapewniają szczegółową analizę wzorca fluktuacji w określonym przedziale czasu. Parametry niezbędne do analizy mogą różnić się w różnych dziedzinach i dyscyplinach. Niektóre przykłady mogą obejmować:

    • Instrumenty naukowe – Dane rejestrowane dziennie
    • Witryna komercyjna — Dzienna liczba wizyt klientów
    • Giełda – wartości akcji tygodniowo
    • Sezon – Deszczowe dni w roku

    Aby zapewnić spójność i niezawodność, analiza szeregów czasowych działa na dużych ilościach punktów danych. Dobra wielkość próby jest subtelnym odzwierciedleniem autentyczności odkrytego trendu lub wzorca.

    Ponadto analiza szeregów czasowych nadaje się również do przewidywania przyszłych zdarzeń na podstawie danych zarejestrowanych w przeszłości.

    Prognozowanie szeregów czasowych

    Analiza szeregów czasowych pozwala organizacjom zidentyfikować pierwotną przyczynę wahań trendów w czasie. Dysponując danymi, przedsiębiorstwa mogą dalej studiować i badać, aby lepiej zrozumieć, jak radzić sobie z nieznanymi trendami i prognozować nadchodzące wydarzenia. Firmy na ogół stosują techniki wizualizacji danych w celu określenia takich anomalii w danych.

    Prognozowanie szeregów czasowych opiera się na dwóch zasadniczych czynnikach:

  • Przewiduj przyszłe wydarzenia na podstawie zachowania danych z przeszłości.
  • Załóżmy, że nadchodzące trendy będą podobne do wzorca danych z przeszłości.
  • W prognozowaniu głównym celem jest zasadniczo przewidywanie, w jaki sposób punkty danych pozostaną takie same lub będą się zmieniać w przyszłości. Oto kilka przykładów z różnych sektorów przemysłu, aby lepiej zrozumieć niuanse analizy szeregów czasowych i prognozowania.

    • Giełda – Prognozowanie ceny akcji na zamknięciu każdego dnia.
    • Sprzedaż — prognozuj sprzedaż produktów w sklepie każdego dnia.
    • Ceny – Prognozowanie średniej ceny paliwa każdego dnia.

    Niektóre z typowych technik statystycznych używanych do prognozowania szeregów czasowych obejmują prostą średnią ruchomą (SMA), wygładzanie wykładnicze (SES), autoregresywną zintegrowaną średnią ruchomą (ARIMA) i sieć neuronową (NN).

    Dane szeregów czasowych w chmurze

    Aby ujawnić wartość danych szeregów czasowych, przedsiębiorstwa powinny mieć możliwość szybkiego przechowywania i wyszukiwania danych. Spółki rynku kapitałowego polegają na dużych wolumenach danych historycznych i strumieniowych, aby przeprowadzać analizy danych w czasie rzeczywistym i podejmować trafne decyzje biznesowe. Może to obejmować przewidywanie wrażliwości cen akcji, określanie wymogów kapitałowych netto lub prognozowanie kursów wymiany. Aby zapewnić elastyczność i bezproblemowe przetwarzanie danych, wiele firm decyduje się na migrację swoich baz danych szeregów czasowych do chmury.

    Dzięki migracji baz danych szeregów czasowych do chmur organizacje mogą uzyskać dostęp do nieograniczonych zasobów na żądanie. Pozwala firmom na wykorzystanie setek rdzeni do realizacji ich zadań, które maksymalizują przepustowość sieci bez problemów z opóźnieniami.

    Bazy danych szeregów czasowych w infrastrukturze chmury są odpowiednie dla obciążeń intensywnie korzystających z mocy obliczeniowej. Obejmuje to wykonywanie obliczeń ryzyka w odpowiedzi na trendy rynkowe w czasie rzeczywistym. Firmy finansowe mogą zrezygnować z narzutów związanych z centrum danych i skoncentrować się na wykorzystaniu zasobów w celu poprawy produktywności swoich obciążeń.

    Dostawcy chmury, tacy jak AWS, zapewniają Amazon Timestream, usługa bazy danych szeregów czasowych, która umożliwia łatwe ładowanie, przechowywanie i analizę zestawów danych szeregów czasowych. Oferują pamięć masową do zarządzania obciążeniami intensywnie transakcyjnymi, narzędzia do analizy w czasie rzeczywistym oraz funkcję strumieniowego przesyłania danych, aby uwzględniać zdarzenia w momencie ich wystąpienia.

    W związku z tym infrastruktura chmury wzmacnia i skaluje korzyści płynące z danych szeregów czasowych.

    Zastosowania szeregów czasowych

    Modele szeregów czasowych służą dwóm celom,

  • Zapoznaj się z podstawowymi czynnikami, które wygenerowały określony wzorzec danych.
  • Na podstawie analizy dopasuj model do prognozowania i monitorowania.
  • Przyjrzyjmy się niektórym przypadkom użycia danych szeregów czasowych w aplikacjach.

    # 1. Szeregi czasowe w domenie finansowej i biznesowej

    Wszystkie decyzje finansowe, biznesowe i inwestycyjne podejmowane są w oparciu o aktualne trendy rynkowe i prognozy popytu. Dane szeregów czasowych służą do wyjaśniania, korelowania i przewidywania dynamicznego rynku finansowego. Eksperci finansowi mogą analizować dane finansowe, aby uzyskać prognozy dla aplikacji, które pomagają ograniczać ryzyko, stabilizować ceny i handel.

    Analiza szeregów czasowych odgrywa kluczową rolę w analizie finansowej. Służy do przewidywania stóp procentowych, prognozowania zmienności na rynkach akcji i wielu innych. Interesariusze biznesowi i decydenci mogą podejmować świadome decyzje dotyczące produkcji, zakupów, alokacji zasobów i optymalizować swoją działalność biznesową.

    Analiza ta jest skutecznie wykorzystywana w sektorze inwestycyjnym do monitorowania kursów papierów wartościowych i ich wahań w czasie. Cenę papieru wartościowego można również obserwować w krótkim okresie (tj. rejestracja danych na godzinę lub dzień) lub w długim okresie (tj. obserwacja rozciągnięta na miesiące lub lata). Analiza szeregów czasowych jest użytecznym narzędziem do śledzenia zachowania się papieru wartościowego, aktywów lub zmiennej ekonomicznej w dłuższym okresie czasu.

    #2. Szeregi czasowe w dziedzinie medycyny

    Opieka zdrowotna szybko staje się dziedziną opartą na danych. Oprócz analizy finansowej i biznesowej dziedzina medyczna w dużym stopniu wykorzystuje analizę szeregów czasowych.

    Rozważmy scenariusz, który wymaga synergii danych szeregów czasowych, medycznie dostosowanych procedur i technik eksploracji danych podczas leczenia pacjentów z rakiem. Taka hybrydowa struktura może być wykorzystana do wykorzystania funkcji ekstrakcji cech z zebranych danych szeregów czasowych (tj. zdjęć rentgenowskich pacjenta) w celu śledzenia postępów pacjenta i odpowiedzi na leczenie zapewniane przez stowarzyszenie medyczne.

    W sektorze opieki zdrowotnej wyciąganie wniosków z ciągle zmieniających się danych szeregów czasowych ma kluczowe znaczenie. Ponadto zaawansowane praktyki medyczne wymagają łączenia dokumentacji pacjentów w czasie w celu uzyskania lepszej widoczności stanu zdrowia pacjenta. Ponadto parametry zdrowotne pacjenta muszą być precyzyjnie rejestrowane w regularnych odstępach czasu, aby mieć wyraźniejszy obraz stanu zdrowia pacjenta.

    Wraz z pojawieniem się zaawansowanych instrumentów medycznych analiza szeregów czasowych ugruntowała swoją pozycję w dziedzinie opieki zdrowotnej. Rozważ poniższe przykłady,

    • Urządzenia EKG: Urządzenia wynalezione do monitorowania warunków pracy serca poprzez rejestrację impulsów elektrycznych serca.
    • Urządzenia EEG: Urządzenia używane do ilościowego określania aktywności elektrycznej w mózgu.

    Takie urządzenia umożliwiły lekarzom przeprowadzanie analizy szeregów czasowych w celu szybszej, skuteczniejszej i dokładniejszej diagnozy medycznej.

    Ponadto, wraz z pojawieniem się urządzeń IoT, takich jak czujniki do noszenia i przenośne urządzenia medyczne, ludzie mogą teraz dokonywać regularnych pomiarów swoich zmiennych zdrowotnych w czasie przy minimalnych nakładach. Prowadzi to do spójnego gromadzenia zależnych od czasu danych medycznych zarówno dla osób chorych, jak i zdrowych.

    #3. Szeregi czasowe w astronomii

    Astronomia i astrofizyka to dwie nowoczesne dyscypliny, w których znacznie wykorzystuje się dane szeregów czasowych.

    Zasadniczo astronomia obejmuje wykreślanie trajektorii obiektów kosmicznych i ciał niebieskich oraz wykonywanie dokładnych pomiarów w celu lepszego zrozumienia wszechświata poza ziemską atmosferą. Ze względu na to wymaganie eksperci astronomiczni są biegli w obsłudze danych szeregów czasowych podczas kalibracji i konfiguracji złożonych instrumentów oraz badania interesujących obiektów astronomicznych.

    Dane szeregów czasowych od dawna kojarzone są z dziedziną astronomii. W 800 rpne szeregi czasowe dotyczące plam słonecznych były zbierane w regularnych odstępach czasu. Od tego czasu zastosowano analizę szeregów czasowych

    • Odkrywaj odległe gwiazdy na podstawie odległości międzygwiezdnych,
    • Obserwuj wydarzenia kosmiczne, takie jak supernowe, aby lepiej zrozumieć pochodzenie naszego wszechświata.

    Dane szeregów czasowych w tym przypadku odnoszą się do długości fal i intensywności światła emitowanego przez gwiazdy, ciała niebieskie lub obiekty. Astronomowie stale monitorują takie dane przesyłane strumieniowo na żywo, aby wykrywać kosmiczne zdarzenia w czasie rzeczywistym, kiedy i kiedy mają one miejsce.

    W ostatnim czasie pojawiły się obszary badawcze, takie jak astroinformatyka i astrostatystyka, które łączą różne dyscypliny, takie jak eksploracja danych, uczenie maszynowe, inteligencja obliczeniowa i statystyka. W tych nowatorskich obszarach badawczych rolą danych szeregów czasowych jest szybkie i skuteczne wykrywanie i klasyfikowanie obiektów astronomicznych.

    #4. Szeregi czasowe w prognozowaniu pogody

    Arystoteles intensywnie badał wzorce pogodowe, aby lepiej zrozumieć przyczyny i skutki obserwowane w zmianach pogody w starożytności. W miarę upływu dni naukowcy zaczęli rejestrować dane związane z pogodą na instrumentach takich jak „barometr”, aby obliczyć zmienne atmosferyczne. Dane zbierano w regularnych odstępach czasu i przechowywano w różnych lokalizacjach.

    Z czasem prognozy pogody zaczęły pojawiać się w gazetach. Szybko do przodu do dzisiejszych czasów, wszechobecne stacje prognozowania pogody są instalowane w różnych lokalizacjach na całym świecie, aby zbierać dokładne zmienne pogodowe.

    Takie stacje mają zaawansowane funkcjonalne urządzenia, które są ze sobą połączone w celu gromadzenia i korelowania danych pogodowych z różnych lokalizacji. Skorelowane dane służą do prognozowania warunków pogodowych w każdym momencie w zależności od wymagań.

    #5. Szeregi czasowe w rozwoju biznesu

    Dane szeregów czasowych umożliwiają firmom podejmowanie decyzji biznesowych. Osiąga się to, gdy proces analizuje dane z przeszłości, aby wyprowadzić przyszłe zdarzenia i rzucić światło na prawdopodobne możliwości. Wzorzec danych z przeszłości jest używany do uzyskania następujących parametrów:

    • Rozwój firmy: Aby ocenić ogólne wyniki finansowe i biznesowe oraz zmierzyć wzrost, najbardziej odpowiednim i niezawodnym zasobem są dane szeregów czasowych.
    • Oszacuj trend: Do oszacowania pojawiających się trendów można zastosować różne metody szeregów czasowych. Rozważmy na przykład, że te metody analizują obserwacje danych w pewnym okresie czasu, aby zastanowić się nad wzrostem lub spadkiem sprzedaży określonego urządzenia elektronicznego.
    • Odkryj wzorce sezonowe: Zarejestrowane punkty danych mogą ujawnić wahania i wzorce sezonowe, które mogą pomóc w prognozowaniu danych. Uzyskane dane odgrywają kluczową rolę dla rynków, na których ceny produktów podlegają sezonowym wahaniom. Takie dane mogą pomóc przedsiębiorstwom w lepszym planowaniu i opracowywaniu produktów.

    Wniosek 👨‍🏫

    Podsumowując, dane szeregów czasowych można postrzegać jako charakterystykę złożonych punktów danych zebranych w stałym okresie czasu. Analiza szeregów czasowych, modelowanie i prognozowanie stały się integralną częścią naszego codziennego życia wraz z pojawieniem się gadżetów IoT, inteligentnych urządzeń domowych i urządzeń przenośnych. Poza tym dane szeregów czasowych znajdują zastosowanie w różnych dziedzinach, w tym w opiece zdrowotnej, astrofizyce, ekonomii, inżynierii, biznesie i wielu innych.