Analiza wariancji (ANOVA) wyjaśniona w mniej niż 5 minut

Analiza wariancji jest jedną z metod stosowanych w testowaniu hipotez. Metoda ta odgrywa kluczową rolę w podejmowaniu decyzji w biznesie w oparciu o dane.

Jednakże, podobnie jak większość pojęć w matematyce, często jest ono owiane żargonem i notacją matematyczną, co może początkowo wydawać się onieśmielające. Celem tego artykułu jest wyjaśnienie Ci analizy wariancji. Więc zacznijmy.

Wprowadzenie do analizy wariancji (ANOVA)

Zanim zaczniemy omawiać ANOVA, ważne jest zdefiniowanie i wyjaśnienie kilku terminów, aby ustalić pewne słownictwo. Zacznijmy więc od kilku bardzo kluczowych terminów: populacja, próba, wariancja i hipoteza.

Populacja

W statystyce populacja to cały zbiór, na podstawie którego można dokonywać obserwacji. Na przykład, gdybyśmy chcieli obliczyć średnią wielkość liścia konkretnego gatunku drzewa, populacja obejmowałaby wszystkie liście drzew tego gatunku. Byłoby to jednak kosztowne, jeśli nie niemożliwe. Zamiast tego używamy próbki.

Próbka

Próba to podzbiór populacji reprezentatywny dla populacji. Dlatego należy wybrać próbę losową z różnych części populacji. Próba jest wygodniejsza niż populacja, ponieważ zostanie dokonanych mniej obserwacji.

Zmienność

Wariancja mierzy, jak bardzo wartości w zbiorze danych różnią się od średniej. Niska wariancja oznacza, że ​​wartości są zbliżone do średniej, a wysoka oznacza, że ​​różnią się znacznie od średniej.

Hipoteza

Hipoteza to stwierdzenie mające na celu wyjaśnienie czegoś. Nie ma żadnych założeń co do tego, czy jest to prawda, czy nie. Zamiast tego eksperymenty mają na celu udowodnienie, że nie wiadomo, czy jest to fałszywe.

W ANOVA mamy do czynienia z dwoma rodzajami hipotez – zerową i alternatywną. Hipoteza zerowa wyraża, że ​​nie ma różnicy między grupami, podczas gdy alternatywa mówi, że istnieje. Po teście uznamy jedno z nich za prawdziwe.

Analiza wariancji (ANOVA) to metoda statystyczna stosowana do sprawdzania, czy zmiana zmiennej niezależnej spowodowała zmianę zmiennej zależnej. Krótko mówiąc, określa, czy istnieją istotne różnice między wynikami różnych niezależnych grup.

Na przykład test ANOVA może określić, czy różne strony docelowe sprawiły, że odwiedzający spędzali więcej czasu na czytaniu Twojej witryny. W takim przypadku pokazałbyś różne projekty stron docelowych różnym użytkownikom swojej witryny.

Dla każdej sesji będziesz rejestrować czas spędzony przez użytkownika. Na koniec przeprowadzisz test ANOVA, aby sprawdzić, czy wyniki każdej próbki znacząco różnią się od pozostałych.

ANOVA jest jedną z wielu metod stosowanych do testowania hipotez. Inne popularne metody obejmują testy t, testy z i testy chi-kwadrat. Główna różnica między tymi testami polega na tym, gdzie i kiedy są stosowane.

Rodzaje Anovy

Istnieją różne typy testów ANOVA. Istnieje test jednokierunkowy i dwukierunkowy test ANOVA.

  • Test jednokierunkowy – w teście jednokierunkowym istnieje tylko jedna zmienna niezależna i staramy się ustalić, czy zmiany tej zmiennej spowodowały zmiany zmiennej zależnej, które są istotne statystycznie.
  • Test dwukierunkowy – w teście dwukierunkowym istnieje wiele zmiennych niezależnych. Test ten jest często nazywany MANOVA, gdzie M oznacza wielokrotność.

W następnej sekcji wyjaśnię wzór testu ANOVA.

Wzór testu ANOVA

Test ANOVA określa, czy istnieją znaczące różnice pomiędzy wartościami z różnych grup lub próbek. Podobnie jak w przypadku wszystkich testów hipotez, musimy najpierw ustalić hipotezy zerowe i alternatywne.

W przypadku testu ANOVA hipoteza zerowa dla tego testu byłaby taka, że ​​nie ma znaczących różnic pomiędzy różnymi grupami wartości.

Alternatywną hipotezą byłoby stwierdzenie, że istnieją znaczące różnice między co najmniej jedną parą grup w zbiorze danych.

Wzór ANOVA oblicza wartość f. Wartość ta jest stosunkiem średniej sumy kwadratów wynikającej z leczenia (MST) i średniej sumy kwadratów wynikającej z błędu (MSE).

F=MST/MSE

Zasadniczo MST reprezentuje wariancję między średnimi próbek. Jest to różnica pomiędzy grupami. MSE reprezentuje wariancję w obrębie próbek. Jest to zróżnicowanie wewnątrzgrupowe.

Aby zachować to jako wprowadzenie w prostym języku angielskim, nie będę wchodził dalej w formułę. Jest to również niepotrzebne, ponieważ istnieje oprogramowanie, które obliczy za Ciebie ANOVA.

Ostatecznie, jeśli wynik tej wartości F jest bliski 1, wówczas nie ma znaczącej różnicy; dlatego hipoteza zerowa zostanie przyjęta. W przeciwnym razie hipoteza zerowa zostanie odrzucona.

ANOVA vs. inne testy

Jak wspomniano wcześniej, ANOVA jest jedną z metod stosowanych w testowaniu hipotez. Istnieją inne metody, takie jak testy t i testy z. Wybór testu do zastosowania w danym scenariuszu zależy od sytuacji.

  • Test t porównuje średnią próbki ze średnią znanej populacji, gdy odchylenie standardowe jest nieznane.
  • Test z przypomina test t, ponieważ porównuje średnią próbki ze średnią znanej populacji. Jednakże w teście z znane jest odchylenie standardowe.
  • Do określenia niezależności dwóch zmiennych niezależnych stosuje się test chi-kwadrat.

Następnie omówimy znaczenie analizy wariancji.

Znaczenie analizowania wariancji

ANOVA pozwala nam porównać średnie dla wielu grup lub warunków, umożliwiając określenie, czy zaobserwowane różnice są istotne statystycznie, czy po prostu wynikają z przypadku. Ma to kluczowe znaczenie w wielu dziedzinach, takich jak statystyka, badania i projektowanie eksperymentów, ponieważ pomaga nam zrozumieć źródła zmienności w zbiorach danych.

Analiza wariancji pomaga określić związek przyczynowy między różnymi czynnikami. Jest to ważne przy podejmowaniu decyzji w oparciu o dane, a także mierzeniu postępów. ANOVA pomaga w dokonywaniu porównań między wieloma grupami.

Rozkładając całkowitą wariancję na różne składniki, które można przypisać różnym czynnikom, analiza ANOVA umożliwia nam identyfikację, które czynniki znacząco wpływają na zaobserwowane różnice.

Niektóre z najczęstszych przypadków użycia ANOVA są wymienione w następnej sekcji.

Przypadki użycia ANOVA

Analiza wariancji jest niezwykle przydatna w biznesie. Pomaga podejmować lepsze i bardziej świadome decyzje. Niektóre z typowych przypadków użycia ANOVA obejmują:

❇️ Testowanie różnych wersji produktów, aby zobaczyć, która wersja podoba się klientom bardziej i chętniej ją kupią.

❇️ Znalezienie najskuteczniejszej reklamy dla Twoich kampanii reklamowych, która doprowadzi do najwyższych współczynników konwersji.

❇️ Prowadząc badania rynku starasz się określić, które czynniki w największym stopniu wpływają na zachowania klientów.

❇️ Wypróbowywanie różnych strategii utrzymania klientów, aby określić, która prowadzi do najniższego wskaźnika rezygnacji.

❇️ Określenie czynników, które przyczyniają się i powodują zmiany cen akcji.

Ostatnie słowa

Artykuł ten służył jako krótkie wprowadzenie do ANOVA. Omówiliśmy, czym jest, jakie jest jego znaczenie i w jakich przypadkach test może być przydatny.

Następnie zapoznaj się z narzędziami analitycznymi i badawczymi dla analityków danych.