Test Kołmogorowa - Smirnoff (K-S)

Test Kołmogorowa-Smirnoffa (K-S) jest testem nieparametrycznym, którego celem jest ustalenie, czy częstotliwość dwóch różnych zestawów danych ma taki sam rozkład wokół ich średniej.

Innymi słowy, test Kołmogorowa-Smirnoffa (K-S) jest testem, który dostosowuje się do kształtu danych i służy do sprawdzenia, czy dwie różne próbki mają ten sam rozkład.

Dlaczego jest to test nieparametryczny?

Piękno „nieparametrycznej” charakterystyki polega na tym, że pasuje ona do danych, a w konsekwencji do rozkładów, które mogą podążać za częstotliwością danych. Ponadto ta funkcja oszczędza nam konieczności zakładania apriorycznie jaki rozkład ma próbka.

Znaczenie testu K-S

Ile razy otrzymaliśmy dwie próbki i bez zastanowienia obliczyliśmy współczynnik korelacji Pearsona? Innymi słowy, jeśli chcemy zobaczyć liniową zależność między dwoma zestawami danych, sprawiedliwe byłoby obliczenie korelacji, prawda?

To odliczenie byłoby prawdziwe, gdyby rozkłady dwóch próbek były zgodne z rozkładem normalnym. Współczynnik korelacji zakłada, że ​​rozkłady są normalne, jeśli pominiemy to założenie, wynik współczynnika korelacji jest błędny. W przypadku testów hipotez i przedziałów ufności zakładamy również, że populacja ma rozkład normalny.

Podobnie jak we wszystkich testach hipotez, które obejmują statystyki, ważne jest posiadanie dużej ilości danych, aby uzyskać statystycznie istotne wyniki. Możemy błędnie odrzucić hipotezę zerową, ponieważ próba jest mała. Ponadto ważne jest również, aby ta próbka miała kilka skrajnych przypadków (odstające, w języku angielskim), aby zapewnić spójność wyników testu.

Procedura testowa

Procedura kolejnych kroków.

Hipoteza

Pierwszym krokiem będzie sprawdzenie, czy obie próbki mają ten sam rozkład. Aby to zrobić, przeprowadzamy test hipotezy zakładając, że obie próbki mają ten sam rozkład w porównaniu z alternatywną hipotezą, że są różne.

Statystyczny

Pracujemy z dystrybuantami dwóch próbek, F1(x) i F2(x):

Nie panikować! Powyższy wzór analizujemy spokojnie:

  • Ważną częścią formuły jest znak różnicy (-). Poszukujemy pionowych różnic w rozkładach. Tak więc odejmiemy obie funkcje dystrybucji skumulowanej.
  • operator "maks". Jesteśmy zainteresowani znalezieniem największej lub maksymalnej różnicy, aby zobaczyć, jak różne mogą być te dwie dystrybucje.
  • całkowita wartość. Używamy wartości bezwzględnej, aby kolejność operatorów nie zmieniała wyniku. Innymi słowy, nie ma znaczenia, który F (x) ma znak ujemny:

Krytyczna wartość

Dla dużych próbek istnieje przybliżenie do wartości krytycznej dla K-S, które zależy od poziomu istotności (%):

Gdzie1 oraz n2 są wielkością próbki dla próbki F1(x) i F2(x) odpowiednio.

Niektóre obliczone wartości krytyczne:

Zasada odrzucenia

Aplikacja

Bardzo często chcemy przetestować, czy dwa rozkłady wystarczająco różnią się od siebie, gdy chcemy zbudować scenariusze predykcyjne (pracujemy z dwiema próbkami) lub gdy chcemy ocenić, który rozkład najlepiej pasuje do danych (pracujemy tylko z jedną próbką).