Wartość odstająca to nienormalna i ekstremalna obserwacja w statystycznej próbce lub szeregach czasowych danych, która może potencjalnie wpłynąć na szacowanie jej parametrów.
Mówiąc prościej, wartością odstającą byłaby obserwacja w próbce lub szereg czasowy danych, która nie jest spójna z resztą. Wyobraź sobie na przykład, że mierzymy wzrost uczniów w klasie.
Wyobraźmy sobie próbkę 10 uczniów. Wysokość każdego jest następująca:
Próbka 1 | |
Student | Wysokość w metrach |
1 | 1,65 |
2 | 1,80 |
3 | 1,72 |
4 | 1,68 |
5 | 1,75 |
6 | 1,85 |
7 | 1,62 |
8 | 1,79 |
9 | 1,82 |
10 | 1,69 |
Średnia wysokość klasy wynosiłaby 1,73. Jeśli weźmiemy pod uwagę wysokość maksymalną (1,85) i minimalną (1,62) oraz odległość między nimi do średniej, widzimy, że wynosi ona odpowiednio 0,113 i 0,117. Jak widać, średnia znajduje się w przybliżeniu w środku przedziału i można ją uznać za dość dobre oszacowanie.
Efekt odstający
Pomyślmy teraz o kolejnej próbce 10 uczniów, których wzrost jest następujący:
Próbka 1 | |
Student | Wysokość w metrach |
1 | 1,65 |
2 | 1,80 |
3 | 1,72 |
4 | 1,68 |
5 | 2,18 |
6 | 2,20 |
7 | 1,62 |
8 | 1,79 |
9 | 1,75 |
10 | 1,69 |
W tym przypadku średnia wysokość klasy wynosiłaby 1,81. Jeśli teraz spojrzymy na wysokość maksymalną (2,20) i minimalną (1,62) oraz odległość między nimi do średniej, zobaczymy, że wynosi ona odpowiednio 0,39 i 0,18. W tym przypadku średnia nie znajduje się już w przybliżeniu w środku zakresu.
Efekt 2 skrajnych obserwacji (2,18 i 2,20) spowodował przesunięcie średniej arytmetycznej w kierunku maksymalnej wartości rozkładu.
W tym przykładzie widzimy efekt, jaki mają wartości odstające i jak mogą zniekształcać obliczenia średniej.
Jak wykrywać wartości odstające?Jak skorygować efekt wartości odstających
W sytuacjach takich jak ta, w których występują nienormalne wartości, które znacznie różnią się od pozostałych, mediana jest lepszym oszacowaniem, aby wiedzieć, w którym punkcie koncentruje się większa liczba obserwacji.
W przypadku obu rozkładów i ponieważ mamy parzystą liczbę wartości, nie możemy wziąć dokładnie wartości, która zmniejsza rozkład o połowę, aby obliczyć medianę. Z którym po uporządkowaniu wartości od najniższej do najwyższej wzięlibyśmy obserwację piątą i szóstą (obie zostawiają po 4 obserwacje z każdej strony) i obliczylibyśmy medianę w następujący sposób:
Próbka 1:
1,75+1,72/2 = 1,73
Próbka 2:
1,79+1,71/2 = 1,75
Jak widać, w próbie nr 1, biorąc pod uwagę, że nie ma wartości odstających ani nieprawidłowych obserwacji, mediana wynosi 1,73 i pokrywa się ze średnią. Wręcz przeciwnie, dla próbki 2 średnia wynosi 1,75. Jak widzimy, ta wartość jest dalej od średniej wysokości, która wynosiła 1,81 i daje nam wyższą ocenę punktową, aby wiedzieć w przybliżeniu, w którym punkcie koncentruje się większa liczba obserwacji.
Punktowe oszacowanie