Outlier - Co to jest, definicja i pojęcie

Spisie treści:

Outlier - Co to jest, definicja i pojęcie
Outlier - Co to jest, definicja i pojęcie
Anonim

Wartość odstająca to nienormalna i ekstremalna obserwacja w statystycznej próbce lub szeregach czasowych danych, która może potencjalnie wpłynąć na szacowanie jej parametrów.

Mówiąc prościej, wartością odstającą byłaby obserwacja w próbce lub szereg czasowy danych, która nie jest spójna z resztą. Wyobraź sobie na przykład, że mierzymy wzrost uczniów w klasie.

Wyobraźmy sobie próbkę 10 uczniów. Wysokość każdego jest następująca:

Próbka 1
StudentWysokość w metrach
11,65
21,80
31,72
41,68
51,75
61,85
71,62
81,79
91,82
101,69

Średnia wysokość klasy wynosiłaby 1,73. Jeśli weźmiemy pod uwagę wysokość maksymalną (1,85) i minimalną (1,62) oraz odległość między nimi do średniej, widzimy, że wynosi ona odpowiednio 0,113 i 0,117. Jak widać, średnia znajduje się w przybliżeniu w środku przedziału i można ją uznać za dość dobre oszacowanie.

Efekt odstający

Pomyślmy teraz o kolejnej próbce 10 uczniów, których wzrost jest następujący:

Próbka 1
StudentWysokość w metrach
11,65
21,80
31,72
41,68
52,18
62,20
71,62
81,79
91,75
101,69

W tym przypadku średnia wysokość klasy wynosiłaby 1,81. Jeśli teraz spojrzymy na wysokość maksymalną (2,20) i minimalną (1,62) oraz odległość między nimi do średniej, zobaczymy, że wynosi ona odpowiednio 0,39 i 0,18. W tym przypadku średnia nie znajduje się już w przybliżeniu w środku zakresu.

Efekt 2 skrajnych obserwacji (2,18 i 2,20) spowodował przesunięcie średniej arytmetycznej w kierunku maksymalnej wartości rozkładu.

W tym przykładzie widzimy efekt, jaki mają wartości odstające i jak mogą zniekształcać obliczenia średniej.

Jak wykrywać wartości odstające?

Jak skorygować efekt wartości odstających

W sytuacjach takich jak ta, w których występują nienormalne wartości, które znacznie różnią się od pozostałych, mediana jest lepszym oszacowaniem, aby wiedzieć, w którym punkcie koncentruje się większa liczba obserwacji.

W przypadku obu rozkładów i ponieważ mamy parzystą liczbę wartości, nie możemy wziąć dokładnie wartości, która zmniejsza rozkład o połowę, aby obliczyć medianę. Z którym po uporządkowaniu wartości od najniższej do najwyższej wzięlibyśmy obserwację piątą i szóstą (obie zostawiają po 4 obserwacje z każdej strony) i obliczylibyśmy medianę w następujący sposób:

Próbka 1:

1,75+1,72/2 = 1,73

Próbka 2:

1,79+1,71/2 = 1,75

Jak widać, w próbie nr 1, biorąc pod uwagę, że nie ma wartości odstających ani nieprawidłowych obserwacji, mediana wynosi 1,73 i pokrywa się ze średnią. Wręcz przeciwnie, dla próbki 2 średnia wynosi 1,75. Jak widzimy, ta wartość jest dalej od średniej wysokości, która wynosiła 1,81 i daje nam wyższą ocenę punktową, aby wiedzieć w przybliżeniu, w którym punkcie koncentruje się większa liczba obserwacji.

Punktowe oszacowanie