Outlier - Co to jest, definicja i pojęcie

Wartość odstająca to nienormalna i ekstremalna obserwacja w statystycznej próbce lub szeregach czasowych danych, która może potencjalnie wpłynąć na szacowanie jej parametrów.

Mówiąc prościej, wartością odstającą byłaby obserwacja w próbce lub szereg czasowy danych, która nie jest spójna z resztą. Wyobraź sobie na przykład, że mierzymy wzrost uczniów w klasie.

Wyobraźmy sobie próbkę 10 uczniów. Wysokość każdego jest następująca:

Próbka 1
Student	Wysokość w metrach
1	1,65
2	1,80
3	1,72
4	1,68
5	1,75
6	1,85
7	1,62
8	1,79
9	1,82
10	1,69

Średnia wysokość klasy wynosiłaby 1,73. Jeśli weźmiemy pod uwagę wysokość maksymalną (1,85) i minimalną (1,62) oraz odległość między nimi do średniej, widzimy, że wynosi ona odpowiednio 0,113 i 0,117. Jak widać, średnia znajduje się w przybliżeniu w środku przedziału i można ją uznać za dość dobre oszacowanie.

Efekt odstający

Pomyślmy teraz o kolejnej próbce 10 uczniów, których wzrost jest następujący:

Próbka 1
Student	Wysokość w metrach
1	1,65
2	1,80
3	1,72
4	1,68
5	2,18
6	2,20
7	1,62
8	1,79
9	1,75
10	1,69

W tym przypadku średnia wysokość klasy wynosiłaby 1,81. Jeśli teraz spojrzymy na wysokość maksymalną (2,20) i minimalną (1,62) oraz odległość między nimi do średniej, zobaczymy, że wynosi ona odpowiednio 0,39 i 0,18. W tym przypadku średnia nie znajduje się już w przybliżeniu w środku zakresu.

Efekt 2 skrajnych obserwacji (2,18 i 2,20) spowodował przesunięcie średniej arytmetycznej w kierunku maksymalnej wartości rozkładu.

W tym przykładzie widzimy efekt, jaki mają wartości odstające i jak mogą zniekształcać obliczenia średniej.

Jak wykrywać wartości odstające?

Jak skorygować efekt wartości odstających

W sytuacjach takich jak ta, w których występują nienormalne wartości, które znacznie różnią się od pozostałych, mediana jest lepszym oszacowaniem, aby wiedzieć, w którym punkcie koncentruje się większa liczba obserwacji.

W przypadku obu rozkładów i ponieważ mamy parzystą liczbę wartości, nie możemy wziąć dokładnie wartości, która zmniejsza rozkład o połowę, aby obliczyć medianę. Z którym po uporządkowaniu wartości od najniższej do najwyższej wzięlibyśmy obserwację piątą i szóstą (obie zostawiają po 4 obserwacje z każdej strony) i obliczylibyśmy medianę w następujący sposób:

Próbka 1:

1,75+1,72/2 = 1,73

Próbka 2:

1,79+1,71/2 = 1,75

Jak widać, w próbie nr 1, biorąc pod uwagę, że nie ma wartości odstających ani nieprawidłowych obserwacji, mediana wynosi 1,73 i pokrywa się ze średnią. Wręcz przeciwnie, dla próbki 2 średnia wynosi 1,75. Jak widzimy, ta wartość jest dalej od średniej wysokości, która wynosiła 1,81 i daje nam wyższą ocenę punktową, aby wiedzieć w przybliżeniu, w którym punkcie koncentruje się większa liczba obserwacji.

Punktowe oszacowanie

Outlier - Co to jest, definicja i pojęcie

Efekt odstający

Jak skorygować efekt wartości odstających

Popularne Wiadomości

Ostrzeżenie o zyskach - co to jest, definicja i pojęcie

Empatia - Co to jest, definicja i pojęcie

Obrót aktywów – co to jest, definicja i pojęcie

Przełomowa innowacja – co to jest, definicja i koncepcja

Najpopularniejsze Artykuły

Dane - Co to jest, definicja i pojęcie

Azar - Co to jest, definicja i pojęcie

Konserwacja - Co to jest, definicja i koncepcja

Hiszpańskie banki inwestują w Bitcoiny

Toroid - Co to jest, definicja i pojęcie

Popularne w miesiącu

Wojna w Iraku - Co to jest, definicja i pojęcie

Bank przemysłowy - Co to jest, definicja i pojęcie

Fundusz Solidarności - Co to jest, definicja i pojęcie

Urzędnik służby cywilnej - Co to jest, definicja i pojęcie

Voucher do zrealizowania - Co to jest, definicja i koncepcja

Dolus generalis - Co to jest, definicja i pojęcie

Rozporządzenie - Co to jest, definicja i pojęcie

Akcja subrogacji - Co to jest, definicja i pojęcie

Działanie proceduralne - Co to jest, definicja i pojęcie

Narodowy Bank Robót Publicznych i Usług (Banobras)

Walne zgromadzenie partnerów - Co to jest, definicja i koncepcja

Instytut Rachunkowości i Audytu (ICAC)

Wektory i wartości własne - Co to jest, definicja i pojęcie