Wykryj wartości odstające za pomocą rozkładu normalnego

Wykrywanie wartości odstających poprzez rozkład normalny to proces, który polega na zdefiniowaniu progu odchylenia standardowego i za pomocą którego ma znaleźć się wartości ekstremalne próbki.

Innymi słowy, wykrywanie wartości odstających poprzez rozkład normalny polega na znalezieniu ekstremalnych wartości zbioru danych za pomocą standardowej formuły normalnej.

  • Wartości skrajności są nazywane odstające po angielsku.
  • Wartości wewnętrzny są nazywane wtajemniczeni po angielsku.

Wizualne wykrywanie wartości odstających może być opcją, gdy masz bardzo mało danych. Podczas pracy z bazami danych bardzo niepraktyczne jest ręczne wyszukiwanie wartości odstających. Aby rozwiązać ten problem, możemy obliczyć, które wartości są uważane za skrajne, porównując z progiem odchyleń.

W przypadku rozkładu normalnego wartość uważa się za ekstremalną, gdy jest ona oddalona o 3 odchylenia standardowe od średniej. Ponieważ rozkład normalny ma 2 ogony, musimy wziąć pod uwagę, że można go oddalić zarówno po stronie ujemnej, jak i dodatniej.

Formuła do wykrywania wartości odstających przy użyciu rozkładu normalnego

Zbiór obserwacji można wyrazić w poprzedni sposób, gdzie x jest wartością średnią, powyżej której oscylują wartości, a sigma rozrzutu oscylacji tych wartości. Innymi słowy, sigma to odległość obserwacji od wartości średniej.

Czynnik multiplikatywny określa, czy jest to odstający, czy wewnętrzny. Jeśli z przyjmie wartości 3 lub -3, to zgodnie z rozkładem normalnym obserwacja y będzie wartością odstającą.

Aby poznać wartość z używamy poprzedniego równania:

  • Jeśli z> = 3 lub z = <-3, to zgodnie z rozkładem normalnym możemy powiedzieć, że Tak jest to wartość ekstremalna lub odstająca.
  • Jeśli z <3 lub z <-3, to zgodnie z rozkładem normalnym możemy powiedzieć, że Tak jest wartością wewnętrzną lub informatorem.

Normalny standard

Czy powyższe równanie jest znajome?

Dokładnie, jest to wyraz obserwacji, która ma rozkład normalny po standaryzacji lub typowaniu. Nazywa się to w ten sposób, ponieważ przy dzieleniu przez odchylenie standardowe lub odchylenie standardowe różnica licznika jest wyrażana w postaci odchyleń.

Z tego powodu możemy powiązać wartości odchyleń do z a tym samym móc go kupić z progiem 3 odchyleń.

Przykład

Znajdź skrajne wartości następujących obserwacji zgodnie z rozkładem normalnym:

Obserwacje przedstawiamy na wykresie:

Już na samym początku widzimy, że wartość najbardziej odległa od reszty może najprawdopodobniej być wartością odstającą.

Najpierw obliczamy średnią i odchylenie standardowe:

x = średnia = 5,8

sigma = odchylenie standardowe = 10,51

Następnie podstawiamy wartości do wzoru i obliczamy wartość z dla każdej obserwacji:

Powyższe wartości są multiplikatywnymi czynnikami sigma, czyli z. Wszystko, co jest większe niż 3 lub mniejsze niż -3, będzie wartością ekstremalną.

Widzimy, że wartość z który przekracza 3 odchylenia standardowe odpowiada obserwacji 49.

W związku z tym wartość ekstremalna lub odstająca zbioru danych wynosiłaby 49.

Będziesz pomóc w rozwoju serwisu, dzieląc stronę ze swoimi znajomymi

wave wave wave wave wave