Znak statystyczny – co to jest, definicja i pojęcie

Spisie treści:

Anonim

Próba statystyczna to podzbiór danych należących do populacji danych. Statystycznie rzecz biorąc, musi składać się z pewnej liczby obserwacji, które adekwatnie reprezentują całość danych.

Statystyka, jako dział matematyki, odpowiada za zbieranie danych, porządkowanie i analizowanie ich. Innymi słowy, gdy chcemy zbadać pewne zjawisko, zwracamy się do statystyki. Dobrym przykładem zjawiska badanego przez statystykę jest średnia pensja obywateli danego kraju

W tym sensie ze względu na czas i koszty nie możemy zebrać wszystkich danych. Ta całość danych to tak zwana populacja danych lub po prostu populacja.

Dlaczego pracujesz z próbkami statystycznymi?

Aby wyjaśnić, dlaczego używana jest próba statystyczna zamiast całej populacji, odwołamy się do powyższego przykładu.

Załóżmy, że chcemy zbadać dowolne zjawisko. W naszym przypadku tym zjawiskiem jest średnia pensja obywateli danego kraju. Populacja danych składa się z każdego pracownika w kraju. Oczywiście ze względu na czas i koszty niemożliwe byłoby zapytanie każdego pracownika o jego roczne wynagrodzenie. Zajęłoby to dużo czasu lub potrzebowalibyśmy dużo zasobów.

W tym miejscu pojawia się pojęcie próby statystycznej. Zamiast pytać miliony pracowników w kraju lub regionie, zbieramy tylko niewielką ilość danych. Na przykład poprosiliśmy 100 000 osób. To zadanie jest nadal skomplikowane, ale znacznie taniej jest poprosić 100 000 osób niż poprosić o 30 milionów.

Ta niewielka ilość danych musi być reprezentatywna. Oznacza to, że musi odpowiednio reprezentować populację. Jeśli 100 000 osób, o które pytaliśmy, koncentruje się w bogatych dzielnicach, otrzymamy dane, które nie są reprezentatywne. Średnia pensja byłaby znacznie wyższa niż jest w rzeczywistości.

Charakterystyka reprezentatywnej próby statystycznej

Jeśli chcesz zrobić dobre badania, jakość próby statystycznej jest niezbędna. Jeśli próba statystyczna jest stronnicza, wykonywanie najbardziej złożonych metryk statystycznych za pomocą najbardziej wyrafinowanych modeli jest bezużyteczne. To znaczy, jeśli próbka nie jest reprezentatywna.

Pozyskując reprezentatywną próbkę, są pewne aspekty, które badacz musi znać z wyprzedzeniem. Wśród tych aspektów są cechy reprezentatywnej próby. Charakterystyka reprezentatywnej próbki jest następująca:

  • Wystarczająco duży rozmiar: Kiedy pracujemy z próbkami, zwykle pracujemy z ilością danych mniejszą niż populacja. Aby jednak próba statystyczna była reprezentatywna, musi być wystarczająco duża, aby można ją było uznać za reprezentatywną. Na przykład, jeśli nasza populacja składa się z 10 milionów danych i wybierzemy 10, trudno jest jej być reprezentatywną. Oczywiście im większa próba nie zawsze jest bardziej reprezentatywna.
  • Losowość: Dobór danych z próby statystycznej musi być losowy. Oznacza to, że musi być całkowicie losowy. Jeśli zamiast robić to losowo, przeprowadzamy zaplanowany proces selekcji danych, wprowadzamy stronniczość do zbierania danych. Dlatego, aby uniknąć tendencyjności próby, a co za tym idzie, aby była próbą reprezentatywną, musimy dokonać doboru losowego.

Wnioskowanie statystyczne

Po uzyskaniu próby mamy reprezentatywną próbę, wtedy konieczne jest wywnioskowanie pewnych metryk. Często interesuje nas poznanie pewnej miary zmiennej. W początkowym przykładzie zmienną byłaby pensja obywateli danego kraju. W tym sensie miarą, którą chcemy analizować, jest średnia pensja obywateli danego kraju.

Innymi słowy, mamy populację danych składającą się z wszystkich pracowników w Meksyku. Z tej populacji otrzymujemy zmienną, czyli roczne wynagrodzenie. Stosując odpowiednie techniki uzyskujemy reprezentatywną próbkę. I wreszcie, gdy mamy już zestaw danych, z którym możemy pracować, używamy technik wnioskowania statystycznego do obliczenia średniej pensji.

Oczywiście, gdy już mamy zestaw danych, możemy wywnioskować inne miary. Na przykład, jak rozkłada się wynagrodzenie, jaki procent pracowników jest poniżej określonej pensji lub jak duża jest różnica płac.

Przykład próbki statystycznej

Załóżmy, że chcemy przeprowadzić badanie dotyczące średnich wydatków rodzin kolumbijskich w styczniu. Do tego mamy dwie opcje:

  1. Wprowadź konta bankowe wszystkich rodzin w Kolumbii
  2. Zapytaj reprezentatywną liczbę osób

Pierwsza opcja jest nieopłacalna z kilku powodów. Po pierwsze, że rodziny nie podadzą swoich danych, a po drugie, że nie możemy też przejść do rodziny po rodzinie patrząc na dane. Głównie dlatego, że populacja Kolumbii jest bliska 50 mln. Tymczasem druga to możliwość pobrania próbki statystycznej.

To, co zrobimy, kierując się powyższymi cechami, to poproszenie 100 000 rodzin. Jest to nieco skomplikowane, ale o wiele łatwiejsze niż zapytanie 50 milionów Kolumbijczyków. Różnica jest znaczna. Na podstawie tej próby 100 000 rodzin spróbujemy zatem obliczyć średnie wydatki rodzin w styczniu.

Wyodrębnione dane będą mniej lub bardziej wiarygodne zgodnie z szeregiem wskaźników, które są brane pod uwagę w badaniach statystycznych. Oczywiście tego typu metryki są bardziej zaawansowane i dlatego nie będziemy ich tutaj omawiać.