Błąd w zbieraniu danych występuje, gdy błędnie wybieramy osoby, które będą należeć do losowej próby objętej analizą.
Mamy problem, gdy ten dobór sprawia, że próba losowa nie jest reprezentatywna dla populacji statystycznej. A zatem każdy wynik, który otrzymujemy z próby jest obciążony i nie mogliśmy stwierdzić, że został spełniony w analizowanej populacji.W ramach tego błędu możemy wyróżnić różne typy, co wyjaśnimy poniżej.
Błąd przeżycia
Występuje, gdy dane są wykluczone z analizy, ponieważ nie istnieją już w momencie analizy.
Innymi słowy, skupiamy się tylko na istniejących danych i odrzucamy te, które wcześniej istniały w populacji. W praktyce istnieje wiele przykładów tego typu stronniczości. Jednym z nich jest przeprowadzanie ankiet tylko dla klientów firmy, wykluczając potencjalnych klientów. Inną byłaby ocena zachowania indeksów giełdowych, eliminując z analizy spółki, które były i nie są w tym indeksie.
Rozwiązanie tego błędu jest bardzo proste. Przeprowadź badanie ze wszystkimi danymi, istniejącymi i wcześniej istniejącymi.
uprzedzenie
Występuje, gdy analiza jest wykonywana przy użyciu danych, które nie są dostępne w czasie analizy. Przykładem może być analiza relacji ceny akcji do jakiejś zmiennej bilansu finansowego. Cena akcji jest dynamiczną zmienną, o ile w momencie analizy posiadamy prawidłowe informacje. Jednak zmienne ustalone w bilansie są statyczne i dlatego należy poczekać na publikację sprawozdań finansowych do tej analizy.
Załóżmy, że chcemy zbadać zależność między ceną a kapitałem własnym dla kilku firm na koniec roku podatkowego. W takim przypadku nie będziemy mieli danych o wartości netto do czasu publikacji sprawozdania finansowego. Publikacja wydawana zwykle kilka miesięcy po zakończeniu roku podatkowego.
Dlatego rozwiązaniem tego błędu byłoby poczekanie na publikację sprawozdań finansowych. I wykonaj analizę z opublikowanymi danymi wraz z ceną w momencie publikacji.
Odchylenie okresu czasu
Ten błąd występuje, gdy okres wybrany dla danych jest zbyt krótki lub zbyt długi. Jeśli jest zbyt krótki, analiza może odzwierciedlać konkretne wyniki, które są spełnione tylko dla tego okresu. Oznacza to, że przez dłuższy czas nie byłyby reprezentatywne.
Wyobraź sobie pięcioletnią ramę czasową, w której małe firmy osiągnęły lepsze wyniki niż duże firmy na giełdzie. Z tego możemy wyciągnąć wniosek, że w przyszłości małe firmy zawsze będą lepsze od dużych. Ale przez tak krótki czas nie można wyciągnąć takich wniosków. Głównie ze względu na to, że w dłuższych okresach sytuacja może się zmienić. Dlatego otrzymane wyniki są obciążone tym skróconym okresem czasu.