Stopnie swobody są kombinacją liczby obserwacji w zbiorze danych, które zmieniają się losowo i niezależnie, minus obserwacje, które są uzależnione od tych arbitralnych wartości.
Innymi słowy, stopnie swobody to liczba całkowicie swobodnych obserwacji (które mogą się różnić) podczas szacowania parametrów.
Rozróżniamy głównie statystyki, które wykorzystują parametry populacji i próbki, aby poznać ich stopnie swobody. Omawiamy różnice między średnią a odchyleniem standardowym, gdy parametrami są populacja lub próba:
Populacja i parametry próbki
- Parametry populacji:
Ponieważ w populacjach nie znamy wszystkich wartości, stopniami swobody będą wszystkie elementy populacji: N.
Obie statystyki pozwalają, aby wszystkie obserwacje w zbiorze były losowe, dlatego za każdym razem, gdy szacujemy statystykę, otrzymamy różne wyniki. Następnie obserwacje, które mają pełne prawo do różnicowania, to wszystkie obserwacje zbioru populacji. Innymi słowy, stopnie swobody to w tym przypadku wszystkie elementy populacji: N. Z tego powodu obie statystyki dzielimy przez całkowitą wielkość populacji (N).
- Przykładowe parametry (szacunki):
W próbkach znamy wszystkie wartości.
Różnicujemy liczebność populacji (N) od wielkości próby (n).
Ponieważ znamy wszystkie wartości w próbkach, nie mamy problemu z obliczeniem średniej, ponieważ pozwala to na losowe obserwacje w zbiorze.
W przypadku odchylenia standardowego nakładamy ograniczenie na stopnie swobody: wszystkie elementy próbki (n) i odejmujemy 1 element.
Ale… Dlaczego z próbki odejmujemy tylko 1, a nie 5 lub 10 elementów (n)?
Im więcej elementów odejmiemy, to znaczy, że im więcej mamy informacji o parametrze próbki, w tym przypadku o odchyleniu standardowym.
Im więcej mamy informacji, tym mniej swobody (stopni swobody) obserwacje próbki muszą przyjmować wartości losowe. Im więcej elementów odejmiemy od próbki, tym większe ograniczenia narzucamy i tym mniej stopni swobody będzie miał parametr próbki.
Przykład
Przypuszczamy, że jedziemy do Andory na finały Pucharu Świata w narciarstwie, ponieważ bardzo lubimy narciarstwo alpejskie. Przynosimy mapę, która mówi nam, gdzie znajdują się różne dyscypliny i nazwy niektórych zawodników, ale numer startowy każdego uczestnika nie jest określony. Za każdym razem, gdy wypowiadają imię konkurenta, myjemy jego imię. Ponieważ lista zawodników jest ograniczona, przyjdzie moment, w którym poznamy nazwisko zawodnika, zanim ogłosi to przez głośniki.
Kronikę analizujemy z matematycznego punktu widzenia:
- Wielkość próby (n), ponieważ podają nam tylko nazwiska niektórych uczestników.
- Każdy uczestnik może startować losowo, kolejność nie ma znaczenia i nie może startować ponownie (kombinacje bez powtórek).
- Ostatni uczestnik będzie znanym elementem (n-1). Wtedy wszyscy pozostali uczestnicy mogą wypaść losowo, z wyjątkiem ostatniego, którego wiemy na pewno.
Przeczytaj przykład stopni swobody