Wystarczająca statystyka dla parametru Θ to taka, która pozwala zebrać lub podsumować wszystkie informacje, które zawiera próbka zmiennej losowej X.
Wiemy, że statystyka jest rzeczywistą funkcją próbki. Oznacza to, że przyjmuje rzeczywiste wartości zawarte w próbce. Stąd, jak widzieliśmy w artykule, w którym zdefiniowano pojęcie statystyki, musimy upewnić się, że statystyk ma pewne właściwości. Po co żądać takich właściwości? Aby zapewnić, że statystyki są przydatne dla naszych celów.
Jedną z tych właściwości jest wystarczalność. W znacznie prostszy sposób powiemy, że statystyka jest wystarczająca, jeśli wykorzystuje wszystkie informacje zawarte w próbie.
Jak sprawdzić, czy wystarczy statystyka?
Logicznie rzecz biorąc, pojawia się pytanie: Skąd mam wiedzieć, czy statystyka T spełnia własność wystarczalności? Lub Jak mogę znaleźć, jeśli istnieje, statystykę, która spełnia własność wystarczalności. Odpowiedź na te dwa pytania można znaleźć w dwóch twierdzeniach:
- Kryterium faktoryzacji Fishera-Neymana: Kryterium to stwierdza, że dana statystyka T, jeśli spełnia określone warunki, będzie wystarczającą statystyką.
- Twierdzenie Darmoisa: To twierdzenie odpowiada na drugie pytanie. Oznacza to, że pozwala nam znaleźć wystarczającą statystykę za pomocą szeregu procedur.
Przykład wystarczającej statystyki
Załóżmy, że chcemy obliczyć średni roczny dochód rodzin mieszkających w Chile. W tym celu zastosujemy następujący proces:
- Zbierz informacje (próbka): Ponieważ nie możemy zapytać każdej z rodzin mieszkających w Chile, ile zarabiają rocznie, weźmiemy reprezentatywną próbę np. 1000 rodzin.
- Zidentyfikuj badaną zmienną losową: Badaną zmienną losową jest dochód rodziny. Tak więc: X → Dochód rodziny
- Wybierz odpowiednią statystykę: Właściwa statystyka do obliczenia średniego dochodu to nic innego jak oczekiwanie X. Innymi słowy, średnia próbki X.
- Skąd mam wiedzieć, czy statystyka średniej próbki jest wystarczającą statystyką? Ponieważ mamy już matematyczne wyrażenie statystyki, użyjemy kryterium faktoryzacji Fishera-Neymana. Lub twierdzenie Darmoisa. Są to formuły stworzone w tym celu.
Po przeprowadzeniu odpowiednich obliczeń dochodzimy do wniosku, że statystyka średniej próbki spełnia wymóg lub właściwość wystarczalności. Zapewniając, że spełnia ten wymóg, zapewniamy, że ta (statystyczna) funkcja, która pozwala na syntezę informacji (średni dochód), wykorzystuje wszystkie informacje zawarte w próbie (1000 rodzin).
Dlaczego ważne jest, abym wykorzystał wszystkie informacje zawarte w próbce?
Teraz, gdy wiemy, że średnia z próbki jest wystarczającą statystyką, załóżmy przypadek. Jaki sens miałoby chcieć obliczyć średni dochód na podstawie tych 1000 chilijskich rodzin i że używamy tylko danych 500 rodzin?
Oczywiście nie miałoby to sensu. Chcemy podsumować wszystkie informacje. To znaczy to, co zdefiniowaliśmy jako wystarczającą statystykę.