Zmienna kategorialna to taka, która pozwala na klasyfikację serii danych za pomocą stałych wartości związanych z określoną jakością lub kategorią.
Zmienna kategorialna, w przeciwieństwie do zmiennych kardynalnych lub ciągłych (które umożliwiają obliczenia numeryczne), klasyfikuje jednostki lub przypadki. Zwykle przyjmują wartości reprezentowane przez liczby całkowite, takie jak jeden lub zero, ale to tylko reprezentacje.
W przykładzie zobaczymy to bardziej szczegółowo.
Różnice między zmienną kategoryczną i ciągłą
Istnieją pewne różnice między zmienną kategorialną a zmienną ciągłą lub kardynalną, które powinny być znane. Zobaczmy najbardziej odpowiednie.
- Po pierwsze, zmienna kategorialna służy do grupowania, a zmienna ciągła do liczenia. Innymi słowy, pierwsza pozwala na tworzenie kategorii z serią danych. Na przykład płeć lub liczba dzieci. Drugi daje nam informacje liczbowe. Na przykład wiek.
- Zmienna kardynalna pozwala na obliczenia numeryczne, inne nie. W ten sposób w pierwszym możemy poznać średnie lub wariancje, a w innych tylko niektóre dane, takie jak moda czy procent kategorii.
- Te kategoryczne są bardzo przydatne do poznania informacji jakościowych, czyli pewnej jakości danych. Te ciągłe dostarczają nam danych ilościowych, czyli ilości i wartości reprezentowanych przez liczby.
Techniki statystyczne dla zmiennych kategorialnych
Następnie przyjrzyjmy się technikom statystycznym najczęściej używanym w przypadku zmiennych kategorycznych, porównując je z tymi dla zmiennych ciągłych lub kardynalnych.
- Opisowe statystyki: W tego typu zmiennych analizy są zazwyczaj oparte m.in. na wykresach słupkowych i procentowych. Kardynały umożliwiają zastosowanie technik analitycznych do obliczania statystyk pozycji, takich jak kwantyle, lub statystyk rozproszenia, takich jak wariancje.
- Hipoteza kontrast: W kategorii, wyniki można ekstrapolować za pomocą nieparametrycznych testów hipotez. Z drugiej strony, te ciągłe wykorzystują kontrasty parametryczne, które można również wywnioskować.
- Techniki regresji: W tym przypadku dla pierwszego z nich stosuje się m.in. regresję logistyczną lub podobną. W przypadku drugiego typu zmiennych najczęściej stosowaną techniką jest regresja liniowa.
Przykład zmiennej kategorialnej
Na koniec spójrzmy na bardzo częsty przykład w marketingu. Wyobraźmy sobie, że chcemy sprzedać produkt i interesuje nas stan cywilny.
Aby to zrobić, przypiszemy 1 osobie samotnej, 2 małżeństwu, 3 rozwiedzionemu, 4 partnerowi i 5 innym.
Zobaczmy obraz, a następnie skomentujmy go:
Widać w nim, że najwyższy odsetek osób to osoby samotne, w związku małżeńskim i rozwiedzionym, podczas gdy pozostałe dwie opcje to tylko 5%.
Jak widać, do grupowania przydatne są zmienne kategorialne. Wykres słupkowy pozwala nam lepiej obserwować te wartości procentowe, ponieważ łatwiej jest porównać wielkość słupków.