Współczynnik determinacji (R do kwadratu)

Spisie treści:

Współczynnik determinacji (R do kwadratu)
Współczynnik determinacji (R do kwadratu)
Anonim

Współczynnik determinacji to odsetek całkowitej wariancji zmiennej wyjaśnionej przez regresję. Współczynnik determinacji, zwany także R kwadratem, odzwierciedla dobroć dopasowania modelu do zmiennej, którą zamierza on wyjaśnić.

Warto wiedzieć, że wynik współczynnika determinacji oscyluje między 0 a 1. Im bliżej jego wartości jest 1, tym większe dopasowanie modelu do zmiennej, którą próbujemy wyjaśnić. I odwrotnie, im bliżej zera, tym mniej ciasny będzie model, a tym samym mniej niezawodny.

W poprzednim wyrażeniu mamy ułamek. Przejdźmy więc przez części. Najpierw przeanalizujemy licznik, czyli górną część.

Tym, którzy nie znają wyrażenia wariancji, polecam przeczytać artykuł na ten temat. Ci, którzy ją znają, mogą zdać sobie sprawę, że jest to wyraz wariancji, ale z dwiema podstawowymi różnicami.

Pierwsza różnica polega na tym, że Y ma daszk lub to, co nauczyciele dydaktycznie nazywają „czapką”. To, co ten kapelusz opisuje, to to, że Y jest oszacowaniem modelu tego, co według zmiennych objaśniających jest warte Y, ale nie jest to rzeczywista wartość Y, ale oszacowanie Y.

Po drugie, należałoby podzielić przez T. Co w innych przypadkach oznacza się jako N lub liczbę obserwacji. Ponieważ jednak formuła mianownika również by to zawierała, usuwamy mianowniki (na dole) z obu formuł, aby uprościć wyrażenie. W ten sposób łatwiej z nim pracować.

Następnie przeprowadzimy tę samą analizę z mianownikiem (część dolna).

W tym przypadku jedyną różnicą w stosunku do oryginalnej formuły wariancji jest brak jej mianownika. Oznacza to, że nie dzielimy przez T ani N. W ten sposób, po wyjaśnieniu dwóch części ogólnego wyrażenia R-kwadrat lub współczynnika determinacji, zobaczymy przykład.

Współczynnik zmiennościWspółczynnik korelacji liniowejAnaliza regresji

Interpretacja współczynnika determinacji

Załóżmy, że chcemy wyjaśnić liczbę bramek zdobytych przez Cristiano Ronaldo na podstawie liczby rozegranych przez niego meczów. Zakładamy, że im więcej rozegranych meczów, tym więcej bramek strzeli. Dane dotyczą ostatnich 8 sezonów. Zatem po wyodrębnieniu danych model daje następujące oszacowanie:

Jak widać z wykresu, zależność jest pozytywna. Oczywiście im więcej rozegranych meczów, tym więcej bramek strzeli w sezonie. Dopasowanie, oparte na obliczeniu R-kwadrat, wynosi 0,835. Oznacza to, że jest to model, którego szacunki dość dobrze pasują do rzeczywistej zmiennej. Choć technicznie nie byłoby to poprawne, można by powiedzieć coś takiego, że model wyjaśnia 83,5% zmiennej rzeczywistej.

Problem współczynnika determinacji

Problem współczynnika determinacji i przyczyną powstania skorygowanego współczynnika determinacji polega na tym, że nie karze on uwzględniania nieistotnych zmiennych objaśniających. Oznacza to, że jeśli do modelu doda się pięć zmiennych objaśniających, które mają niewielki związek z golami zdobytymi przez Cristiano Ronaldo w sezonie, R do kwadratu wzrośnie. Dlatego wielu ekspertów ekonometrycznych, statystycznych i matematycznych sprzeciwia się stosowaniu R kwadrat jako reprezentatywnej miary dobroci rzeczywistego dopasowania.

Skorygowany współczynnik determinacji

Skorygowany współczynnik determinacji (skorygowany R do kwadratu) jest miarą określającą procent wyjaśniony wariancją regresji w stosunku do wariancji zmiennej objaśnianej. To znaczy tak samo jak R kwadrat, ale z różnicą: skorygowany współczynnik determinacji karze uwzględnianie zmiennych.

Jak powiedzieliśmy wcześniej, współczynnik determinacji modelu wzrasta, nawet jeśli uwzględniane przez nas zmienne nie są istotne. Ponieważ jest to problem, aby spróbować go rozwiązać, skorygowane R do kwadratu jest takie, że:

We wzorze N to wielkość próby, a k to liczba zmiennych objaśniających. Dzięki matematycznemu odliczeniu im wyższe wartości k, tym bardziej skorygowany R-kwadrat będzie od normalnego R-kwadrat. Odwrotnie, przy niższych wartościach k, im bliższy ułamek środkowy będzie 1, a zatem skorygowane R do kwadratu i normalne R do kwadratu będą bardziej podobne.

Pamiętając, że k jest liczbą zmiennych objaśniających, wnioskujemy, że nie może to być zero. Gdyby było zero, nie byłoby modelu. Przynajmniej będziemy musieli wyjaśnić jedną zmienną w kategoriach innej zmiennej. Ponieważ k musi wynosić co najmniej 1, skorygowane R-kwadrat i normalne R-kwadrat nie mogą mieć tej samej wartości. Co więcej, skorygowane R-kwadrat będzie zawsze mniejsze niż normalne R-kwadrat.