Jeśli pracujesz w dziedzinie, która wykorzystuje analizę wariancji, z pewnością słyszałeś, że same wartości p nie wskazują na wielkość efektu. Musisz również podać jakiś rodzaj miary wielkości efektu.
Dlaczego? Ponieważ przy wystarczająco dużej próbie, każda różnica w średnich, nieważne jak mała, może być statystycznie istotna. Wartości P mają za zadanie powiedzieć Ci, czy Twój wynik jest przypadkiem, a nie czy jest duży.
Prawdę najprostszą i najbardziej bezpośrednią miarą wielkości efektu jest różnica między dwiema średnimi. I prawdopodobnie już to raportujesz. Ale ograniczeniem tej miary jako wielkości efektu nie jest niedokładność. Jest ona po prostu trudna do oceny.
Jeżeli jesteś zaznajomiony z obszarem badań i zmiennymi używanymi w tym obszarze, powinieneś wiedzieć, czy 3-punktowa różnica jest duża czy mała, choć Twoi czytelnicy mogą tego nie wiedzieć. A jeśli oceniasz nowy typ zmiennej, może być trudno to stwierdzić.
Standaryzowane wielkości efektu są zaprojektowane dla łatwiejszej oceny. Usuwają one jednostki miary, więc nie musisz znać skalowania zmiennych.
Da Cohena jest dobrym przykładem standaryzowanego pomiaru wielkości efektu. Jest on pod wieloma względami równoważny standaryzowanemu współczynnikowi regresji (oznaczanemu jako beta w niektórych programach). Oba są standaryzowanymi miarami – dzielą wielkość efektu przez odpowiednie odchylenia standardowe. Tak więc zamiast być w kategoriach oryginalnych jednostek X i Y, zarówno Cohen’s d jak i standaryzowane współczynniki regresji są w kategoriach odchyleń standardowych.
Istnieją pewne miłe właściwości standaryzowanych miar wielkości efektu. Przede wszystkim można je porównywać między zmiennymi. W wielu sytuacjach bardzo pomocne jest dostrzeżenie różnic w liczbie odchyleń standardowych.
Ale są one najbardziej przydatne, jeśli potrafisz rozpoznać ich ograniczenia. W przeciwieństwie do współczynników korelacji, zarówno Cohen’s d jak i beta mogą być większe niż jeden. Tak więc, choć można je ze sobą porównywać, nie można po prostu spojrzeć na jeden z nich i od razu stwierdzić, co jest duże, a co małe. Po prostu patrzysz na efekt zmiennej niezależnej w kategoriach odchyleń standardowych.
Jest to szczególnie ważne dla Cohen’s d, ponieważ w swojej oryginalnej książce, określił pewne wartości d jako wskazujące na małe, średnie i duże efekty w badaniach behawioralnych. Podczas gdy sama statystyka jest dobra, powinieneś wziąć te zalecenia dotyczące wielkości z ziarnem soli (lub może bardzo dużą miską soli). To, co jest dużym lub małym efektem, w dużym stopniu zależy od konkretnego pola badawczego, a nawet mały efekt może być teoretycznie znaczący.
Inny zestaw miar wielkości efektu dla kategorycznych zmiennych niezależnych ma bardziej intuicyjną interpretację i jest łatwiejszy do oceny. Obejmują one Eta Squared, częściowy Eta Squared i Omega Squared. Podobnie jak statystyka R Squared, wszystkie one mają intuicyjną interpretację proporcji wariancji uwzględnionej.
Eta Squared jest obliczana w taki sam sposób jak R Squared i ma najbardziej równoważną interpretację: z całkowitej zmienności w Y, proporcja, która może być przypisana do konkretnego X.
Eta Squared, jednak, jest używany specjalnie w modelach ANOVA. Każdy efekt kategoryczny w modelu ma swój własny Eta Squared, więc otrzymujemy specyficzną, intuicyjną miarę efektu tej zmiennej.
Eta Squared ma jednak dwie wady. Jedną z nich jest to, że w miarę dodawania kolejnych zmiennych do modelu, proporcja wyjaśniona przez jedną zmienną będzie automatycznie maleć. Utrudnia to porównywanie efektów pojedynczej zmiennej w różnych badaniach.
Częściowy Eta Squared rozwiązuje ten problem, ale ma mniej intuicyjną interpretację. W tym przypadku mianownik nie jest całkowitą zmiennością w Y, ale niewyjaśnioną zmiennością w Y plus zmienność wyjaśniona tylko przez ten X. Zatem każda zmienność wyjaśniona przez inne X jest usuwana z mianownika. Pozwala to badaczowi na porównanie wpływu tej samej zmiennej w dwóch różnych badaniach, które zawierają różne zmienne lub inne czynniki.
W jednokierunkowej ANOVA, Eta Squared i częściowy Eta Squared będą równe, ale nie jest to prawdą w modelach z więcej niż jedną zmienną niezależną.
Wadą Eta Squared jest to, że jest to nieobiektywna miara wyjaśnionej wariancji populacji (chociaż jest dokładna dla próbki). Zawsze ją przeszacowuje.
Ta stronniczość staje się bardzo mała wraz ze wzrostem wielkości próby, ale dla małych prób bezstronną miarą wielkości efektu jest omega kwadrat. Omega Squared ma taką samą podstawową interpretację, ale używa bezstronnych miar składowych wariancji. Because it is an unbiased estimate of population variances, Omega Squared is always smaller than Eta Squared.
Other recent posts contain equations of all these effect size measures and a list of great references for further reading on effect sizes.