Om du arbetar med variansanalys har du säkert hört att p-värden inte ensamma visar hur stor en effekt är. Du måste också ange någon form av effektstorleksmått.
Varför? Därför att med ett tillräckligt stort urval kan varje skillnad i medelvärden, oavsett hur liten den är, vara statistiskt signifikant. P-värden är utformade för att tala om för dig om ditt resultat är en slump, inte om det är stort.
Det enklaste och mest okomplicerade effektstorleksmåttet är faktiskt skillnaden mellan två medelvärden. Och det rapporterar du förmodligen redan. Men begränsningen av det här måttet som effektstorlek är inte olämplighet. Det är bara svårt att utvärdera.
Om du är bekant med ett forskningsområde och de variabler som används inom det området bör du veta om en 3-punkts skillnad är stor eller liten, även om dina läsare kanske inte vet det. Och om du utvärderar en ny typ av variabel kan det vara svårt att avgöra.
Standardiserade effektstorlekar är utformade för enklare utvärdering. De tar bort måttenheterna, så du behöver inte vara bekant med skalningen av variablerna.
Cohens d är ett bra exempel på ett standardiserat effektstorleksmått. Den motsvarar på många sätt en standardiserad regressionskoefficient (betecknad beta i vissa programvaror). Båda är standardiserade mått – de delar effektens storlek med de relevanta standardavvikelserna. Så i stället för att vara i termer av de ursprungliga enheterna X och Y är både Cohens d och standardiserade regressionskoefficienter i termer av standardavvikelser.
Det finns några trevliga egenskaper hos standardiserade effektstorleksmått. Den främsta är att man kan jämföra dem mellan olika variabler. Och i många situationer är det till stor hjälp att se skillnader i termer av antal standardavvikelser.
Men de är mest användbara om du också kan inse deras begränsningar. Till skillnad från korrelationskoefficienter kan både Cohens d och beta vara större än ett. Så även om du kan jämföra dem med varandra kan du inte bara titta på en och säga direkt vad som är stort eller litet. Du tittar bara på effekten av den oberoende variabeln i termer av standardavvikelser.
Detta är särskilt viktigt att notera för Cohens d, eftersom han i sin ursprungliga bok specificerade vissa d-värden som indikationer på små, medelstora och stora effekter i beteendeforskning. Även om statistiken i sig är bra, bör du ta dessa storleksrekommendationer med ett korn av salt (eller kanske en mycket stor skål salt). Vad som är en stor eller liten effekt beror i hög grad på ditt specifika studieområde, och även en liten effekt kan vara teoretiskt meningsfull.
En annan uppsättning effektstorleksmått för kategoriska oberoende variabler har en mer intuitiv tolkning och är lättare att utvärdera. De omfattar Eta Squared, Partial Eta Squared och Omega Squared. Liksom statistiken R Squared har de alla den intuitiva tolkningen av andelen av variansen som förklaras.
Eta Squared beräknas på samma sätt som R Squared och har den mest likvärdiga tolkningen: av den totala variationen i Y är det den andel som kan tillskrivas ett specifikt X.
Eta Squared används dock specifikt i ANOVA-modeller. Varje kategorisk effekt i modellen har sin egen Eta Squared, så man får ett specifikt, intuitivt mått på effekten av den variabeln.
Eta Squared har dock två nackdelar. Den ena är att när du lägger till fler variabler i modellen kommer andelen som förklaras av en enskild variabel automatiskt att minska. Detta gör det svårt att jämföra effekten av en enskild variabel i olika studier.
Partial Eta Squared löser detta problem, men har en mindre intuitiv tolkning. Där är nämnaren inte den totala variationen i Y, utan den oförklarade variationen i Y plus den variation som förklaras just av detta X. All variation som förklaras av andra X tas alltså bort från nämnaren. Detta gör det möjligt för en forskare att jämföra effekten av samma variabel i två olika studier, som innehåller olika kovarianter eller andra faktorer.
I en envägs ANOVA kommer Eta Squared och Partial Eta Squared att vara lika, men detta gäller inte i modeller med mer än en oberoende variabel.
Nackdelen med Eta Squared är att det är ett förvrängt mått på förklarad varians i populationen (även om det är korrekt för urvalet). Det överskattar den alltid.
Denna bias blir mycket liten när stickprovsstorleken ökar, men för små stickprov är ett opartiskt effektstorleksmått Omega Squared. Omega Squared har samma grundläggande tolkning, men använder opartiska mått på varianskomponenterna. Because it is an unbiased estimate of population variances, Omega Squared is always smaller than Eta Squared.
Other recent posts contain equations of all these effect size measures and a list of great references for further reading on effect sizes.