What is the unit of analysis and why should I care?

November 26, 2018

Share on Facebook. This will open a new window.
Share on Twitter. This will open a new window.
Share on LinkedIn. This will open a new window.
Share via Email. This will open a new window.

Analysts have words for things that no one else even thinks need words. A couple of my favorite terms in analyst-speak are unit of analysis and unit of observation. I use them a lot and people stare at me when I do.

Not just jargon

The unit of analysis is the entity being studied; the unit of observation is the entity you are collecting data from. They can be the same thing, but often are not. Here is an example:

Study question: Vad krävs för att öka leverantörernas efterlevnad av en ny klinisk vårdriktlinje?

Ett exempel på när analysenheten är densamma som observationsenheten: Leverantörerna rapporterar sina åsikter om vårdriktlinjen och sin vilja att följa den i en enkät eller fokusgrupp.

Ett exempel på när analysenheten INTE är samma som observationsenheten: Data hämtas från Epic baserat på klinikbesök, patienter eller förfaranden för att bedöma om den kliniska vårdriktlinjen följdes eller inte följdes i varje enskilt fall. Observationerna aggregeras upp till leverantören så att varje leverantör har sin egen efterlevnadsgrad. Vårdgivaren är analysenheten, eftersom det är hans/hennes beteende som vi vill lära oss om.

Observationsenheten är den datakälla som beskriver din analysenhet. I diagrammet nedan finns det fyra möjliga observations- och analysnivåer – individen, vårdgivaren, kliniken och sjukhuset. Vi skulle säkert kunna lägga till fler nivåer. Men i forskning och kvalitetsförbättringsarbete rör vi oss ofta mellan dessa aktivitetsnivåer.

Figur 1: Möjliga analys- och observationsenheter i många av våra forsknings- eller kvalitetsförbättringsprojekt

Varför det är bra att känna till skillnaden

För det första, när du utför statistiska tester, baseras den urvalsstorlek som du behöver på analysenheten, inte observationsenheten. I vårt exempel om leverantörernas efterlevnad av riktlinjer för klinisk vård skulle vi behöva samla in uppgifter om femtio leverantörer för att kunna bedöma om vi ändrar leverantörernas beteende. Men uppgifterna för de femtio leverantörerna kan vara en sammanställning av tusentals patientbesök. Om vårt mål är att veta om våra patienter upplever att riktlinjerna för klinisk vård följs, är det lämpligt med en total andel (vi behöver inte veta vad enskilda vårdgivare gör).

För det andra, när analysenheten och observationsenheten är olika och vi är förvirrade om dem, kan vissa misstag begås:

(a) Vi sammanställer en datamängd som inte kan analyseras överhuvudtaget eftersom den blandar olika analysenheter på ett osystematiskt sätt. Det finns statistiska förfaranden som fungerar med ”blandade” data, men datamängderna måste sättas upp på rätt sätt från början.

(b) Vi drar slutsatser enbart utifrån observationsenheten och eftersom urvalsstorleken för denna grupp tenderar att vara mycket stor blir våra statistiska slutsatser vilseledande (det vill säga de skulle med större sannolikhet vara statistiskt signifikanta än de resultat som baseras på analysenheten).

(c) Vi begår det som kallas ”det ekologiska felsteget”, där vi drar slutsatser om observationsenheterna genom att studera analysenheten. Om en vårdgivare till exempel till 70 % följer riktlinjerna för klinisk vård och 30 % av hennes patientbesök var på geografiskt avlägsna kliniker, skulle vi kanske vilja dra slutsatsen att det främst var besöken på de avlägsna klinikerna som riktlinjerna inte följdes. Men vi skulle inte ha några bevis för detta. Vi skulle behöva analysera de enskilda observationerna för att avgöra om det stämmer. Det ekologiska felet uppstår när vi antar saker om individer baserat på data på gruppnivå.

Oh, och sedan blir det rörigt

Figur 1 föreslår en snygg distinktion mellan olika möjliga analysenheter och observationsenheter. Men det förutsätter att olika nivåer av analysenheter verkligen är oberoende av varandra. Det antagandet håller vanligtvis inte.

Figur 2 visar ett perspektiv på den sociala hierarkin kring barn när de utvecklas (detta används av Developmental Systems Theory). För att studera barnet kan man vara intresserad av att använda familjen eller kamratgruppen som analysenhet. Och det är inte svårt att föreställa sig ett samspel mellan alla dessa nivåer.

Figur 2: Utvecklingssystemteorins modell för barns utveckling

I en studie som jag hade turen att arbeta med använde min underbara kollega David Henry till exempel kamratgrupper som analysenhet för att studera aggressivt beteende hos barn. Vi samlade in data från barn i tredje klass i många klassrum. Barnen tillfrågades om sitt eget beteende och normerna i deras klassrum (eller kamratgrupp). David kunde visa att nivån på barns aggressiva beteende i hög grad styrdes av kamratgruppens normer och att om man kunde ändra kamratgruppens normer kunde man i viss mån ändra barnets beteende.

Han kallade det för ”aggressionens avkastningspotential”, det vill säga att vissa grupper belönar aggressivt beteende och på så sätt motiverar barnen att bete sig mer aggressivt mot varandra än vad de annars skulle ha gjort – det fanns ett tydligt samspel mellan kamratgruppen och det enskilda barnet. Om studien hade behandlat barnet som analysenhet skulle vi ha missat detta mycket viktiga resultat.

En del av utmaningen när det gäller att välja vilken analysenhet man använder är alltså att kämpa med var handlingen sker – vems beteende man försöker förändra, vilka utlösande faktorer man försöker få igång med sitt projekt för förbättring av kvaliteten och vem som skulle vara ansvarig för att reagera på dem – i vetskap om att det i verkligheten sker åtgärder på mer än en ”nivå” och att det troligen finns ett visst samspel mellan dem. David hade en mycket välgrundad föraning om att det pågick något i kamratgruppen som ännu inte hade undersökts till fullo och som drev det individuella beteendet, så han fokuserade på det.

I vissa studier försöker man mäta varje nivå och avgöra i efterhand vilken handlingsort som är mest effektiv eller intressant. En studie som jag övervakade för flera år sedan var precis så här – den ägde rum i skolor och vi samlade in data från elever, lärare och skolor. Vår ursprungliga analysenhet var eleven, men det ändrades när vi väl hade våra uppgifter. Provtagningsplanen gjorde det möjligt för oss att övergå till att använda skolan som analysenhet eftersom den var mycket robust, och det var faktiskt där vi fann de mest intressanta skillnaderna. Vi kunde då ”kontrollera” vissa egenskaper hos lärarna och eleverna och undersöka hur olika typer av skolor möjliggör en bättre undervisningsprocess för lärarna och en bättre inlärningsprocess för eleverna. Det var väldigt häftigt.

Det är uppenbart att dessa inbäddade modeller snabbt kan bli komplexa. Och det är därför det är så viktigt att vara tydlig i ditt sinne och att i din analysplan specificera vad din analysenhet är och hur den är densamma eller annorlunda än din observationsenhet. Det är ett av de svåra och komplicerade beslut som du och din analytiker kommer att kämpa med. Att ta sig igenom den kampen ger stor utdelning när du är i färd med att försöka ta reda på vad uppgifterna har att säga dig.

Not just jargon

Varför det är bra att känna till skillnaden

Oh, och sedan blir det rörigt

Lämna ett svar Avbryt svar