What is the unit of analysis and why should I care?

November 26, 2018

Share on Facebook. This will open a new window.
Share on Twitter. This will open a new window.
Share on LinkedIn. This will open a new window.
Share via Email. This will open a new window.

Analysts have words for things that no one else even thinks need words. A couple of my favorite terms in analyst-speak are unit of analysis and unit of observation. I use them a lot and people stare at me when I do.

Not just jargon

The unit of analysis is the entity being studied; the unit of observation is the entity you are collecting data from. They can be the same thing, but often are not. Here is an example:

Study question: Co jest potrzebne, aby zwiększyć zgodność świadczeniodawców z nowymi wytycznymi opieki klinicznej?

Przykład sytuacji, w której jednostka analizy jest taka sama jak jednostka obserwacji: Świadczeniodawcy zgłaszają swoje opinie na temat wytycznej opieki i chęć jej przestrzegania w ankiecie lub grupie fokusowej.

Przykład sytuacji, w której jednostka analizy NIE jest taka sama jak jednostka obserwacji: Dane są pobierane z systemu Epic na podstawie wizyt w klinice, pacjentów lub procedur w celu oceny, czy w każdym przypadku przestrzegano lub nie przestrzegano wytycznych dotyczących opieki klinicznej. Obserwacje są agregowane aż do świadczeniodawcy, tak aby każdy świadczeniodawca miał swój własny wskaźnik zgodności.

Jednostką analizy jest świadczeniodawca, ponieważ to o jego zachowaniu chcemy się dowiedzieć.

Jednostka obserwacji to źródło danych, które opisuje waszą jednostkę analizy. Na poniższym schemacie są cztery poziomy możliwej obserwacji i analizy – osoba, świadczeniodawca, klinika i szpital. Z pewnością moglibyśmy dodać więcej poziomów. Ale w badaniach i pracy nad poprawą jakości często poruszamy się pomiędzy tymi warstwami aktywności.

Fig. 1: Możliwe jednostki analizy i obserwacji w wielu naszych projektach badawczych lub dotyczących poprawy jakości

Dlaczego warto znać różnicę

Po pierwsze, podczas przeprowadzania testów statystycznych wielkość próby, której potrzebujemy, opiera się na jednostce analizy, a nie na jednostce obserwacji. W naszym przykładzie dotyczącym przestrzegania przez świadczeniodawców wytycznych dotyczących opieki klinicznej, musielibyśmy zebrać dane o pięćdziesięciu świadczeniodawcach, aby ocenić, czy zmieniamy ich zachowanie. Ale dane dla tych pięćdziesięciu świadczeniodawców mogą być agregacją tysięcy wizyt pacjentów. Jeśli naszym celem jest dowiedzieć się, czy nasi pacjenci doświadczają zgodności z wytycznymi dotyczącymi opieki klinicznej, wtedy ogólny wskaźnik jest odpowiedni (nie musimy wiedzieć, co robią poszczególni świadczeniodawcy).

Po drugie, kiedy jednostka analizy i jednostka obserwacji są różne i jesteśmy co do nich zdezorientowani, mogą zostać popełnione pewne błędy:

(a) Tworzymy zbiór danych, który nie może być w ogóle analizowany, ponieważ miesza różne jednostki analizy w sposób niesystematyczny. Istnieją procedury statystyczne, które działają z danymi „mieszanymi”, ale zbiory danych muszą być od początku odpowiednio skonfigurowane.

(b) Wyciągamy wnioski tylko na podstawie jednostki obserwacji, a ponieważ wielkość próby dla tej grupy jest zwykle bardzo duża, nasze wnioski statystyczne są mylące (to znaczy, że byłyby bardziej prawdopodobne, że są statystycznie istotne niż ustalenia oparte na jednostce analizy).

(c) Popełniamy coś, co nazywa się „błędem ekologicznym”, w którym wyciągamy wnioski na temat jednostek obserwacji poprzez badanie jednostki analizy. Na przykład, jeśli świadczeniodawca w 70% stosuje się do wytycznych opieki klinicznej, a 30% jego wizyt pacjentów odbyło się w odległych geograficznie klinikach, możemy chcieć wyciągnąć wniosek, że to głównie wizyty w odległych klinikach nie były zgodne z wytycznymi. Ale nie mielibyśmy na to żadnych dowodów. Musielibyśmy przeanalizować poszczególne obserwacje, aby stwierdzić, czy jest to prawdą. Błąd ekologiczny występuje, gdy zakładamy coś o jednostkach na podstawie danych na poziomie grupy.

Oh, and then it is gets messy

Rysunek 1 sugeruje zgrabne rozróżnienie pomiędzy różnymi możliwymi jednostkami analizy i jednostkami obserwacji. Ale to zakłada, że różne poziomy jednostek analizy są naprawdę niezależne od siebie. To założenie zwykle się nie sprawdza.

Rysunek 2 pokazuje jedną z perspektyw hierarchii społecznej wokół dzieci w trakcie ich rozwoju (jest ona wykorzystywana przez Teorię Systemów Rozwojowych). Aby badać dziecko, można zainteresować się rodziną lub grupą rówieśniczą jako jednostką analizy. I nie jest trudno wyobrazić sobie wzajemne oddziaływanie między wszystkimi tymi poziomami.

Rys. 2: Model rozwoju dziecka według Teorii Systemów Rozwojowych

Na przykład w jednym z badań, nad którym miałem szczęście pracować, mój wspaniały kolega, David Henry, wykorzystał grupy rówieśnicze jako jednostkę analizy do badania zachowań agresywnych u dzieci. Zebraliśmy dane od dzieci z trzeciej klasy w wielu salach lekcyjnych. Dzieci były ankietowane na temat ich własnego zachowania i norm panujących w ich klasie (lub grupie rówieśniczej). David był w stanie wykazać, że poziom agresywnych zachowań dzieci był napędzany w znacznym stopniu przez normy grupy rówieśniczej i że jeśli można było zmienić normy dla grupy rówieśniczej, można było zmienić zachowanie dziecka do pewnego stopnia.

Nazwał to „zwrotnym potencjałem agresji”, to znaczy, że niektóre grupy nagradzają agresywne zachowanie i w ten sposób motywują dzieci do działania bardziej agresywnego wobec siebie niż w innym przypadku – istniała wyraźna interakcja między grupą rówieśniczą a indywidualnym dzieckiem. Jeśli badanie traktowałoby dziecko jako jednostkę analizy, przegapilibyśmy to naprawdę ważne odkrycie.

Tak więc, częścią wyzwania w wyborze jednostki analizy jest zmaganie się z tym, gdzie jest akcja – czyje zachowanie próbujesz zmienić, jakie bodźce twój projekt QI próbuje wywołać i kto będzie odpowiedzialny za reagowanie na nie – wiedząc, że w rzeczywistości jest akcja na więcej niż jednym „poziomie” i prawdopodobnie jakaś interakcja między nimi. David miał bardzo wykształcone przeczucie, że w grupie rówieśniczej dzieje się coś, co nie zostało jeszcze w pełni zbadane, a co napędza indywidualne zachowania, więc skupił się na tym.

Niektóre badania próbują zmierzyć każdy poziom i określić, które miejsce działania jest najbardziej efektywne lub interesujące po fakcie. Badanie, które nadzorowałem lata temu było dokładnie takie – odbywało się w szkołach i zbieraliśmy dane od uczniów, nauczycieli i szkół. Naszą pierwotną jednostką analizy był uczeń, ale to się zmieniło, gdy mieliśmy już nasze dane. Plan doboru próby pozwolił nam przestawić się na wykorzystanie szkoły jako jednostki analizy, ponieważ była ona bardzo solidna i rzeczywiście to właśnie tam znaleźliśmy najbardziej interesujące różnice. Mogliśmy wtedy „kontrolować” pewne cechy nauczycieli i uczniów i zbadać, w jaki sposób różne typy szkół umożliwiają lepszy proces nauczania dla nauczycieli i lepszy proces uczenia się dla uczniów. To było bardzo fajne.

Oczywiście, te zagnieżdżone modele mogą szybko stać się skomplikowane. I dlatego tak ważne jest, aby mieć jasność w swoim umyśle i określić w swoim planie analitycznym, co jest jednostką analizy i jak to jest takie samo lub różne od jednostki obserwacji. Jest to jedna z tych trudnych, skomplikowanych decyzji, z którymi ty i twój analityk będziecie się zmagać. Przebrnięcie przez te zmagania przynosi duże korzyści, gdy próbujesz dowiedzieć się, co dane mają ci do powiedzenia.

Not just jargon

Dlaczego warto znać różnicę

Oh, and then it is gets messy

Dodaj komentarz Anuluj pisanie odpowiedzi