Avantajele utilizării variabilelor instrumentale pentru a demonstra cauzalitatea
Ca exemplu, luați în considerare problema estimării efectului educației asupra veniturilor. Cea mai simplă tehnică de estimare, cea a celor mai mici pătrate ordinare (OLS), generează estimări care indică faptul că un an suplimentar de educație este asociat cu câștiguri care sunt cu 6-10% mai mari . Cu toate acestea, relația pozitivă poate fi determinată de auto-selecția în educație; adică persoanele care au cel mai mult de câștigat de pe urma unei educații mai mari sunt mai susceptibile de a rămâne. Acesta va fi cazul, de exemplu, în cazul în care elevii cu abilități superioare consideră că le este mai ușor să studieze și, probabil, ar primi oricum salarii mai mari. Ca atare, corelația pozitivă observată între anii de educație și salarii ar reflecta parțial premiul pentru aptitudini și nu ar putea fi interpretată ca fiind randamentul unui an de educație suplimentar, așa cum se dorește. Astfel, estimările OLS nu ar fi informative cu privire la efectul unei politici menite să crească numărul de ani de educație. Această problemă se numește „prejudecata variabilei omise”. Aceasta apare atunci când o variabilă (cum ar fi abilitatea) care nu este observată de către cercetător este corelată atât cu tratamentul (mai multă educație), cât și cu rezultatul (veniturile). Direcția (supraestimare sau subestimare) și mărimea prejudecății în estimările OLS este o funcție de semnul și puterea corelațiilor.
În acest exemplu, un studiu de control randomizat (RCT), care ar presupune alocarea aleatorie a educației persoanelor și observarea diferențelor dintre salariile acestora de-a lungul vieții, pur și simplu nu este fezabil din motive etice. Cu toate acestea, unele experimente naturale sau cvasinaturale se pot apropia de modificarea alegerii educaționale pentru anumite grupuri de indivizi și, ca atare, pot fi utilizate ca instrumente. Un astfel de experiment natural este o modificare a vârstei minime legale la care elevii pot părăsi școala (vârsta de absolvire a școlii). Acest tip de schimbare îi afectează pe toți elevii, indiferent de capacitatea lor. Prin urmare, acționează ca un șoc extern care nu poate fi influențat de elevul individual.
Numeroase țări au o legislație care stipulează vârsta la care elevii pot părăsi sistemul educațional. De exemplu, să spunem că un copil poate părăsi școala în ultima zi a anului școlar dacă împlinește 14 ani până la sfârșitul lunii august. Să presupunem acum că legislația este modificată, astfel încât copiii trebuie să împlinească 15 ani până la sfârșitul lunii august pentru a putea părăsi școala. Copiii care doreau să părăsească școala la 14 ani sunt împiedicați să facă acest lucru și trebuie să rămână pentru un an suplimentar de școlarizare. În ipoteza (puternică) că copiii aflați sub incidența celor două legislații sunt similari și se confruntă cu condiții similare pe piața muncii, modificarea legislației creează un experiment cvasi-natural: indiferent de capacitatea lor, unii indivizi vor fi afectați de modificarea vârstei de părăsire a școlii și vor trebui să rămână pentru un an suplimentar de școlarizare, în timp ce elevii cu preferințe similare din cohorta anterioară nu vor fi afectați. Dacă cercetătorii ar ști cine a dorit să părăsească școala la 14 ani, ar putea compara rezultatele indivizilor care au părăsit școala la 14 ani cu rezultatele indivizilor care au fost forțați să rămână până la 15 ani. Această simplă diferență ar fi atunci efectul cauzal al rămânerii la școală între 14 și 15 ani. Din păcate, datele observaționale nu ne permit să identificăm indivizii a căror alegere educațională a fost afectată de reformă; astfel, conform noii legislații, indivizii care doreau să părăsească școala la 15 ani nu pot fi deosebiți de cei care doreau să părăsească școala la 14 ani, dar au fost nevoiți să mai rămână încă un an. Cu toate acestea, ceea ce face reforma este să modifice probabilitatea de a rămâne la școală și, prin urmare, poate fi utilizată ca instrument, deoarece afectează probabilitatea de tratament (încă un an de școlarizare) fără a afecta rezultatul de interes (de exemplu, câștigurile).
În 1947, o modificare legislativă în Regatul Unit a crescut vârsta minimă de părăsire a școlii de la 14 la 15 ani, afectând copiii născuți în 1933 și ulterior. Această modificare legislativă oferă o oportunitate de a evalua efectul școlarizării (suplimentare) asupra câștigurilor . În figura 1, panoul A arată că reforma a afectat atât fracțiunea de copii care părăsesc școala cu prima ocazie (graficul din stânga), cât și cantitatea totală de școlarizare finalizată (graficul din dreapta). Estimările indică faptul că reforma a crescut numărul mediu de ani de școlarizare pentru bărbați cu 0,397 ani. Această estimare a efectului reformei (IV) asupra tratamentului (educația) este cunoscută sub numele de „regresie în prima etapă”. Dacă educația are un efect cauzal asupra veniturilor, ar trebui să observăm că veniturile medii ale indivizilor afectați de reformă sunt, de asemenea, mai mari. Acesta este într-adevăr cazul, după cum se arată în panoul B din figura 1, care raportează câștigurile medii logaritmice pentru bărbați. Această serie prezintă o ruptură clară în 1933, a cărei magnitudine implică faptul că indivizii afectați de reformă câștigă, în medie, salarii cu 1,2% mai mari. Această a doua estimare a efectului reformei (IV) asupra rezultatului (câștiguri) este cunoscută sub numele de „estimare de formă redusă”. O strategie IV simplă, în acest caz folosind un instrument binar care ia doar două valori (1 pentru a fi afectat de reformă și 0 pentru a nu fi afectat de reformă), reprezintă raportul dintre estimarea de formă redusă și estimarea din prima etapă. (Acest raport este, de asemenea, cunoscut sub numele de estimarea Wald.) În acest caz, efectul cauzal al educației suplimentare asupra câștigurilor ar fi de 0,012/0,397 = 0,030 și, prin urmare, de aproximativ 3 %.
Intuiția acestei abordări este că efectul unui an în plus de educație asupra salariilor este, practic, efectul reformei (IV) asupra salariilor (rezultatul) – care este dat în forma redusă – mărit cu efectul pe care reforma îl are asupra anilor de educație (tratamentul) – ceea ce reprezintă estimarea din prima etapă. Dacă instrumentul este „relevant”, adică are un efect asupra educației (tratamentul), și dacă instrumentul afectează salariile „exclusiv” prin efectul său asupra educației, atunci estimările IV pot fi interpretate ca efect cauzal al tratamentului asupra rezultatului. Aceste două condiții se numesc „relevanță a instrumentului” și „restricție de excludere.”
Pentru a rezuma, atunci când o variabilă neobservată, cum ar fi abilitatea, se corelează atât cu tratamentul, cât și cu rezultatul, o estimare simplă, cum ar fi OLS, va fi distorsionată din cauza autoselecției în cadrul tratamentului. În mod similar, dacă variabila de tratament este măsurată cu erori, estimarea OLS va fi distorsionată spre zero. Cu toate acestea, o estimare cauzală a unui tratament asupra unui rezultat poate fi recuperată dacă se poate găsi un instrument credibil. Un instrument credibil trebuie să îndeplinească două condiții:
-
Relevența: instrumentul trebuie să afecteze probabilitatea de tratament. Într-o regresie a tratamentului asupra instrumentului, cunoscută și sub numele de ecuația primei etape, coeficientul pe IV trebuie să fie suficient de puternic.
-
Restricție de excludere: instrumentul afectează rezultatul exclusiv prin intermediul efectului său asupra tratamentului.
În cazul în care se poate găsi un astfel de IV (de ex. atât relevanța, cât și restricția de excludere sunt îndeplinite), atunci poate fi pusă în aplicare o strategie IV pentru a recupera un efect cauzal al tratamentului asupra rezultatului.
Exemplul anterior a prezentat estimarea Wald, adică raportul dintre estimările din două regresii: estimarea de formă redusă, care provine dintr-o regresie a rezultatului asupra instrumentului; și estimarea din prima etapă, care provine dintr-o regresie a tratamentului asupra instrumentului. Aceasta poate fi calculată cu ușurință atunci când instrumentul ia doar două valori. În cazul mai general, se va calcula așa-numita estimare 2SLS (two stage least squares), prin care predicțiile tratamentului din ecuația primei etape sunt utilizate într-o regresie a rezultatului asupra tratamentului, mai degrabă decât valoarea reală a tratamentului. Astfel, doar variația tratamentului care provine din instrument este utilizată pentru a explica variația rezultatului. Astfel, se rezolvă prejudecata de auto-selecție. În cazul unui instrument binar (cu două valori), estimările Wald și 2SLS vor fi identice (a se vedea , de exemplu). Cu toate acestea, dificultatea nu constă în punerea în aplicare a unei astfel de estimări 2SLS, toate pachetele statistice pot calcula estimări IV, ci în (a) găsirea unui instrument valid și (b) interpretarea rezultatelor. Discuția se va axa acum pe aceste două puncte.
.