Evaluering og Effektmåling i Praksis

Evaluering og Effektmåling i Praksis Lars Skipper Anvendt KommunalForskning Dansk Evalueringsselskabs konference 2007

Evalueringserfaring • AMU-deltagelse for nyledige • Intro. af temporære kontrakter i Ecuador • Virksomhedstræning i en række afrikanske lande • Aktiveringsforanstaltninger • Voksen- og Efteruddannelse • Forælderskab • Vaccinationsprogrammer i Tanzania Dansk Evalueringsselskabs konference 2007

Hvorfor evalueringer? THERE IS NO SHORTAGE OF POLICY PROPOSALS. THERE IS, HOWEVER, A SHORTAGE OF EMPIRICAL EVIDENCE ON THE EFFICACY OF THESE POLICIES… (James Heckman) Dansk Evalueringsselskabs konference 2007

Evalueringsformer • Procesevaluering – blev midler allokeret til et givet projekt også faktisk brugt til dette projekt? Blev de korrekte procedurer fulgt? • Effektevaluering – hjalp et givet projekt, behørigt defineret, deltagerne? Var projektet selvfinansierende? Hjalp det eller skadede det nogen, som ikke deltog? Der vil i de næste timer alene blive fokuseret på 2. Dansk Evalueringsselskabs konference 2007

Effekter og Effektevaluering • Politikker og programmer iværksat for at støtte økonomisk eller social udvikling kan have positive effekter eller ingen effekter • I nogle tilfælde kan fraværet af positive effekter skyldes • Ringe design • Utilstrækkelig finansiering • I andre tilfælde kan fraværet af en positiv effekt skyldes at programmet alene eksisterer for at kanalisere penge fra skatteyderne over til politisk indflydelsesrige virksomheder, individer eller grupper og hvor »økonomisk udvikling« blot fungerer som dække. Dansk Evalueringsselskabs konference 2007

Effekter og Effektevaluering • Når programmer ikke producerer (tilstrækkelige) fordele, så kan en afdækning af dette muliggøre at begrænsede ressourcer får lov at blive anvendt på andre, og mere fordelagtige aktiviteter eller at de bliver sent retur til de evigt plagede skatteydere • Når programmer producerer fordele, så kan viden om dette medføre politisk opbakning for programmets fortsættelse eller måske endda ekspansion Dansk Evalueringsselskabs konference 2007

Effekter og Effektevaluering • Evidens omkring effektiviteten af økonomiske udviklingsprogrammer og politikker kommer fra evalueringer. • Disse timer vil indeholde en diskussion af udviklingen inden for evaluering og effektstudier med praktiske eksempler • Den akademiske litteratur har været i en voldsom udvikling i de sidste årtier • Desværre er praksis mange steder stadig begravet i 1970’erne Dansk Evalueringsselskabs konference 2007

Oversigt • De forskellige økonometriske evalueringsestimatorer. Hovedpointe • Valg af behørige estimator givet data til rådighed, (den økonomiske) problemstilling og de institutionelle rammer omkring programmet • Heterogene »treatment« effekters betydning for evalueringens design og fortolkning • Implikationer af generelle ligevægtseffekter for policy evalueringer Dansk Evalueringsselskabs konference 2007

To vigtige pointer • Skal man altid evaluere? Også små programmer? • Tiden brugt på at læse litteraturen på gode evalueringer af lignende programmer kan give en større indsigt og bedre resultater end en svag evaluering baseret på ringe data foretaget af en utilstrækkeligt kvalificeret empiriker med upassende metoder Dansk Evalueringsselskabs konference 2007

To vigtige pointer • Evalueringer sikrer at projektmanagere fremmer målene for deres øverste chefer, nemlig skatteydere og donorer, og ikke blot overfører ressourcer til magtfulde interessegruppe. I praksis eksisterer en masse lavkvalitets-evalueringer alene som dækning for præcis sådan en adfærd. Vigtigt at være meget klar om, • Hvad der udgør en god evaluering? • Få designet institutioner, der kan reducere denne strøm af vildledende »evalueringer« Dansk Evalueringsselskabs konference 2007

Programmer og Parametre • Lokale økonomiske udviklingsprogrammer dækker over en bred vifte af initiativer: • Human kapital programmer • Finansielle og lignende subsidier til professionelle sportsklubber • Regionale udviklingsprogrammer • Skattesubsidier som lokkemad til bestemte typer virksomheder • OSV OSV OSV Dansk Evalueringsselskabs konference 2007

Påvirkede enheder • Direkte påvirkede enheder: »treated« • Individer; nogle virksomheder; alle virksomheder i et område; byer; regioner; lande. • Indirekte påvirkede enheder (teoretisk guide) • Konkurrenceforvridning, positive spill-overs, finansieringen. Dansk Evalueringsselskabs konference 2007

Notation • I diskussioner af programmer er fokus ofte på effekterne af disse som om effekterne af et program er en veldefineret enhed. • Vigtig pointe i dag: Programmer har en bred vifte af effekter! I faglitteraturen taler man om heterogene effekter. • Et programs betydning ændrer sig, når vi erkender, at effekter kan variere over populationen af deltagere og i nogle tilfælde endda påvirke ikke-deltagere Dansk Evalueringsselskabs konference 2007

Notation • Lad Y benævne en udfaldsvariabel • For hver enhed, i, forestiller vi os to verdener. En verden, hvor enhed i deltager, og en verden hvor enheden ikke deltager. • I verden med deltagelse benævnes udfaldet Y1i • I verden uden deltagelse benævnes udfaldet Y0i • Effekten af et program for person i er givet ved Di = Y1i - Y0i • Evalueringsproblemet består i at estimere den manglende af de to udfald. Dansk Evalueringsselskabs konference 2007

Notation • Standard praksis i litteraturen er at tage gennemsnit af Di hen over forskellige politik-relevante populationer. • Lad D angive deltagelse, så Di = 1 for enheder, der deltager, og Di = 0 ellers. • Oftest estimeres »Average treatment on the Treated« • Estimat på »ATET« og gennemsnitlige omk. muliggør alt-eller-intet CBA Dansk Evalueringsselskabs konference 2007

Notation • Alternativt kunne »Average Treatment Effect« estimeres • Besvarer spørgsmål omkring »universal programmer« - Når hidtidige programmer fx gøres obligatoriske, har beslutningstagere behov for estimater på »ATET« OG »ATE« - kan variere betragteligt! Dansk Evalueringsselskabs konference 2007

Notation • En tredje parameter er marginale eller lokale »Average Treatment Effects«. Måler effekten af et program blandt en gruppe på en relevant margin. • Sammenligninger af »MATE« og marginalomkostninger ved udvidelse eller begrænsninger giver cost benefit omkring ændringer på marginen • En »MATE« til hver margin! Dansk Evalueringsselskabs konference 2007

Notation • Disse parametre vil nogen gange inkludere generelle ligevægtseffekter – afhænger af design af analysen • »GE« effekter kommer fra ændringer i adfærden for ikke-behandlede enheder pga. programmet • Kan være direkte – ikke-behandlede ændrer adfærd for at kunne få »treatment« • Kan være indirekte – som ved ændringer af relative priser eller ved »displacements« Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori • Række estimatorer præsenteres • Hvordan vælger man mellem disse? • De er ikke retter i en buffet! Vælg ikke fordi • De har et sejt navn • Er opfundet af kendte økonomer eller statistikere • Er de jour estimatoren • Måske er der ikke en passende estimator givet data? Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori • Sociale Eksperimenter • Mest potente værktøj i evaluatorens værktøjskasse • Løser problemet med at finde E(Y0|D = 0) »direkte« • Kan ikke besvare alle spørgsmål • Randomisering kan nogen gang ikke benyttes • Randomisering fanger måske ikke »GE« effekter • Giver ikke (uden yderligere antagelser) fordelinger af effekter. Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori • Sociale Eksperimenter • Praktiske problemer med implementeringen • Ekstern validitet • Randomiseringsbias (+ Hawthorne effekter) • Fortolkning af resultater ved »drop outs« • Hvilken behandling får kontrolpersonerne? • Sociale Eksperimenter kræver også antagelser! Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori • Sociale Eksperimenter • Varianter af randomisering • ved deltagelsestidspunktet • ved kvalifikationstidspunktet: »Hurtigt i gang« • på marginen: »AMU eksperimentet« • Flertrinsrandomisering: burde have været i »Hurtigt i gang« • Randomisering af incitamenter for deltagelse • Hver variant besvarer sit spørgsmål; nogle metoder er måske politisk mere tålelige end andre Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori • Sociale Eksperimenter Oplægsholderen forstår ikke, hvorfor det ikke er embedsmændene, der bør argumentere for ikke at udføre sociale eksperimenter ved alle dyre eller vigtige offentlige (med-)finansierede programmer, hvor der er behov for en evaluering og hvor det samtidigt er muligt • Samfundsvidenskaberne »mangler« deres thalidomid-katastrofe Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori • Selektion på observerbare karakteristika • Eksperimenter løser evalueringsproblemet med det uobserverede kontrafaktum, E(Y0 | D = 1) direkte ved tvungent, og tilfældigt, at holde D = 1 personer, som ville have deltaget under normale omstændigheder, ude af behandlingen • I modsætning til dette løser matching eller regressioner evalueringsproblemet ved at antage, at selektionen er urelateret til det »ikke-deltagende« udfald betinget på et sæt af observerbare variable, X Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori • Selektion på observerbare karakteristika • Betinget uafhængighed siger blot, at deltagelses-beslutningen bliver tilfældig betinget på et sæt af observerbare variable. • Betinget uafhængighed er opfyldt, hvis alle variable, der både påvirker beslutningen om deltagelse, D, og fremtidige udfald, Y, observeres • Dette er potentielt en meget streng antagelse! Kan kun testes ved at udføre eksperimenter Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori • Selektion på observerbare karakteristika • Bemærk, at betinget uafhængighed kan holde for en gruppe variable men ikke for en anden • Men valget af X er ikke arbitrært! Teori og institutionel viden kan guide os i valget af variable • Matching er KLART at foretrække fra OLS • Fri af (altid forkert specificerede) funktionelle former, inkl. homogen effekt • Illustrerer »common support« problemet Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori • Selektion på observerbare karakteristika Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori • Selektion på observerbare karakteristika • Er dette plausibelt? Det er op til empirikeren at argumentere for dette! Baseres på • Økonomisk (eller anden) teori om hvilke variable, der burde betyde noget for deltagelse og udfald • Viden om institutionerne, der påvirker selektions- og udfaldsprocesserne • Det til rådighed værende data • Den eksisterende viden i litteraturen, inklusiv sammenligninger af effekt estimater baseret på matching og eksperimentelle estimater Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori • Selektion på uobserverbare karakteristika • Paneldata metoder • Der eksisterer en periode, t, tilbage i tiden, hvor deltagelse i periode t = 0 ikke påvirker udfaldene • Stort praktisk problem: Vi er nødt til at have adgang til data fra en periode tilstrækkeligt langt bagud i tid, hvor beslutningen om den fremtidige deltagelse ikke påvirker adfærden (forventning) OG vi (ikke individerne på dette tidspunkt) skal vide, om der er deltagelse i fremtiden Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori • Selektion på uobserverbare karakteristika • Paneldata metoder: Before-After • Brug et tidligere udfald for den deltagende enhed som dennes egen kontrol-enhed. Holder hvis • Nem at estimere • Behøver kun data for deltagere • Holder kun, hvis forventet værdi af potentielle udfald ikke ændrer sig over tid. MEGET urealistisk antagelse Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori • Selektion på uobserverbare karakteristika • Paneldata metoder: Before-After • Eksisterer i et hav af mere eller mindre parametriske versioner, eks. Fixed effects estimatorer og first difference • Alle ude af stand til at håndtere »Ashenfelters Dyk« • Eks: Deltagere i aktivering i første uge af 1995 Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori • Selektion på uobserverbare karakteristika • Paneldata metoder: Difference-in-Difference • Antagelsen om at deltagere kan fungere som deres egne kontrolenheder afhænger af temporær stabilitet af de potentielle udfald. • Da dette sjældent er plausibelt, forsøger Dif-in-Dif at »rense« for ændringerne i det potentielle kontrol udfald over tid ved at antage at en anden gruppe eksisterer, der ikke er påvirket af deltagelsen, men er påvirket af de samme ændringer og reagerer på disse ændringer på en måde som deltagerne ville have gjort. Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori • Selektion på uobserverbare karakteristika • Paneldata metoder: Difference-in-Difference • Næsten lige så simpelt at implementere som BA estimatoren. • Tager forskellen mellem den gennemsnitlige ændring i de observerede udfald for deltagerne og ændringen i de observerede udfald for ikke-deltagerne • Centrale antagelse: udfaldene for deltagere og ikke-deltagere udvikler sig på den samme måde over tid • Eksempel: Aktiverede i 1995 og ledige ikke-deltagere Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori • Selektion på uobserverbare karakteristika • Instrumental Variables • Også nogen gange benævnt »exclusion restriction« • Intuitivt er instrumenter variable, som flytter rundt på sandsynligheden for deltagelse, men som ikke påvirker udfaldsvariablene andet end gennem deres effekt på deltagelse • Statistisk er instrumenter variable, der er korrelerede med den endogene variabel, her deltagelsesbeslutningen D, men som ikke er korrelerede med uobserverbare variable i udfaldsligningen Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori • Selektion på uobserverbare karakteristika • Instrumental Variables • Tre mulige måder at finde gode instrumenter på • Teori kombineret med smart dataindsamling: Eks. afstand til universitet • Eksogen variation i administrative implementeringer: Eks. sagsbehandler attitude, variation i pasningsgaranti over kommuner • Bevist konstruktion: Eks. eksperiment eller lotteri (session). Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori • Selektion på uobserverbare karakteristika • Instrumental Variables • Fordele: Nem at implementere. Både Heckman selection model og IV ligger som standard procedurer i de fleste statistikprogrammer. Fortolkningen er ofte lige til og policy-relevant. • Ulempe: Mange gange svært at argumentere for uafhængigheden af instrumentet med uobserverede led i udfaldsligningen. Litteraturen er ikke overstrøget med eksempler på instrumenter. Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori • Regression Discontinuity Design • Er estimatoren i øjeblikket i faglitteraturen • Idé: Der eksisterer en gruppe af ikke-deltagere, som er tilstrækkelig lig deltagere bortset fra (ofte) én variabel, som reducerer deltagelsessandsynligheden deterministisk (eller »fuzzy« ) til nul • Eksempel: Hvis et træningsprogram kun er tilgængeligt for unge under 25, så i det mindste for året, hvor programmet introduceres, vil der være ikke-deltagere på 26, som måske er en god sammen-ligningsgruppe for de 25 årige (forudseenhed?). • Andet eksempel: Forbrydelse & Straf Dansk Evalueringsselskabs konference 2007

Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori • Generel Ligevægtsmodeller • Fire typer af modeller: • Alle ovenstående – antager problemet væk • Multiple ligningssystemer – gammeldags og ikke klart hvordan kanalerne virker. Identifikation? • »Magiske multiplikatorer«. Sjældent funderet i noget (hvilket selvfølgelig gør dem attraktive). • Direkte estimation / kalibrering af strukturel generel ligevægtsmodel Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori • Strukturel »GE«-model: SSP i Canada. • SSP meget lig det danske ”Ret og Pligt til løntilskud” for langtidsledige • Stor succes i tidlige 1990’ere som eksperimentelt forsøg • Målgruppe: Langtidsledige enlige forældre på kontanthjælp • Foranstaltning: Betinget på fuldtidsbeskæftigelse (min 30 t/u) fik man halvdelen af forskellen mellem $3,000 og lønindkomsten pr måned i op til tre år • Eksempel: Mor på kontanthjælp får $ 712 pr måned. 30 t/u til $ 5.00 = $650. Modregnes fuldt ud I kontanthjælpen. Men under SSP 0.5*(3,000-650) = $1,175… $712 vs. $1,825 • Result: Imponerende ATET effekter på beskæftigelsen og ssh for kontanthjælpsmodtagelse. Kortsigtseffekt på14 procent points. (En af) de største effekter målt ved eksperimentelle evalueringslitteratur • Men ‘kun’ 7 % efter 1½ år Dansk Evalueringsselskabs konference 2007

Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori • Strukturel »GE«-model: SSP i Canada Kombination af randomisering flere steder i processen samt kon-struktionen af en »GE«-model muliggjorde »komplet« evaluering: • Ingen samlet effekt på beskæftigelsen: Dagpengemodtagere oplevede et fald i deres beskæftigelseschancer - BÅDE ligevægtseffekt OG en reaktion på nye incitamenter • Et fald i lønniveauet: • Man er villig til at acceptere lavere løn som følge af tilskuddet • MEN blandt andre lønmodtagere steg lønnen en lille smule. Forhandlingsposition bedre for lønmodtagere! RESULT: CBA konklusioner vendt på hovedet. Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori • Valg af estimator • Sociale eksperimenter mest overbevisende • Når dette ikke er muligt, må en af de andre bruges. • Faglitteraturen er efterhånden fyldt med eksempler, hvor ikke-eksperimentelle estimatorer har været anvendt på eksperimentelt data. En række forskellige scenarier at vælge imellem. • Tidligere var litteraturen i vidt omfang fokuseret på at finde den »magiske økse« der kunne slå panden ind på monstret »selv-selektion« Dansk Evalueringsselskabs konference 2007

Økonometrisk Teori • Valg af estimator • »Åbenbare« bemærkninger • Hvis man læner sig op ad selektion på observerbare karakteristika, så skal data være rigt! Sammenlign individer fra samme arbejdsmarked, brug samme mål for udfaldsvariablen, brug information om dynamikken i selektionsprocessen. • Få forståelse for institutionerne bag selektionen! • Hvis man bruger IV, så skal man have et instrument! • Hvis man bruger paneldata metoder, så skal man have data i et panel! Dansk Evalueringsselskabs konference 2007

Alternativer til Økonometrisk Evaluering • Deltageres selvevaluering eller oplevet udbytte • spørge / interviewe deltagere eller sagsbehandlere direkte om, efter endt deltagelse, programmet havde nogle gavnlige effekter og i bekræftende fald, hvor store disse så var? • Dette ville spare folk med ansvar for evalueringerne masser af tid, penge, og indsats, hvis deltagere eller deres sagsbehandlere på troværdig vis kunne evaluere et program direkte. Dansk Evalueringsselskabs konference 2007

Alternativer til Økonometrisk Evaluering • Deltageres selvevaluering eller oplevet udbytte • Ringe evidens for at dette. • For at være valide og brugbare, må respondenterne være i stand til korrekt at estimere kontrafaktum – hvordan det ville være gået hvis ikke de havde deltaget i interventionen – og så foretage en meningsfyldt sammenligning med det faktiske udfald. • kognitive begrænsninger af betydning (de fleste af os er dårlige »intuitive statistikere«) • problemer af survey-mæssig karakter (den adspurgte ønsker måske ikke at fornærme udspørgeren ved at tilkendegive, at indsatsen var virkningsløs, eller måske oven i købet indrømme over for sig selv, at deltagelsen havde været spild af tid og ressourcer?). Dansk Evalueringsselskabs konference 2007

Evaluering og Effektmåling i Praksis