Økonometri 1
Økonometri 1. Mere om dataproblemer Gentagne tværsnit og panel data I. Oversigt. Info om ”prøveeksamen” Mere om proxyvariabler og målefejl fra sidste gang. Selektion og dataproblemer Intro til nyt emne: Observationer over individuelle enheder og tid: Wooldridge kapitel 13 og 14.
Økonometri 1
E N D
Presentation Transcript
Økonometri 1 Mere om dataproblemer Gentagne tværsnit og panel data I
Oversigt • Info om ”prøveeksamen” • Mere om proxyvariabler og målefejl fra sidste gang. • Selektion og dataproblemer • Intro til nyt emne: Observationer over individuelle enheder og tid: Wooldridge kapitel 13 og 14. • Uafhængige tværsnit: Sammensætning af observationer over tid (kap. 13.1-2). • Paneldata: Følger de sammeindivider over tid: • To-periode paneldata (W 13.3-4) • Generelt tilfælde: To eller flere perioder (W 13.5, 14) • Fire dobbelt forelæsninger til at dække disse emner. • Ugeseddel 11. Gentagne tværsnit og panel data I
Info om ”prøveeksamen” Ugeseddel 10 er en frivillig ”prøveeksamen”. Formål: I får lejlighed til - under eksamensrealistiske forhold - at: • Løse en opgave af samme type som eksamensopgaven (men ca. halv størrelse) • Afprøve ”infrastrukturen” omkring download og upload af data og programmer • Afprøve den computer og SAS-installation som I har tænkt jer at løse eksamensopgaven på Forløb: • ”Prøveeksamens”-opgaven udleveres/downloades ved øvelserne i uge 16 (ugen efter påske). • Opgaven afsluttes ved øvelserne i uge 17. Anbefalet tidsforbrug i løbet af uge 16/17: 10 timer. • Besvarelsen skal ikke afleveres, men upload af SAS-programmer og datafiler afprøves. • Vejledende besvarelse udleveres efter øvelserne i uge 17 (fredag den 28. april). • Opgaven bliver gennemgået ved forelæsningerne den 3. maj. NB: HUSK KURSUSTILMELDING! Gentagne tværsnit og panel data I
Målefejl i de forklarende variabler • Antag følgende model: • x* er uobserverbar, og i stedet observeres x, som er givet ved • Antagelserne om målefejl: • x kan opfattes som en proxy for x* • OLS er middelret og konsistent Gentagne tværsnit og panel data I
Målefejl i de forklarende variabler • Antagelsen om, at målefejlen er ukorreleret med det observerede x, er ofte urealistisk • Klassiske målefejl • Antagelser: • Disse antagelser er mere naturlige. Gentagne tværsnit og panel data I
Målefejl i de forklarende variabler • Egenskaber ved OLS estimatoren • OLS ikke konsistent • Tavlegennemgang • I kapitel 15 ser vi på, hvordan man kan få konsistente estimater når der er målefejl Gentagne tværsnit og panel data I
Data problemer • Indtil nu har vi antaget, at MLR.2 altid er opfyldt • Vi har antaget, at data stammer fra en tilfældig stikprøve • Der er mange grunde til, at denne antagelse ikke er opfyldt i praksis: • Manglende observationer: Tilfældigt eller ej. • Ikke-tilfældig dataudvælgelse: Exogent eller endogent. Gentagne tværsnit og panel data I
Manglende observationer • Er manglende observationer for en eller flere variabler et problem? • Manglende observationer vil reducere antallet af observationer i analysen • Det afgørende for, om manglende observationer giver alvorlige problemer, er hvorfor observationerne mangler • Hvis observationerne mangler ”tilfældigt”, er det et mindre problem -> mindre præcise estimater Gentagne tværsnit og panel data I
Ikke-tilfældig dataudvælgelse • Der er forskellige måder hvorpå stikprøven ikke er tilfældig (dvs. antagelse MLR.2 ikke er opfyldt): • Eksogen dataudvælgelse • Endogen dataudvælgelse • Stratificeret dataudvælgelse • Det er ikke alle typer af ikke tilfældig dataudvælgelse, som giver anledning til skæve eller inkonsistente OLS estimater Gentagne tværsnit og panel data I
Ikke-tilfældig dataudvælgelse • Eksogen dataudvælgelse: • Dataudvælgelse baseret på en af de forklarende variabler • Denne type af dataudvælgelse vil under forudsætninger af nok variation i de forklarende variable stadig give middelrette og konsistente OLS etimater • Dataudvælgelse baseret på variabler, som er uafhængige af fejlleddet, giver stadig, at OLS estimaterne er middelrette og konsistente Gentagne tværsnit og panel data I
Ikke-tilfældig dataudvælgelse • Endogen dataudvælgelse: • Dataudvælgelse baseret på den afhængige variabel • Eksempler • Gennemsnitsvægt ved session • Lønrelationen (kun baseret på folk som arbejder) • OLS estimator er ikke middelret og ikke konsistent Gentagne tværsnit og panel data I
Ikke-tilfældig dataudvælgelse • Stratificeret dataudvælgelse: • Populationen er delt i grupper (disjunkte grupper som udgør hele populationen) • Nogle af grupperne er udvalgt mere hyppigt end andre, sammenlignet med deres andel af populationen • OLS er middelret og konsistent, hvis gruppeopdelingen er baseret på eksogene variabler Gentagne tværsnit og panel data I
Ekstreme observationer • Ekstreme observationer er observationer, som har stor betydning på værdien af OLS estimaterne • En ekstrem observation får stor betydning på OLS estimater, da OLS bestemmes ved at minimere de kvadrerede residualer • Hvorfor er der ekstreme observationer: • Fejl i data • Enkelte enheder i populationen er meget forskellige fra resten Gentagne tværsnit og panel data I
Ekstreme observationer • Hvad gør man ved ekstreme observationer: • Hvis man er sikker på, at de skyldes fejl i data, bør de ekstreme observationer udelades • Hvis ikke det er en oplagt fejl, er der ingen nemme løsninger • Estimer modellen med og uden de ekstreme observationer • Der findes estimatorer, som er mere robuste overfor ekstreme observationer Gentagne tværsnit og panel data I
Nyt emne: Gentagne tværsnit og paneldata • Tværsnit (”cross section”): Observationer af et sæt af variabler i en given periode, t, for individuelle enheder i=1,2,…,n: • Antager at tværsnittet er en tilfældig stikprøve fra populationen på tidspunkt t • To-periode tilfældet: • Periode-1 tværsnit: • Periode-2 tværsnit: • Hvad er sammenhængen mellem periode-1 og periode-2 tværsnittene? • Uafhængige tværsnit: To uafhængige tilfældige stikprøver fra populationen: (Generelt) forskellige individer i periode 1 og periode 2. • Panel data: Samme n individer i periode 1 og periode 2. Gentagne tværsnit og panel data I
Gentagne tværsnit • Uafhængige tværsnit for to perioder: • Sammensætning af data fra to tværsnit: • En mulighed: Estimation af samlet model: • Alternativt: Se på data i hvert tværsnit for sig: • ”Partial pooling”: Kombinere tværsnit men tillade at koefficienter for visse variabler ændres mellem tværsnittene. Gentagne tværsnit og panel data I
Gentagne tværsnit • Tillade at koefficienterne til nogle af variablerne ændres over tid: Et specialtilfælde af strukturelle skift (Ugeseddel 8) • Brug dummy variabler (W ch. 7): Tidsdummier (fx årsdummier) • To perioder: Dummyvariabel (sædvanligvis for periode 2) indeholder information om tidspunkt for observationen: • Ofte: Tillad at konstantleddet ændres • Tillade at andre koefficienter også kan ændres mellem tværsnit: Interaktionsled. Gentagne tværsnit og panel data I
Gentagne tværsnit: Test • Test: Er koefficienten til konstant over tid? Sædvanligt t-test for i • Tillad alle koefficienter at ændres over tid: Ingen gevinst fra ”pooling” af tværsnittene • Fuldt sæt af interaktionsled i regression: • F-test for • Nem udgave af F-statistic: SSRs fra poolede og separate regressioner (”Chow test”) Gentagne tværsnit og panel data I
Gentagne tværsnit: Hjemmeopgave • Lønregression: Eksempel 13.2 • To uafhængige tværsnit: 1978-CPS, 1985-CPS • Data for log(wage), educ, exper, expersq, union, female for 1,084 arbejdere. • Definer tidsdummy y85 (brug 1978-tværsnit som referencegruppe). • Inkluder ovenstående variabler og y85, y85*educ, y85*female • Data i CPS78_85 på hjemmesiden. • Spørgsmål: • Har ”afkastet af uddannelse” eller ”løngabet” mellem kønnene ændret sig mellem 1978 og 1985? • Chow test af samlet regression: Har det interesse her? Hvorfor (ikke)? Gentagne tværsnit og panel data I
Næste gang • Politikanalyse med gentagne tværsnitsdata. • Panel data: Observationer over tid for de samme individuelle enheder. • W sec. 13.3-13.4: To-periode paneler • Tænk lidt over hjemmeopgaven (ex. 13.2) Gentagne tværsnit og panel data I