Statistik II Lektion 4 Generelle Lineære Modeller

Statistik II Lektion 4Generelle Lineære Modeller Simpel Lineær Regression Multipel Lineær Regression Flersidet Variansanalyse (ANOVA)

Logistisk regression • Y afhængig binær variabel • X1,…,Xk forklarende variable, skala eller binære • Model: • Sandsynlighed:

Generel Lineær Model • Y afhængig skala variabel • X1,…,Xk forklarende variable, skala eller binære • Model: Middelværdien af Y givet X • Mere præcist: i’te observation ud af n er givet ved • xj,i er j’te forklarende variabel for i’te observation. • e1,…,en er uafhængige og identisk fordelt ei ~ N(0,s2) IID

Simpel lineær regression • GLM med én skala forklarende variabel (k=1) Y E[Y|X] = a + β1X • Modellen er { Yi β1 εi 1 • Modellen siger: • E(Y|X) = a + b1X • V(Y|X) = σ2 • Y|X ~ N(a + β1X, σ2) a0 X Xi

x1 x2 x3 x4 x5 Endnu en tegning… Y Yi|xi~N(a + β1xi,σ2) i.i.d. normalfordelte fejlled X x1 i=1 i=1

Estimation • Model: • yi = a + b1 xi + ei • εier i.i.d. N(0,σ2) • a, β1ogσ2 er modellens parametre – ukendte! • Estimation af β0ogβ1svarer til at vælge den linje, der passer bedst til de observerede punkter. • Estimerede regressions linje • aer estimat for aog b1 er estimat for β1. • ”Y hat” er estimat for E(Y|X) • Spørgsmål: Hvordan estimerer vi aog β1?

Residual led • er den lodrette afstanden fra den estimerede linie til datapunktet (xi,yi). Y Den estimerede regressionslinje X Xi

Mindste kvadraters metode • Vi vil finde a ogb1 så summen af de kvadrerede fejl bliver mindst mulig. • Dvs, vi vil minimere • SSE er Sum of Squared Errors. • Skrevet ud: • Bemærk: Funktion af to variable (a og b1).

Minimering SSE er en funktion af a og b1. Vi vil finde a og b1 så SSE er mindst mulig. a SSE b1

Test af hældning (β1) • Test for om hældningen, β1er forskellig fra nul: • Teststørrelse: • Numerisk store værdier af t er ufordelagtige for H0. • SE(b1) er standardfejlen for estimatet b1. • Hvis H0 er sand følger t en såkaldt t-fordeling med n-k-1 frihedsgrader, hvor n er antal observationer.

Test af hældning (β1) • Vælg et signifikansniveau, typisk α=0.05. • Udregn teststørrelsen • Bestem p-værdien (SPSS). • Beslutning: Hvis p-værdien < α afvises H0. t-fordeling med n-2 frihedsgrader 0 . 8 0 . 7 0 . 6 0 . 5 0 . 4 0 . 3 0 . 2 0 . 1 0 . 0 Orange område = p-værdi

Fortolkning/Eksempler på H0 Er der en lineær sammenhæng mellem X og Y? H0: β1=0ingen lineær sammenhæng H1: β1≠0lineær sammenhæng Følgende er eksempler, hvor H0 accepteres. Konstant Y Usystematisk variation Ikke-lineærsammenhæng Y Y Y X X X

Eksempel • Y : Forbrug af gas (gas) • X : Udetemperatur (temp) • Scatterplot → • SPSS: • Estimerede model: • Både skæring (a) og hældning (b1) er signifikante!

SPSS • Analyze → General Linear Models → Univariate… Kategoriske forklarende variable Skala forklarende variable

Forklaret og uforklaret afvigelse • Lad være gennemsnittet af alle yi’er • yi’s afvigelse fra kan opdeles i to. Y . Uforklaret afvigelse Totale afvigelse Forklaret afvigelse X

Y Y X X Total og forklaret variation - illustration Den totale variation ses når vi “kigger langs” x-aksen Den uforklarede variation ses når vi “kigger langs” regressionslinjen

Den totale variation • Lad være gennemsnittet af alle yi’er • Den totale variation for data er • ”Variationen i data omkring datas middelværdi” • SST = Sum of Squares Total

Opslitning af den totale variation • Den totale variation kan opslittes: • er den uforklarede variation. • er den forklarede variation. • SSR = Sum of Squares Regression

Total og forklaret variation • Opsplitning af variationen

Determinations koeffcienten R2 • Determinations Koeffcienten: Andelen af den totale variation, der er forklaret. • Pr definition: 0 ≤ R2 ≤ 1. • Jo tættere R2 er på 1, jo mere af variationen i data er forklaret af modellen. • R2 >0.8 er godt! … R2 meget tæt på 1 er dog mistænkeligt.

Eksempler på R2 Y Y Y X X X SST SST SST S S E R2 = 0 SSE SSE SSR R2 = 0.90 R2 = 0.50 SSR

Er modellen besværet værd? Der er ingen (lineær) sammenhæng mellem Y og de forklarende variable • H0: b1 = b2 = … = bk= 0 • H1: Mindst et bi≠ 0 • Teststørrelse: • Store værdier af Fer ufordelagtige for H0. Der er (lineær) sammenhæng mellem Y og mindst én af de forklarende variable Mean Squared Regression Mean Squared Error

F-test detaljer • Husk at • Det medfører at og • Hvilket giver • Dvs. jo mere modellen kan forklare, større F, og jo mindre tror vi på H0-hypotesen om ingen sammenhæng.

Eksempel: R2og F-test MSR SSR p-værdi SSE F SST MSE

F-fordelingen F-fordeling 0 . 7 0 . 6 0 . 5 0 . 4 ) F ( f 0 . 3 Areal = p-værdi 0 . 2 0 . 1 0 . 0 F 0 1 2 3 4 5 F

Eksempel - fortsat • Y : Forbrug af gas, skala (gas) • XTemp : Udetemperatur, skala (temp) • XIsolering: {Før, Efter}, kategorisk (insulate) • Omkod XIsolering til binær variabel XFør • XFør = 1 hvis XIsolering = Før • XFør = 0 hvis XIsolering = Efter • Model:

Fortolkning af model • Når XIsolering = Før • Når XIsolering = Efter • To linjer med forskellig skæringspunkter! • Før angiver forskellen i skæringspunkt.

To regressionslinjer med forskellige skæringer, men samme hældning Y Linje for XFør=1 a+ bFør Linje for XFør=0 a X1

Eksempel og SPSS • SPSS: Som før, dog er ’Insulate’ tilføjet ’Fixed factor’ • Som ventet er F-testet stadig signifikant. • Som ventet er R2vokset – med nye variable kan modellen aldrig forklare mindre end før. • Bemærk at R2 er meget større!

Eksempel og SPSS • Estimater • Estimeret model: • Prædikteret gas-forbrug for et hus før det isolering når temperatur er 7o (xTemp = 7 og XFør=1):

Vekselvirkning / Interaktion • Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable. • Y, XTemp og XFør er som før. • Introducer: XTemp,Før= XTemp∙XFør • Model

Fortolkning • Når XIsolering = Før: • Når XIsolering = Efter: • bTemp,Førbeskriver forskellen i hældningen mellem de to regressionslinjer.

SPSS • Hoved-effekt: ”Ensom” variabel • Interaktionsled: Produkt af to eller flere variable • I SPSS: Under ’Model’ angiv hoved-effekter og interaktionsled. • Indsæt altid hoved-effekter først!

Scatterplot → • Estimater • Estimeret model:

Variansanalyse (ANOVA) • En Generel Lineær Model, der kun har kategoriske forklarende variable, kaldes en variansanalyse. • På engelsk: Analysis of Variance (ANOVA) • Eksempel: • Y: Månedlige forbrug • Shopping: Hver 2. uge, Ugentligt, Oftere • Køn: Mand, Kvinde

Dummy-variable • To kategoriske variable: • Omkodning til dummy variable. • Referencekategorier: ”Kvinde” og ”Ofte” • (SPSS vælger altid sidste kategori som reference)

Model • Den generelle lineære model er: • E(Y|x) = a + bKvindeXKvinde + bH2UXH2U + bUgeXUge • Fortolkning • E(Y|Køn=Mand,Stil) - E(Y|Køn=Kvinde, Stil) = (a + bMand∙1 + bH2U XH2A + bUge XUge ) – • (a + bMand∙0 + bH2A XH2A + bUge XUge) = bKvinde • Dvs. bMand angiver forskellen i gennemsnits-forbruget for mænd i forhold til kvinder (uagtet deres shopping-stil).

Mere fortolkning • bH2U angiver forskellen i gennemsnits-forbrug for folk der handler hver 2. uge i forhold til folk der handler ofte. • bUge angiver forskellen i gennemsnits-forbrug for folk der handler ugentligt i forhold til folk der handler ofte.

Hypotesetest • Hypoteser • H0: bH2A = bUge = 0 • H1:bH2A≠ 0og/ellerbUge ≠ 0 • Teststørrelse: • Store værdier af F er ufordelagtige for H0. • Intuition: Jo mere af den totale variation ”Stil” forklarer, jo større er SSStil og dermed F. SSStil : Sum of Squares for ’Stil’ q : Antal parametre forbundet med ’Stil’ (2)

SPSS • Analyze → General Linear Model → Univarite • ’amtspend’ som ’dependent’ • ’style’ og ’gender’ som ’fixed factor’ • Bemærk at ’style’ ikke er signifikant! • Bemærk: R2 = 0.118, dvs. kun 11,8% af den totale variation er forklaret af modellen!

Estimerede model • Den estimerede model: • E(Y|x) = 374,133+61,183 XMand-27,703XH2U-4,271 XUge • Prædiktion: Gennemsnitsforbruget for en mand, der shopper ugentligt er: • E(Y|Køn = Mand, Shopping = Ugentligt ) = 374,133 + 61,183 ∙1 -27,703 ∙0 -4,271∙1 = 431,045

Vekselvirkning • Introducer vekselvirkning: Køn*Stil • Nye dummy variable: XKøn,Stil = Xkøn*XStil. • Bemærk: Dummy-variable XKøn,Stil = 0 hvis reference-kategori er indblandet.

Model • Den generelle lineære model er: • E(Y|x) = a + bMand XMand + bH2U XH2U + bUge XUge + bMand,H2U XMand,H2U + bMand,Uge XMand,Uge

SPSS • Bemærk: Hoved-effekter før interaktioner!

SPSS • R2 er nu 0,138. • Bemærk: Interaktionen ’Køn*Stil’ er signifikant, mens hovedeffekten ’Stil’ ikke er! • ”Normalt”: Fjerne led med højest p-værdi, dvs. mindst signifikante led. • Hierarkiske princip: Vi fjerner ikke en hoved-effekt, hvis den indgår i en interaktion.

Estimerede model • Estimerede model er: • = 405,727 + 2,048 XMand -61,751 XH2U-44,006 XUge + 67,042 XMand,H2U + 77,196 XMand,Uge

Statistik II Lektion 4 Generelle Lineære Modeller