360 likes | 608 Vues
Statistik II 2. Lektion. Multipel Lineær Regression. Middelværdi og Varians. Antag at X er en kontinuert stokastisk variabel Antag at X har tæthedsfunktion f(x). Middelværdien (eller den forventede værdi) for X er Variansen for X er
E N D
Statistik II2. Lektion Multipel Lineær Regression
Middelværdi og Varians • Antag at X er en kontinuert stokastisk variabel • Antag at X har tæthedsfunktion f(x). • Middelværdien (eller den forventede værdi) for X er • Variansen for X er • Variansen er altså den forventede kvadrerede afstand fra middelværdien. kaldes standardafvigelsen.
Normalfordelingen • Normal fordelingen har tæthedsfunktionen • hvor • m er middelværdien og • s er standardafvigelsen 95% 2.5% 2.5% m m-1.96s m+1.96s
Regneregler • Antag X er en stokastisk variabel. • Antag a og b er konstanter • Regneregel for middelværdi: • Regneregel for varians: • Eksempel: Håndboldspiller tjener 10,000kr/md + 250kr/mål. • Lad X være det (tilfældige) antal mål/md. • E[X] = 12 og V[X] = 4 • Hvad er middelværdi og varians for indkomst?
Middelværdi og Varians for en Stikprøve • Middelværdi for en stikprøve: • Varians for en stikprøve: • Interessante fakta:
Multipel Lineær Regression • Y afhængig skala variabel • X1,…,Xkk forklarende variable, skala eller binære • Multipel Lineær Regressionsmodel: • xj,i er j’te forklarende variabel for i’te observation. • Fejlleddet ei”opsamler” den uforklarede del af modellen. • Antagelser: • e1,…,en er uafhængige og identisk fordelt ei~ N(0,s2) • Konsekvens:
Simpel lineær regression • MLR med én skala forklarende variabel (k = 1) Y E[Y | X] = a + β1X • Modellen er { Yi b1 ei 1 • Modellen siger: • E(Y | X) = a+b1 X • V(Y | X) = s2 • Y | X~ N(a+b1X ,s2) a X Xi
x1 x2 x3 x4 x5 Endnu en tegning… Y Yi|xi~N(a + β1xi,σ2) i.i.d. normalfordelte fejlled X x1 i=1 i=1
Estimation • Model: • yi = a + b1xi + ei • εier i.i.d. N(0,σ2) • a, β1ogσ2 er modellens parametre – ukendte! • Estimation af aogb1svarer til at vælge den linje, der passer bedst til de observerede punkter. • Estimerede regressions linje • aer estimat for aog b1 er estimat for β1. • ”Y hat” er estimat for E(Y|X) • Spørgsmål: Hvordan estimerer vi aog b1?
Residual led • er den lodrette afstanden fra den estimerede linje til datapunktet (xi,yi). Y Den estimerede regressionslinje X Xi
Mindste kvadraters metode • Vi vil finde a ogb1 så summen af de kvadrerede fejl bliver mindst mulig. • Dvs, vi vil minimere • SSE er Sum of Squared Errors. • Skrevet ud: • Bemærk: Funktion af to variable (a og b1).
Minimering SSE er en funktion af a og b1. Vi vil finde a og b1 så SSE er mindst mulig. a SSE b1
Hypotestestaf hældning (β1) • Spørgsmål: Har den forklarende variabel xj virkelig en betydning for y? • Testfor om hældningen, β1er forskellig fra nul: • Teststørrelse: • Intuition: Værdier af tlangt fra nul er ufordelagtige for H0. • SE(b1) er standardfejlen for estimatet b1. • Hvis H0 er sand er stikprøvefordelingen af ten såkaldt t-fordeling med n-k-1frihedsgrader, hvor n er antal observationer.
Test af hældning (β1) • Vælg et signifikansniveau, typisk α=0.05. • Udregn teststørrelsen • Bestem p-værdien (SPSS). • Beslutning: Hvis p-værdien < aafvises H0. t-fordeling med n-2 frihedsgrader 0 . 8 0 . 7 0 . 6 0 . 5 0 . 4 0 . 3 0 . 2 0 . 1 0 . 0 Orange område = p-værdi
Fortolkning/Eksempler på H0 Er der en lineær sammenhæng mellem X og Y? H0: b1 = 0ingen lineær sammenhæng H1: b1 0lineær sammenhæng Følgende er eksempler, hvor H0ikke kan afvises. Konstant Y Usystematisk variation Ikke-lineærsammenhæng Y Y Y X X X
SPSS • Analyze → General Linear Models → Univariate… Kategoriske forklarende variable Skala forklarende variable
Eksempel • Spørgsmål: Er der sammen-hæng mellem udetempe-raturen og forbruget af gas? • Y: Forbrug af gas (gas) • X : Udetemperatur (temp) • Scatterplot→ • SPSS: • Estimerede model: • Både skæring (a) og hældning (b1) er signifikante! • Fortolkning?
Forklaret og uforklaret afvigelse • Lad være gennemsnittet af alle yi’er • yi’s afvigelse fra kan opdeles i to. Y . Uforklaret afvigelse Totale afvigelse Forklaret afvigelse X
Den Totale Variation Den totale variation i y’erne er givet ved Sum of Squares Total (SST):
Den Uforklarede Variation Den uforklarede variation i y’erne er givet ved Sum of Squares Errors (SSE):
Den Forklarede Variation • Den forklarede variation er betegnes Sum of Squares Regression (SSR) • Man kan vise: • Dvs. • Dvs. Total variation = Forklaret variation + Uforklaret variation
Determinations koeffcienten R2 • Determinations Koefficienten: Andelen af den totale variation, der er forklaret. • Pr definition: 0 ≤ R2 ≤ 1. • Jo tættere R2 er på 1, jo mere af variationen i data er forklaret af modellen. • R2 >0.8 er godt! … R2 meget tæt på 1 er dog mistænkeligt.
Eksempler på R2 Y Y Y X X X SST SST SST S S E R2 = 0 SSE SSR R2 = 0.90 R2 = 0.50 SSE SSR
Er modellen besværet værd? Der er ingen (lineær) sammenhæng mellem Y og de forklarende variable • H0: b1 = b2 = … = bk= 0 • H1: Mindst et bi≠ 0 • Teststørrelse: • Store værdier af Fer ufordelagtige for H0. Der er (lineær) sammenhæng mellem Y og mindst én af de forklarende variable Mean Squared Regression Mean Squared Error
Eksempel: R2og F-test MSR SSR p-værdi SSE F=MSR/MSE SST MSE
F-fordelingen F-fordeling 0 . 7 0 . 6 0 . 5 0 . 4 ) F ( f 0 . 3 Areal = p-værdi 0 . 2 0 . 1 0 . 0 F 0 1 2 3 4 5 F
Eksempel - fortsat • Y : Forbrug af gas, skala (gas) • XTemp : Udetemperatur, skala (temp) • XIsolering: {Før, Efter}, kategorisk (insulate) • OmkodXIsoleringtil binær dummy variabel XFør • XFør = 1 hvis XIsolering = Før • XFør = 0 hvis XIsolering = Efter • Model:
Fortolkning af model • Når XIsolering = Før • Når XIsolering = Efter • To linjer med forskellig skæringspunkter! • Før angiver forskellen i skæringspunkt.
To regressionslinjer med forskellige skæringer, men samme hældning Y Linje for XFør=1 a+ bFør Linje for XFør=0 a X1
Eksempel og SPSS • SPSS: Som før, dog er ’Insulate’ tilføjet ’Fixed factor’ • Som ventet er F-testet stadig signifikant. • Som ventet er R2vokset – med nye variable kan modellen aldrig forklare mindre end før. • Bemærk at R2 er meget større!
Eksempel og SPSS • Estimater • Estimeret model: • Prædikteret gas-forbrug for et hus før det isolering når temperatur er 7o (xTemp = 7 og XFør=1):
Vekselvirkning / Interaktion • Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable. • Y, XTemp og XFør er som før. • Introducer: XTemp,Før= XTemp∙XFør • Model
Fortolkning • Når XIsolering= Før: • Når XIsolering = Efter: • bTemp,Førbeskriver forskellen i hældningen mellem de to regressionslinjer.
SPSS • Hoved-effekt: ”Ensom” variabel • Interaktionsled: Produkt af to eller flere variable • I SPSS: Under ’Model’ angiv hoved-effekter og interaktionsled. • Indsæt altid hoved-effekter først!
Scatterplot → • Estimater • Estimeret model: