1 / 46

Statistik II Lektion 4 Generelle Lineære Modeller

Statistik II Lektion 4 Generelle Lineære Modeller. Simpel Lineær Regression Multipel Lineær Regression Flersidet Variansanalyse (ANOVA). Logistisk regression. Y afhængig binær variabel X 1 ,…,X k forklarende variable, skala eller binære Model: Sandsynlighed:. Generel Lineær Model.

Télécharger la présentation

Statistik II Lektion 4 Generelle Lineære Modeller

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Statistik II Lektion 4Generelle Lineære Modeller Simpel Lineær Regression Multipel Lineær Regression Flersidet Variansanalyse (ANOVA)

  2. Logistisk regression • Y afhængig binær variabel • X1,…,Xk forklarende variable, skala eller binære • Model: • Sandsynlighed:

  3. Generel Lineær Model • Y afhængig skala variabel • X1,…,Xk forklarende variable, skala eller binære • Model: Middelværdien af Y givet X • Mere præcist: i’te observation ud af n er givet ved • xj,i er j’te forklarende variabel for i’te observation. • e1,…,en er uafhængige og identisk fordelt ei ~ N(0,s2) IID

  4. Simpel lineær regression • GLM med én skala forklarende variabel (k=1) Y E[Y|X] = a + β1X • Modellen er { Yi β1 εi 1 • Modellen siger: • E(Y|X) = a + b1X • V(Y|X) = σ2 • Y|X ~ N(a + β1X, σ2) a0 X Xi

  5. x1 x2 x3 x4 x5 Endnu en tegning… Y Yi|xi~N(a + β1xi,σ2) i.i.d. normalfordelte fejlled X x1 i=1 i=1

  6. Estimation • Model: • yi = a + b1 xi + ei • εier i.i.d. N(0,σ2) • a, β1ogσ2 er modellens parametre – ukendte! • Estimation af β0ogβ1svarer til at vælge den linje, der passer bedst til de observerede punkter. • Estimerede regressions linje • aer estimat for aog b1 er estimat for β1. • ”Y hat” er estimat for E(Y|X) • Spørgsmål: Hvordan estimerer vi aog β1?

  7. Residual led • er den lodrette afstanden fra den estimerede linie til datapunktet (xi,yi). Y Den estimerede regressionslinje X Xi

  8. Mindste kvadraters metode • Vi vil finde a ogb1 så summen af de kvadrerede fejl bliver mindst mulig. • Dvs, vi vil minimere • SSE er Sum of Squared Errors. • Skrevet ud: • Bemærk: Funktion af to variable (a og b1).

  9. Minimering SSE er en funktion af a og b1. Vi vil finde a og b1 så SSE er mindst mulig. a SSE b1

  10. Test af hældning (β1) • Test for om hældningen, β1er forskellig fra nul: • Teststørrelse: • Numerisk store værdier af t er ufordelagtige for H0. • SE(b1) er standardfejlen for estimatet b1. • Hvis H0 er sand følger t en såkaldt t-fordeling med n-k-1 frihedsgrader, hvor n er antal observationer.

  11. Test af hældning (β1) • Vælg et signifikansniveau, typisk α=0.05. • Udregn teststørrelsen • Bestem p-værdien (SPSS). • Beslutning: Hvis p-værdien < α afvises H0. t-fordeling med n-2 frihedsgrader 0 . 8 0 . 7 0 . 6 0 . 5 0 . 4 0 . 3 0 . 2 0 . 1 0 . 0 Orange område = p-værdi

  12. Fortolkning/Eksempler på H0 Er der en lineær sammenhæng mellem X og Y? H0: β1=0ingen lineær sammenhæng H1: β1≠0lineær sammenhæng Følgende er eksempler, hvor H0 accepteres. Konstant Y Usystematisk variation Ikke-lineærsammenhæng Y Y Y X X X

  13. Eksempel • Y : Forbrug af gas (gas) • X : Udetemperatur (temp) • Scatterplot → • SPSS: • Estimerede model: • Både skæring (a) og hældning (b1) er signifikante!

  14. SPSS • Analyze → General Linear Models → Univariate… Kategoriske forklarende variable Skala forklarende variable

  15. Forklaret og uforklaret afvigelse • Lad være gennemsnittet af alle yi’er • yi’s afvigelse fra kan opdeles i to. Y . Uforklaret afvigelse Totale afvigelse Forklaret afvigelse X

  16. Y Y X X Total og forklaret variation - illustration Den totale variation ses når vi “kigger langs” x-aksen Den uforklarede variation ses når vi “kigger langs” regressionslinjen

  17. Den totale variation • Lad være gennemsnittet af alle yi’er • Den totale variation for data er • ”Variationen i data omkring datas middelværdi” • SST = Sum of Squares Total

  18. Opslitning af den totale variation • Den totale variation kan opslittes: • er den uforklarede variation. • er den forklarede variation. • SSR = Sum of Squares Regression

  19. Total og forklaret variation • Opsplitning af variationen

  20. Determinations koeffcienten R2 • Determinations Koeffcienten: Andelen af den totale variation, der er forklaret. • Pr definition: 0 ≤ R2 ≤ 1. • Jo tættere R2 er på 1, jo mere af variationen i data er forklaret af modellen. • R2 >0.8 er godt! … R2 meget tæt på 1 er dog mistænkeligt.

  21. Eksempler på R2 Y Y Y X X X SST SST SST S S E R2 = 0 SSE SSE SSR R2 = 0.90 R2 = 0.50 SSR

  22. Er modellen besværet værd? Der er ingen (lineær) sammenhæng mellem Y og de forklarende variable • H0: b1 = b2 = … = bk= 0 • H1: Mindst et bi≠ 0 • Teststørrelse: • Store værdier af Fer ufordelagtige for H0. Der er (lineær) sammenhæng mellem Y og mindst én af de forklarende variable Mean Squared Regression Mean Squared Error

  23. F-test detaljer • Husk at • Det medfører at og • Hvilket giver • Dvs. jo mere modellen kan forklare, større F, og jo mindre tror vi på H0-hypotesen om ingen sammenhæng.

  24. Eksempel: R2og F-test MSR SSR p-værdi SSE F SST MSE

  25. F-fordelingen F-fordeling 0 . 7 0 . 6 0 . 5 0 . 4 ) F ( f 0 . 3 Areal = p-værdi 0 . 2 0 . 1 0 . 0 F 0 1 2 3 4 5 F

  26. Eksempel - fortsat • Y : Forbrug af gas, skala (gas) • XTemp : Udetemperatur, skala (temp) • XIsolering: {Før, Efter}, kategorisk (insulate) • Omkod XIsolering til binær variabel XFør • XFør = 1 hvis XIsolering = Før • XFør = 0 hvis XIsolering = Efter • Model:

  27. Fortolkning af model • Når XIsolering = Før • Når XIsolering = Efter • To linjer med forskellig skæringspunkter! • Før angiver forskellen i skæringspunkt.

  28. To regressionslinjer med forskellige skæringer, men samme hældning Y Linje for XFør=1 a+ bFør Linje for XFør=0 a X1

  29. Eksempel og SPSS • SPSS: Som før, dog er ’Insulate’ tilføjet ’Fixed factor’ • Som ventet er F-testet stadig signifikant. • Som ventet er R2vokset – med nye variable kan modellen aldrig forklare mindre end før. • Bemærk at R2 er meget større!

  30. Eksempel og SPSS • Estimater • Estimeret model: • Prædikteret gas-forbrug for et hus før det isolering når temperatur er 7o (xTemp = 7 og XFør=1):

  31. Vekselvirkning / Interaktion • Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable. • Y, XTemp og XFør er som før. • Introducer: XTemp,Før= XTemp∙XFør • Model

  32. Fortolkning • Når XIsolering = Før: • Når XIsolering = Efter: • bTemp,Førbeskriver forskellen i hældningen mellem de to regressionslinjer.

  33. SPSS • Hoved-effekt: ”Ensom” variabel • Interaktionsled: Produkt af to eller flere variable • I SPSS: Under ’Model’ angiv hoved-effekter og interaktionsled. • Indsæt altid hoved-effekter først!

  34. Scatterplot → • Estimater • Estimeret model:

  35. Variansanalyse (ANOVA) • En Generel Lineær Model, der kun har kategoriske forklarende variable, kaldes en variansanalyse. • På engelsk: Analysis of Variance (ANOVA) • Eksempel: • Y: Månedlige forbrug • Shopping: Hver 2. uge, Ugentligt, Oftere • Køn: Mand, Kvinde

  36. Dummy-variable • To kategoriske variable: • Omkodning til dummy variable. • Referencekategorier: ”Kvinde” og ”Ofte” • (SPSS vælger altid sidste kategori som reference)

  37. Model • Den generelle lineære model er: • E(Y|x) = a + bKvindeXKvinde + bH2UXH2U + bUgeXUge • Fortolkning • E(Y|Køn=Mand,Stil) - E(Y|Køn=Kvinde, Stil) = (a + bMand∙1 + bH2U XH2A + bUge XUge ) – • (a + bMand∙0 + bH2A XH2A + bUge XUge) = bKvinde • Dvs. bMand angiver forskellen i gennemsnits-forbruget for mænd i forhold til kvinder (uagtet deres shopping-stil).

  38. Mere fortolkning • bH2U angiver forskellen i gennemsnits-forbrug for folk der handler hver 2. uge i forhold til folk der handler ofte. • bUge angiver forskellen i gennemsnits-forbrug for folk der handler ugentligt i forhold til folk der handler ofte.

  39. Hypotesetest • Hypoteser • H0: bH2A = bUge = 0 • H1:bH2A≠ 0og/ellerbUge ≠ 0 • Teststørrelse: • Store værdier af F er ufordelagtige for H0. • Intuition: Jo mere af den totale variation ”Stil” forklarer, jo større er SSStil og dermed F. SSStil : Sum of Squares for ’Stil’ q : Antal parametre forbundet med ’Stil’ (2)

  40. SPSS • Analyze → General Linear Model → Univarite • ’amtspend’ som ’dependent’ • ’style’ og ’gender’ som ’fixed factor’ • Bemærk at ’style’ ikke er signifikant! • Bemærk: R2 = 0.118, dvs. kun 11,8% af den totale variation er forklaret af modellen!

  41. Estimerede model • Den estimerede model: • E(Y|x) = 374,133+61,183 XMand-27,703XH2U-4,271 XUge • Prædiktion: Gennemsnitsforbruget for en mand, der shopper ugentligt er: • E(Y|Køn = Mand, Shopping = Ugentligt ) = 374,133 + 61,183 ∙1 -27,703 ∙0 -4,271∙1 = 431,045

  42. Vekselvirkning • Introducer vekselvirkning: Køn*Stil • Nye dummy variable: XKøn,Stil = Xkøn*XStil. • Bemærk: Dummy-variable XKøn,Stil = 0 hvis reference-kategori er indblandet.

  43. Model • Den generelle lineære model er: • E(Y|x) = a + bMand XMand + bH2U XH2U + bUge XUge + bMand,H2U XMand,H2U + bMand,Uge XMand,Uge

  44. SPSS • Bemærk: Hoved-effekter før interaktioner!

  45. SPSS • R2 er nu 0,138. • Bemærk: Interaktionen ’Køn*Stil’ er signifikant, mens hovedeffekten ’Stil’ ikke er! • ”Normalt”: Fjerne led med højest p-værdi, dvs. mindst signifikante led. • Hierarkiske princip: Vi fjerner ikke en hoved-effekt, hvis den indgår i en interaktion.

  46. Estimerede model • Estimerede model er: • = 405,727 + 2,048 XMand -61,751 XH2U-44,006 XUge + 67,042 XMand,H2U + 77,196 XMand,Uge

More Related