300 likes | 518 Vues
Statistik 1 – Lektion 3. By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen. Sidste kursusgang. Stikprøver. Vægtning. Konfidensintervaller. Spredningsdiagrammer. Korrelation. Signifikans. Ekstreme værdier. Denne kursusgang. Mindste kvadraters metode. Spredningsdiagrammer.
E N D
Statistik 1 – Lektion 3 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen
Sidste kursusgang • Stikprøver. • Vægtning. • Konfidensintervaller. • Spredningsdiagrammer. • Korrelation. • Signifikans. • Ekstreme værdier.
Denne kursusgang • Mindste kvadraters metode. • Spredningsdiagrammer. • Lineær regression. • Outliers. • Regressionskoefficienter. • Signifikans. • Transformation for at opnå linearitet.
Mindste kvadraters metode • Metode til at finde den linje, hvor forskellen mellem forventede og observerede værdier er så lille som mulig (dvs. hvor fejlleddet er mindst). • Anvender residualernes (fejlleddenes) kvadrater (deraf navnet), bl.a. for at undgå, at fejlled med forskellige fortegn udligner hinanden.
Mindste kvadraters metode Forventet værdi (model): ŷi=axi+b Observation: yi=axi+b+ei Vi ønsker altså at minimere summen af de kvadrede fejl.
Forudsætninger til lineær regression • Sammenhængen er lineær. • Homoskedasticitet. • Fejlled skal være indbyrdes ukorrolerede. • Uafhængig variabel ukorroleret med fejlleddet. • Fejlleddet skal være normalfordelt. • Lineær regression er dog ret robust overfor variable, hvor ikke alle forudsætninger er overholdt.
Determinationskoefficient • Determinationskoefficienten (R2) angiver graden af forklaring som modellen giver for sammenhængen mellem den afhængige og uafhængige variabel. • Ved bivariat lineær regression vil den være det samme som den kvadrerede korrelationskoefficient (angivet ved Pearsons r), så der gælder at R2=r2. • Determinationskoefficienten kan derfor kun antage værdier mellem 0 og 1, og kan betragtes som en procentvis angivelse af modellens forklaringsevne.
Tolkning af regressionsresultater • Interessante variable: • R: multipel korrelationskoefficient. • R2: Determinationskoefficient (inkl. tilpasset). • B: Regressionskoefficient (inkl. Beta). • Sig: Signifikans.
Konstantleddet Undgå generelt at ekstrapolere til x-værdier, der ligger udenfor datasættet.
Eksempel 1 • Datafilen ”Hovedstadsomraadet …” benyttes. • Vi vil først lave et spredningsdiagram, der viser hvordan den årlige personlige indtægt (persind2) varierer i forhold til hvor mange uddannelsesår respondenterne har gennemført (skoleaar). • Vi vil derefter ved hjælp af SPSS indtegne regressionslinien for denne sammenhæng i spredningsdiagrammet, og bearbejde diagrammets tekstfelter og layout, så det bagefter kan præsenteres i en rapport. • Til sidst vil vi lave en lineær regressionsanalyse af sammenhængen mellem uddannelsens længde og indtægten.
Opgave 1 • Datafilen ”Hovedstadsomraadet …” benyttes. • Respondenter med ekstreme rejselængder med bil skal udelades fra analysen. Brug f. eks. descriptive/exploreog undermenuen statistics/percentiles til at identificere respondenter med rejselængder, som er mere end tre kvartildifferencer over den øverste kvartil, og benyt select cases til at fravælge disse respondenter. • Lav et spredningsdiagram, der viser hvordan respondenternes rejselængde med bil i løbet af undersøgelsesugens fem hverdage, målt i km (bilhverd) varierer med boligens afstand fra Københavns centrum, målt i km (centafs). Brug SPSS til at indtegne regressionslinien for denne sammenhæng i spredningsdiagrammet, og bearbejd diagrammets tekstfelter og layout, så det bagefter kan præsenteres i en rapport. • Lav en lineær regressionsanalyse af denne sammenhæng. Hvor meget stiger den gennemsnitlige rejselængde med bil, når boligens afstand fra Københavns centrum forøges med 1 km? • Hvor godt vil isige, at den retlinjede regressionslinie passer til det observerede mønster af rejselængder og boliglokaliseringer?
Lavt signifikans- eller forklaringsniveau • Mulige forklaringer på lav signifikans el. R2: • Ingen sammenhæng mellem variable • Komplekse fænomener med mange variable • For få observationer • For lille variation • Specifikationsfejl i modellen. • Type 2 fejl: falsk negativ (excessive skepticism). • Indenfor psykologi og samfundsvidenskab (planlægning) er forholdsvis lave R2 værdier ikke unormale, da enkelte faktorer normalt vil have en begrænset forklaringseffekt på folks handlemønstre.
Eksempel 2 • Alder og indtægt sammenlignes. • Ser ikke ud til at være lineær. • Betyder resultatet, at der ikke er nogen sammenhæng mellem variablene?
Eksempel 2 (fortsat) • En kurve passer bedre. • Nedenfor er analysen lavet med en ny variabel, der afhænger af hvor tæt respondentens alder er på 50 år: alder3 = (2500-(50-alder)2).
Opgave 2 • Datafilen ”Hovedstadsomraadet …” benyttes. • Vi så i den forrige opgave, at sammenhængen mellem rejselængder og boliglokaliseringer snarere synes at være kurveformet end lineær. • Så længe boligens afstand fra Københavns centrum er forholdsvis moderat, stiger rejselængden med bil ret markant, jo længere væk fra centrum man bor. Men blandt dem, der bor langt væk fra centrum, ser en yderligere forøgelse af centrumsafstanden ikke ud til at hænge sammen med forøget rejselængde med bil – snarere tvært imod. • Lav separate regressionsanalyser for de respondenter, der bor indtil 30 km fra Københavns centrum, og dem, der bor mere perifert. Respondenter med ekstreme rejselængder skal fortsat holdes uden for analysen. Hvad fortæller disse resultater?
Transformation for at opnå linearitet • Transformation ved logaritmiske funktioner tillægger generelt værdier i en ende af skalaen mere vægt end i den anden ende. • Dette kunne evt. være en mulig justering i forrige opgave, da indflydelsen ikke synes at være så stor for respondenter, der bor langt væk fra centrum.
Eksempel 3 • For at tage højde for, at sammenhængen mellem boligens centrumsafstand og rejselængden med bil ikke er lineær, vil vi transformere rejselængderne ved hjælp af en ikke-lineær funktion. • Vi prøver først at lave en ny variabel med 10-tals logaritmen af rejselængden med bil på hverdage. Benyt transform/compute variable til dette. Vi kalder den nye variabel lgbilrejs. • Vi laver nu et nyt spredningsdiagram med lgbilrejs langs den vertikale akse og centafs langs den horisontale akse, og bruger SPSS til at indtegne regressionslinien. Respondenter med ekstreme rejselængder skal fortsat være udeladt. Vi udfører også en ny regressionsanalyse med lgbilrejs som den afhængige variabel og centafs som den uafhængige variabel. Er der ændringer i modellens forklaringskraft (R2) og i den standardiserede regressionskoefficient? • Vi undersøger hvad der sker, hvis vi i stedet transformerer den uafhængige variabel (boligens afstand fra centrum). Vi laver en ny variabel lgcentafs, som er den briggske logaritme til centafs, og udfører tilsvarende analyser som i forrige eksempel, men med ordinært målte rejselængder.
Opgave 3 • I studiet i Hovedstadsområdet blev også respondenternes samlede rejselængde med alle typer af transportmidler i løbet af ugens hverdage undersøgt. Denne variabel blev benævnt hverdtot. • Brug desciptive/explore til at identificere respondenter med ekstremt lange samlede rejselængder i løbet af hverdagene, og fravælg disse respondenter. • Lav et spredningsdiagram for sammenhængen mellem centafs og hverdtot, og derefter et tilsvarende diagram for sammenhængen mellem lgcentafs og hverdtot. Brug i begge tilfælde SPSS til at indtegne regressionslinien. • Udfør regressionsanalyser af sammenhængene mellem centafs og hverdtot, og mellem lgcentafs og hverdtot. Er R2-koefficienten og den standardiserede regressionskoefficient blevet forhøjet, sammenlignet med analyserne baseret på ordinært målte centrumsafstande? • Hvad kan evt. forskelle forklares ved?
Eksempel 4 • Baseret på teoretiske overvejelser såvel som foreløbige analyser af det empiriske datamateriale, fandt forskerne, at sammenhængen mellem boligens afstand fra Københavns centrum og rejselængderne bedst kunne beskrives, hvis centrumsafstanden transformeredes ved hjælp af en funktion sammensat af en hyperbolsk tangensfunktion og en kvadratisk funktion. Lav en sådan ny, transformeret centrumsafstandvariabel, afstfun2, baseret på den følgende funktion: afstfun2 = (Exp(centafs*0.18 – 2.85) - Exp( -(centafs*0.18 – 2.85))) / (Exp(centafs*0.18 – 2.85) + Exp( - (centafs*0.18 – 2.85))) – (0.00068*( centafs – 42)*(centafs – 42) – 2.8). • Lav et spredningsdiagram for sammenhængen mellem afstfun2og hverdtot, og brug SPSS til at indtegne regressionslinien. Respondenter med ekstreme rejselængder skal fortsat være udeladt. • Udfør en regressionsanalyse af sammenhængen mellem afstfun2og hverdtot. Er R2-koefficienten og den standardiserede regressionskoefficient blevet forhøjet, sammenlignet med analyserne baseret på ordinært målte og logaritmisk målte centrumsafstande?
Multipel lineær regressionsanalyse Model: y=a1x1+a2x2+…+anxn+b Indtægt Alder Uddannelse
Multipel lineær regressionsanalyse Med flere variable stiger R2 som regel, men ikke nødvendigvis den tilpassede R2. Hvis antallet af variable er ligeså stort som antallet af observationer, så vil R2 altid være lige med 1, og man bør derfor se på den tilpassede R2 ved mange observationer.
Opgave 4 • Udfør en multipel regressionsanalyse af følgende uafhængige variablers effekter på den samlede rejselængde i løbet af ugens hverdage (hverdtot): • Boligens ikke-lineært målte beliggenhed i forhold til Københavns centrum (aftstfun2). • Uddannelseslængde (skoleaar). • Personlig årsindtægt (persind2). • Hvorvidt respondenten er erhvervsaktiv (erhvakt). • Hvorvidt tjenesterejser indgår som en del af den rapporterede rejselængde (erhvrejs). • Alder, målt som den transformerede variabel, der angiver hvor tæt på 50 år respondenten er (alder3) . • Respondenter med ekstreme rejselængder skal udelades fra analysen. • Hvilke variable har de stærkeste sammenhænge med rejselængden i løbet af ugens hverdage? • Udfør samme analyse igen, men denne gang på hhv. mænd og kvinder. • Hvilke kønsspecifikke forskelle kan vi se ud fra resultaterne?
Modelsøgning • Enter: • Manuel modelsøgning. Giver god kontrol over modellen, men kræver indsigt og overblik. Tager også længere tid. • Forward: • Starter med en tom model og inkluderer herefter variable baseret på deres partielle korrelationer. • Backward: • Starter med en mættet model og ekskluderer herefter variable baseret på deres signifikansniveau. • Stepwise: • Som forward, men undersøger løbende om der er ikke-signifikante variable i modellen og ekskluderer dem.