780 likes | 3.59k Vues
Sammenheng mellom flere variabler – Bivariat Analyse. Kap 13. Type variabler – type analyser. Kategoriske variabler: Krysstabell 1 kat. og 1 kont. variabel: Gj.snittsverdi / median Kontinuerlige variabler: Korrelasjonsanalyse. Krysstabell.
E N D
Sammenheng mellom flere variabler – Bivariat Analyse Kap 13 www.gjestad.biz
Type variabler – type analyser • Kategoriske variabler: Krysstabell • 1 kat. og 1 kont. variabel: Gj.snittsverdi / median • Kontinuerlige variabler: Korrelasjonsanalyse www.gjestad.biz
Krysstabell • Eks fra boka (s. 250): Sammenheng mellom medarbeidersamtale og størrelsen på bedriften? • Størrelsen på bedriften kategoriseres – TEIT ! • Mister informasjon / nyanser • Hvor sette grensene mellom kategoriene? • IKKE gjør det hvis du ikke må ! www.gjestad.biz
Krysstabell • 2 frekvensfordelinger som sees i sammenheng • Marginalfordelinger • frekvensfordeling på hver variabel • Prosentfordelinger i hver celle, i begge retninger. • Avhengig av hva frekvensen sammenlignes mot • Se side 252 – tabell 13.4 www.gjestad.biz
Krysstabell • Eget eks: 2 x 2 tabell: Alkohol og dødsfall over en 15-25 års periode www.gjestad.biz
Avhengig og uavhengig variabel • Årsak – virkning • Logisk begrunnelse for retning: X Y • Eks: Resultat til eksamen – Hvor mye lese til eksamen • Verdien i den avhengige variabelen er avhengig av verdien i den uavhengige variabelen. www.gjestad.biz
Avhengig og uavhengig variabel • Eks: Fattigdom – Psykisk Helse • Oppsett: • Avhengig variabel – rekke • Uavhengig variabel – kolonne • Mye diskusjon på hva som skal stå hvor og det å begrunne dette i presentasjonen av data – TULL ! • Slå sammen kategorier (celler) hvis få individer • Bruk av % vs. antall (N) www.gjestad.biz
Avhengig og uavhengig variabel • Bruk av desimaler ? • Usikkerhet tilsier at vi ikke bruker desimaler. Men gjøres. • Usikkerhet ivaretas av test-statistikk. www.gjestad.biz
Tabell-tolkning • Vanskelig beskrevet • Jo større antall i cellene, jo mindre trenger forskjellen å være • 10 % forskjell • Av 1000 • Av 30 • Hva er en stor forskjell? – Ja, si det ! • Teori og kunnskap påvirker ALLE tolkning av resultater www.gjestad.biz
Sammenlikning av Statistiske mål • Kontinuerlige variabler vs. kategoriske variabler • Kategorisering? Beholde helst målenivået. • Beregne: • Sentraltendens: Aritmetisk gjennomsnitt / Median • Spredning (varians / standardavvik) • Tabell 13.6 • Viser at X middel = 36.89 og at de som har personansvar har lenger arbeidsuke enn de som ikke har personansvar – Men hva med standardavviket? www.gjestad.biz
Mål for samvariasjon – Korrelasjon • Bytte ut det ene leddet i variansformelen: • Varians: individuell variasjon på en variabel • Kovarians: Hvordan individers skårer på en variabel er relatert til skårer på en annen variabel • Kovariansmatrise • Inneholder både varianser og kovarianser www.gjestad.biz
Mål for samvariasjon - Korrelasjon • Korrealsjon (r) • Pearson Produkt Moment Korrelasjons Koeffisient. • Syx = Kovarians (av utvalget) • Sy, Sx = Standardavvik (av utvalget) • r = standardisert kovarians. www.gjestad.biz
Andre formler for korrelasjon: www.gjestad.biz
Mål for samvariasjon - Korrelasjon • Enhetene til måleinstrumentene påvirker ikke korrelasjonens styrke, men likevel problematisk å bruke måle-enhetene gitt en bestemt korrelasjon • r uavhengig av enhetene til måleinstrumentene. • Verdiområde for r • -1: perfekt negativ relasjon • 0: ingen lineær relasjon • +1: perfekt positiv relasjon www.gjestad.biz
Mål for samvariasjon – Korrelasjon • Positiv korrelasjon: Økning i skåre på en variabel forbundet med økning i skåre på den andre variabelen • Negativ korrelasjon: Økning i skåre på en variabel forbundet med reduksjon i skåre på den andre variabelen • X-tra: r2 – forklart varians Y X r2 www.gjestad.biz
Mål for samvariasjon - Korrelasjon • Side 257 • fig 13.2 • Obs. 2 ? • Obs. 1 også ? www.gjestad.biz
Mål for samvariasjon - Korrelasjon • Side 258 www.gjestad.biz
Mål for samvariasjon - Korrelasjon • Side 258 www.gjestad.biz
Mål for samvariasjon – Korrelasjon • Hva er en høy korrelasjon? • Ikke et fasitsvar: avhengig av hva som studeres og forventninger • Så presenteres lav, middels og høy: 0 - .20, .30 - .40 og over .50 !!! • Bivariat analyse og målenivå • Tabell - Side 259 www.gjestad.biz
Er sammenhenger kausale ? • Nei, som regel ikke. • Lovmessighet? Nei, sjelden. • Regel: • Sammenheng mellom X og Y • X må komme før Y (eller i det minste samtidig) • Kontroll for andre teoretisk relevante variabler www.gjestad.biz
Kausale sammenhenger? • Underliggende variabler - 3.variabler • Spuriøse sammenhenger? Condfoundere • Medierende effekt? y x z www.gjestad.biz
Kausale sammenhenger? • Sammenheng? • Bare en forutsetning, men sier ikke noe om kausalitet. • X før Y • Et designproblem: Eksperimentelle studier / flere tidspunkt / panel-studier • Et teoriproblem: Logisk rekkefølge. Eks.: SES hos foreldre – Barns utdanningsvalg. • Hva med underliggende forklaringer her? www.gjestad.biz
Kausale sammenhenger? • Kontroll for andre relevante variabler? • Vanskelig / umulig å oppfylle • Bare exp. studier som kan? • Mekanisme: som kan belyses/diskuteres. TEORI • Konklusjon: Vanskelig å påvise kausalitet. Vil aldri kunne kontrollere for alle relevante variabler • Derfor: vær MODERAT når trekke slutninger. • TEORETISK FORTOLKNING. • Eksp. Studier: indre og ytre validitet www.gjestad.biz
Kontroll for tredje variabel – Trivariat Analyse Kap 14 www.gjestad.biz
To Bivariate Sammenhenger • Kontroll for tredje variabler • Trivariate (3) – et særtilfelle av multivariate • Eks.: prediksjon av inntekt • Prediktorer: Utdanning (H L), Yrkesstatus (H L), Kjønn, Ansinitet. • Prosentfordeling og Prosentdifferanse (=forskjell på 2 prosenttall) • Separate analyser www.gjestad.biz
Y Y X2 X1 X2 X1 Trivariat analyse • 2 separate sammenhenger kan bli seende annerledes ut når disse studeres samtidig. www.gjestad.biz
Trivariat analyse • Hva forklarer at barn blir flinkere til å lese? Føtter eller alder? Størrelse på føtter Lese-ferdigheter ? y x z ? Alder www.gjestad.biz
Trivariat analyse • Finne ut ved å holde en variabel konstant • Se på et og et nivå av en variabel om gangen. • Eks.: se på en aldergruppe om gangen, eks. 10 år. • Se om leseferdighet varierer med forskjellig skostørrelse • Så holde skostørrelse konstant • Se om leseferdighet varierer med forskjellig alder • Sammenheng mellom skostørrelse og leseferdighet er falsk /spuriøs www.gjestad.biz
Trivariat analyse • Sammenhengen skyldes at vi IKKE har tatt hensyn til aldersvariabelen – eller andre variabler • Nytt eksempel: • Yrkesstatus • Utdanning • Yrkesstatus en spuriøs sammenheng, dvs. den viktige variabelen er utdanning. Er det slik? • Fiktive data Inntekt www.gjestad.biz
Trivariat analyse – Alternative modeller Yrkesstatus Inntekt Utdanning Yrkesstatus Inntekt ? Utdanning www.gjestad.biz
Trivariat analyse • Hvis vi ikke kontrollerer for relevante variabler, vil det kunne se ut som om det er en sterkere sammenheng mellom 2 variabler enn det som det egentlig er. • MEN: Vi kan også få sterkere sammenhenger når kontrollerer for andre variabler. • Side 268-271: Holde nivåer konstante av en variabel når studere sammenhenger mellom 2 andre variabler www.gjestad.biz
Trivariat analyse – Samspill • Sammenheng mellom 2 variabler er forskjellig på ulike nivåer av en tredje variabel. • Dette er definisjonen på en interaksjon • Eks fra 272: Utdanning har størst betydning på lønnsnivå for dem som har lav yrkesstatus. • Muligheter for multivariate analyser med flere hovedeffekter og interaksjonseffekter. www.gjestad.biz
Del IV: Slutningsstatistikk– Å generalisere fra utvalg til populasjon www.gjestad.biz
Fra utvalg til populasjon • Populasjon: alle tenkelige observasjoner • Et teoretisk begrep • Resultater fra utvalg (statistikk) som representative for populasjon? • Generaliserbare? • Trukket representativt? • Usikkerhet knyttet til generalisering av resultater • Slutninger om sentraltendens og fordeling • Fordeling i utvalg vs fordeling i populasjon www.gjestad.biz
Beregning av sikkerhetsmargin for gjennomsnitt – estimering Kap 15 www.gjestad.biz
Estimering • Utgangspunkt: Normalfordeling • Fordeling i populasjon er ukjent ! • For å vite snitt og spredning - kartlegg ALLE ! • Estimere fordelingen (parameter-verdier) i populasjonen basert på utvalg • Fra NOEN (estimat-verdi) til ALLE (parameter-verdi) • Tilfeldig utvalg: Sannsynlig at estimat av snittet ligger i nærheten av pop.snittet (boka: i området til???) • Trekke nye utvalg (re-sampling), få nye estimater www.gjestad.biz
Estimering • Tabell 15.1: To valgdagsmålinger og valgresultatet. • Over/Under-representasjon? • Feilmargin – bruke normalfordelingskurven www.gjestad.biz
Normalfordelingskurven • Høyde blant gutter • Fordeling av frekvenser • Flest i midten, så stadig færre jo lenger ut (avvik fra snittet) • Eks: Mange er rundt snittet, få er svært lave/høye • …estimere hva som er området for gj.sn.høyden i populasjonen gutter i vernepliktig alder. (Området?) • Skjevfordeling (skewness) • pos skjev (høyre hale)/neg skjev (venstre hale) • Fordelingens bredde (kurtosis) • Smal og høy vs. Vid og lav • Normalfordeling: snittet separerer 50% over og under. www.gjestad.biz
Normalfordelingskurven • Fordelingsform og standardavvik: • jo bredere fordeling, jo større st.avvik • 1 st.avvik: 34% * 2 = 68% innen +/- 1 st.avvik • 1.96 st.avvik: 95% (13.5% ekstra * 2) • Standardskåre: z = x – x(middel) / s • Hvor mange standardavvik et individ avviker fra snittet. • Snittet = 0, 1 st.avvik = 1 www.gjestad.biz
Å Estimere et gj.snitt i populasjonen ved utvalgets gj.snitt • Uendelig mange utvalg fra populasjonen • Gir fordeling av estimat-verdien: flere verdier, mange nær pop.verdien, noen mer avvikende. • Utvalgs/Samplingsfordeling av verdier fra mange utvalg (sannsynlighetsfordeling) • Gjennomsnitt og Standardavvik • Hvis uendelig mange utvalg: samplingssnittet = pop.snittet • Sentralgrenseteoremet (Central limit theorem): Normalfordeling av utvalgsverdier, uavhengig av hvordan verdiene i populasjonen fordeler seg. www.gjestad.biz
Egenskaper ved tilfeldige utvalg • Hvis trekke for eksempel 40 utvalg fra en populasjon med gitte parametere: • Utvalgsgj.snitt et estimat av populasjons-gj.snitt • Snittet av utvalg-gj.snittene Populasjon-gj.snitt • Gjennomsnittsverdiene vil variere • Standard-feil = Standardavviket av utvalgenes gjennomsnittsverdier. Utvalgsfordeling (Sample distribution). Det gjennomsnittlige avviket av utvalgsgjennomsnittene • Estimert standardavvik: N-1 (df). Et estimat av populasjonsverdien www.gjestad.biz
Å Estimere et gj.snitt i populasjonen ved utvalgets gj.snitt • Mest sannsynlig med verdier nær samplingsgjennomsnittet • Minst sannsynlig at utvalgsgjennomsnitt ligger langt fra samplingsgjennomsnittet • 3 typer fordelinger: • Populasjonsfordeling • Samplingsfordeling • Utvalgsfordeling www.gjestad.biz
Fra små til større utvalg: • Mindre spredning i utvalgsgjennomsnitt og • utvlagets gjennomsnitt mer likt populasjonens gjennomsnitt. • Fordelingskurven blir smalere • Konklusjon: Større utvalg produserer bedre estimater på gjennomsnittsverdien i populasjonen enn små utvalg. www.gjestad.biz
Bruk av hele populasjonen • Hvis alle skårer ble målt: • En ren observasjon hvorvidt det var forskjell på en gitt variabel. • Slipper problemet m/ utvalgsfeil (sampling-error) • Andre mulige typer av feil som kan være årsaken til en gitt forskjell: måling, rekoding www.gjestad.biz
Å Estimere et gj.snitt i populasjonen ved utvalgets gj.snitt • Sannsynlig at beregnet snitt estimerer snittet i populasjonen. Det samme / i nærheten av • 2 forhold påvirker: • Utvalgsstørrelse – Jo større, jo bedre • Spredningen i utvalget – Jo større, jo mindre presist (større konfidensintervall) • Forutsetning: • Samplingssnittet settes lik utvalgsgj.snittet www.gjestad.biz
Å Estimere et gj.snitt i populasjonen ved utvalgets gj.snitt • Spredning / standardavviket til samplingsgjennomsnittene = standardfeil = Observert st.avvik / roten av antall enheter • Estimat på usikkerhet om hva som kan være populasjonens gjennomsnitt www.gjestad.biz
Å Estimere et gj.snitt i populasjonen ved utvalgets gj.snitt • Hvis vi trakk en uendelig mengde utvalg fra samme populasjon, ville 95% av disse utvalgsgjennomsnittene befinne seg innenfor +/- 1.96 standardfeil. • Konklusjon: 95% sannsynlig at vi har rett når vi sier at pop.snittet befinner seg i området innenfor +/- 1.96 st.feil (0.98 cm hver retning). • 5% sannsynlig at vi tar feil – når sier at pop.snittet ligger innen dette området. www.gjestad.biz
Å Estimere et gj.snitt i populasjonen ved utvalgets gj.snitt • Området til standardfeilen = Konfidensintervall: Området som populasjonssnittet ved en gitt sannsynlighet befinner seg innenfor • Vanligvis 95% - men og 99% (+/- 2.58 st.feil) • Estimering dreier seg om sannsynlighet for å gjøre et riktig estimat • 5% sannsynlighet for at vi sier at pop.snittet er innenfor konfidensintervallet. Men det kan være over (2.5% sannsynlig) og under (2.5% sanns.) www.gjestad.biz
Beregning av forskjeller mellom grupper– hypotesetesting Kap 16 www.gjestad.biz
Hypotesetesting • Statistisk signifikanstesting: å undersøke om eventuelle forskjeller mellom utvalg kan generaliseres til også å gjelde mellom populasjonene disse utvalgene er trukket fra. • Påvirket av: • Størrelsen på forskjellen. • Størrelsen på utvalget www.gjestad.biz