390 likes | 568 Vues
Statistik Lektion 2. Sandsynlighedsregning Analyse af kontingenstabeller. Sandsynlighedsregning. Definition : Hændelse , resultat af et ”eksperiment” Fx hændelsen at det regner i morgen.
E N D
StatistikLektion 2 Sandsynlighedsregning Analyse af kontingenstabeller
Sandsynlighedsregning Definition: Hændelse, resultat af et ”eksperiment” Fx hændelsen at det regner i morgen Definition: Sandsynlighed, andelen af gange hændelsen indtræffer når vi udfører eksperimentet maaaaange gange. Fx. Kast med en mønt. Sandsynligheden for plat er 50%, da andelen af plat er 50% i det lange løb. Notation: Lad A være en hændelse. P(A) betegner sandsynligheden for hændelsen A.
Regneregler for sandsynligheder Lad A være en hændelse P(ikke A) = 1- P(A) Hvis A og B er hændelser, der ikke kan indtræffe samtidigt: P(A eller B) = P(A) + P(B) Fx. sandsynligheden for at yngste persons navn begynder med A eller B To hændelser er (statistisk) uafhængige hvis og kun hvis P(A og B) = P(A)P(B) Fx sandsynligheden for to 6’ere i et terningkast…
Sandsynlighedsfordeling: Diskret variabel Definition: Diskret variabel En variabel er diskret, hvis den kan tage højst tælleligt mange værdier. Fx. Antal børn i en familie. Antal terning kast inden 6’er. Definition: Sandsynlighedsfunktion Sandsynligheds fordelingen for en diskret variabel er beskrevet ved en sandsynligheds funktion P(y), så 0 ≤ P(y) ≤ 1 og Salle y P(y) = 1 hvor y er et enkelt udfald af vores eksperiment.
Eksempel Spørgsmål: Hvad mener du er det ideelle antal børn? y er antal børn angivet af en tilfældigt udvalgt amerikaner. P(2) er altså sandsynligheden for at en tilfældig udvalg person svarer at det ideelle antal børn er 2
Sandsynlighedsfordeling: Kont. variabel Definition: Kontinuert variabel En variabel er kontinuert, hvis den kan tage alle værdier i et interval. Fx. Højden eller indkomst for en BEM studerende. Definition: Tæthedsfunktion Sandsynlighedsfordelingen for en kontinuert variabel er beskrevet ved en tæthedsfunktion f(y), så 0 ≤ f(y) og . hvor y er et enkelt udfald af vores eksperiment.
Eksempel Ventetid på at komme igennem til help-line: Lad T være den (tilfældige) ventetid. Sandsynligheden for at vente mere en 15 minutter: 6%
Normalfordelingen • Normal fordelingen har tæthedsfunktionen • hvor • m er middelværdien og • s er standardafvigelsen 95% 2.5% 2.5% m m-1.96s m+1.96s
Stikprøvefordeling: Motivation • Påstand: Andelen af vælgere der ville stemme på Schwarzenegger er 50%. • Stikprøve: Vi spørger 508 tilfældigt udvalgte stemmeberettigede. 284 siger svarer ja. • Spørgsmål 1: Hvis påstanden er korrekt, hvor mange Schwarzenegger stemmer ville vi have forventet? • Spørgsmål 2: Hvad er umiddelbart det bedste bud på, hvad den sande andel af Schwarzenegger stemmer er? • Spørgsmål 3: Er denne afvigelse, så stor at vi kan afvise vores påstand?
Simuleret svar på spørgsmål 3… • Spørgsmål: Hvis påstand om 50% opbakning er korrekt, hvor ekstrem er vores rundspørge? • Ide: Få en computer til at simulere 1000 ”kunstige” rundspørger, hvor påstanden er korrekt. • Konkret: Computeren kaster en fair mønt 508 gange og udregner andelen af plat. Gentages 1000 gange. • Resultat: • Andel ”mere ekstreme” simulationer: 18,6%
Formaliseret svar • Setup: Sande andel betegnes p • Hypoteser: • Arbejds-hypotese (H0): p = 0.5 • Alternativ-hypotese (H1): p 0.5 • Observerede andel: • Sandsynlighed for ekstrem andel: 18,3% (p-værdi) Normal-approksimation til stikprøvefordelingen
Konfidensinterval Definition: Konfidensinterval Et 95% konfidensinterval indeholder den sande parameterværdi med 95% sikkerhed. • Eksempel: • Antag er den estimerede andel baseret på n svar. • Da er et 95% konfidensinterval givet ved • I Schwarzenegger eksempel • Dvs. vi 95% sikre på at den sande andel af ja’er blandt vælgerne er mellem 0.53 og 0.59.
Kontingenstabel • I en kontingenstabel indeholder hver celle det antal observationer, der falder inden for den givne kombination af kategorier. • Spørgsmål: Er der sammenhæng mellem farvevalg og køn? Celle: Antal personer, der er kvinde og som foretrækker rød
Spørgsmålet på hovedet • Spørgsmål: Er der sammenhæng mellem farvevalg og køn? • Vi vender spørgsmålet på hovedet: • Spørgsmål: Kan vi afvise at der ingen sammenhæng er mellem køn og farvevalg? • Antag at der ingen sammenhæng er mellem køn og farvevalg. • Hvilket antal observationer ville vi så forvente i hver celle i vores kontingenstabel? • Vi antager at de marginale antal ligger fast, dvs. det totale antal mænd, kvinder, røde, grønne og blå.
Forventede antal • Hvis der ingen sammenhæng er mellem køn og farvevalg, så bør procentfordelingen være den samme blandt mænd og kvinder. • Andel røde: 55/124 = 44.4% • Forventede røde blandt mænd: 44.4% af 64 = 64*55/124 = 28.4
Generel formel for det forventede antal • I hver celle har vi • Xij: observerede antal i celle (i,j) • Eij: forventede antal i celle (i,j) • Desuden har vi • N: Totale antal observationer • Ci: Antal observationer i ’te kolonne • Rj: Antal observationer er j’te række • Forventede antal for celle ( i,j ) er • Eij= CiRj/ N
Ombytning uden betydning • Vi kan bytte rundt på farve og køn uden at det gør en forskel: • Andelen af mænd: 60/124 = 48.4% • Forventede antal mænd blandt røde: 48.4% af 55 = 55*60/124 = 28.4
Så langt så godt • Vi har… • Vi har arbejdshypotesen at der ikke er sammenhæng mellem køn og farvevalg • Vi har fundet de forventede antal, hvis arbejdshypotesen er sand. • Vi mangler… • Vi mangler et mål for hvor meget de forventede antal afviger fra de forventede. • Vi mangler en måde at afgøre, hvornår afvigelsen er så stor, at vi ikke længere kan acceptere arbejdshypotesen.
Mål for afvigelsen • Vi bruger følgende mål • Vi kalder c2 (”ki-i-anden”) en teststørrelse. • c2bruges til at teste arbejdshypotesen. • Bemærk: • c2≥ 0 • c2= 0 perfekt match • Jo større c2, jo mindre tror vi på arbejdshypotesen
c2 teststørrelse for eksemplet • I en kontingenstabel indeholder hver celle det antal observationer, der falder inden for den givne kombination af kategorier. • Spørgsmål: 4.9 er ikke nul! Men er det så langt fra nul, at vi ikke kan acceptere arbejdshypotesen om ingen sammenhæng?
Lidt mere teoretisk tilgang • Vi har en teoretisk fordeling: • En såkaldt c2-fordeling med 2 frihedsgrader. • Det røde areal svarer til sandsynligheden for at observere en mere ekstrem c2-værdi. • Her er arealet 8.49%. Denne værdi kaldes også p-værdien. • I en generel tabel med r rækker og c kolonner, vil histogrammet svare til en c2-fordeling med (r-1)(c-1).
Beslutningen! • Jo mere ekstrem c2 -værdi, jo mindre tror vi på arbejdshypotesen. • Jo mere ekstrem c2 -værdi, jo mindre p-værdi. • Hvis p-værdien er mindre end 5% så afviser vi arbejdshypotesen. • Vi siger at testen (af arbejdshypotesen) er signifikant. • Grænsen på de 5% kaldes signifikans-niveauet, og betegnes a. • Signifikans-niveauet kan vælges frit, mer er typisk 10%, 5% eller 1%. • Signifikans-niveauet vælges før teststørrelsen udregnes! • I eksemplet kan vi ikke afvise arbejdshypotesen. Vi kan altså ikke afvise af der ingen sammenhæng er mellem køn og farvevalg.
Signifikanstest generelt • Opstil statistisk model / statistiske antagelser • Fx. at stikprøven er tilfældigt udvalgt. • Opstil arbejds-hypotese • Betegnes H0 , nul-hypotesen • Fx. uafhængighed mellem køn og farvevalg • Opstil alternativ-hypotese • Den ”modsatte” hypotese af H0 • Betegnes H1 • Bemærk: Arbejdshypotesen er ikke nødvendigvis den hypotese vi tror på eller gerne vil ”bevise”. • Arbejdshypotesen er generelt valgt, så den er mere ”præcis” end alternativ-hypotesen. Uafhængighed (ingen sammenhæng) er præcist, mens alternativet, afhængighed, kan være mange ting.
Signifikanstest generelt forts. • Vælg signifikansniveau a • Typisk 5%. • Konstruer en test-størrelse • Hvilke værdier er ekstreme for H0? • Beregn teststørrelsen • Beregning af test-størrelse ordnes af SPSS • Beregn p-værdien • p-værdien er sandsynligheden for at observere en mere ekstrem test-størrelse ”næste gang”, under antagelse af at H0 er sand, og at modellen og dens antagelser er korrekte. • Hvis p-værdien < a, så kan vi ikke afvise H0. • Hvis p-værdien > a, så afviser vi H0 og accepterer H1 hypotesen. • Fortolk resultatet.
Man begår fejl • Når vi udfører en signifikanstest kan vi begå en af to fejl • Type 1 fejl: Vi afviser H0 selvom den er sand • Type 2 fejl: Vi accepterer H0 selvom den er falsk • Antag modellen er korrekt, H0 er sand og at vi har valg et signifikans-niveau a. • Hvad er da sandsynligheden for at begå en Type 1 fejl?
Lidt gode råd • p-værdien er ikke sandsynligheden for at H0 er sand. • p-værdien er ikke er udtryk for styrken af sammenhængen mellem to variable. • p-værdien kan fortolkes som et udtryk for hvor meget vi tror på H0 hypotesen. • HVER GANG i ser en p-værdi i SPSS (”sig.”), så gør jer hver gang klart, hvilken H0 hypotese den passer sammen med!!! • Det er nemt nu, men det bliver mere indviklet senere…
Eksempel i SPSS • Analyze → Descriptive Statistics → Crosstabs
SPSS output • Opstiller hypoteser: • H0: Uafhængighed mellem arbejdsløs og vold/trusler • H0 : Afhængighed • Sig. niv.a = 5% • Da p-værdien < 0.05 afviser vi at arbejdsløshed og vold/trusler er uafhængige. c2-teststørrelse p-værdi
Mere end to variable • Indtil nu: Afgøre om der er en (statistisk signifikant) sammenhæng mellem to kategoriske variable. • Det næste: Kan andre kategoriske kontrolvariable hjælpe med at forstå en sammenhæng? • Ideen er at inddele det indsamlede data efter hvert svar i kontrolvariablen. Og derefter gentage tabelanalysen for hver delmængde af data. Vi siger vi stratificerer efter kontrolvariablen. • Lad os se på nogle eksempler…
Sammenhæng mellem race og dom • Test: H0: Ingen sammenhæng ml. race og dom. • Teststørrelse: c2 = 3.1, df = 1, p = 0.078 ( > 0.05 ), g = -0.155 • Konklusion: Vi kan ikke afvise H0. Dvs., vi kan ikke afvise, at der er uafhængighed mellem morders race og afsagt dom. • (Simpelt: Ingen sammenhæng)
Kontrolvariabel: Offers race Χ2= 0.55 df = 1 p = 0.59 g = 1.00 Χ2= 96.5 df = 1 p = 0.000 g = 0.71
Opsummering • Sammenhængen mellem race og dom var skjult • Ikke-stratificeret analyse: Ikke-signifikant sammenhæng • Stratificeret analyse: Signifikant sammenhæng • Sammenhængen er muligvis lokal • Kun signifikant sammenhæng når offer er hvid • Simpsons paradoks – sammenhængen er ”vendt” • Ikke-stratificeret analyse: Hvide straffes hårdest! • Stratificeret analyse: Sorte straffes hårdest – uanset offers race.
Stratificering i SPSS • Stratificering efter offers race.
Elaborering: Arbejde og boligforhold • Test: H0: Ingen sammenhæng mellem arbejde og boligforhold. • Teststørrelse: Χ2 = 12.9, df = 3, p = 0.005 • Konklusion: Signifikant sammenhæng
Bemærkninger • Tabellen viser sammenhængen mellem arbejde og boligforhold blandt 70-årige i 1967 og 1984. • Hvad mon forklarer denne sammenhæng? • Lad os stratificere efter år, dvs. separate tabeller for 1967 og 1984.
Elaborering: Job-status og boligstandard • Test: H0: Ingen sammenhæng ml. job-status og boligstandard. • Teststørrelse: Χ2 = 0.0, df = 3, p = 0.998 • Konklusion: Vi kan ikke afvise H0: Ingen signif. sammenhæng.
Elaborering: Job-status og boligstandard • Test: H0: Ingen sammenhæng ml. job-status og boligstandard. • Teststørrelse: Χ2 = 1.3, df = 3, p = 0.725 • Konklusion: Vi kan ikke afvise H0: Ingen signif. sammenhæng.
Konklusioner • Sammenhængen mellem arbejde og boligforhold forsvinder når vi stratificerer efter kohordeår. • Vi siger at kohordeåret forklarer sammenhængen mellem arbejde og boligforhold. • Statistiker: Betinget uafhængighed.