180 likes | 318 Vues
Informationer Opsamling χ 2 -test (chi-i-anden) Goodness-of-Fit test Test of Independence Forsvar og kritik af projekt 2 Igang med projekt 3 (problemformulering, analysemodel, operationalisering, ...). Dagens program. Opsamling: Test og teststørrelser.
E N D
Informationer Opsamling χ2-test (chi-i-anden) Goodness-of-Fit test Test of Independence Forsvar og kritik af projekt 2 Igang med projekt 3 (problemformulering, analysemodel, operationalisering, ...) Dagens program
Opsamling: Test og teststørrelser • Giv eksempler på kategori-serede og kvantitative data. • Hvad er ideen i et statistisk test? • Hvad er forskellen på 2 afhængige og uafhængige stikprøver?
Goodness-of-Fit testEksempel på problemstilling: Bortfald i en undersøgelse • Svarprocenten i en undersøgelse er pænt under 100%. • Der er rejst tvivl om troværdigheden af undersøgelsen. • For at eliminere tvivlen gennemføres en bortfaldsundersøgelse.
Goodnes-of-Fit test • Forudsætninger • Simpel tilfældig udvælgelse. • Mindst fem forventede observationer i cellerne • Hypoteser • H0: Observerede = Faktiske • Ha: Observerede ≠ Faktiske • Beregning af teststørrelse • Vi kender det faktisk observerede antal observationer i hver celle • Vi beregner det forventede antal observationer i hver celle (der vil optræde, hvis nul hypotesen er sand).
4. Omregning af teststørrelsen til en P-værdi kræver at vi kender antallet af frihedsgrader, df, (degrees of freedom), i tabellen. Omregning af Chi-i-anden til en P-værdi • Antallet af frihedsgrader, df, i en tabel med 1 kolonne (eller 1 række) er lig antal celler minus 1, dvs. df = antal rækker – 1. • Ved opslag i Excel benyttes CHIDIST, der returnerer arealet til højre for den observerede teststørrelse. 6
Konklusion: Store værdier af χ2 giver små P-værdier. Små P-værdier er beviser mod nul-hypotesen H0. Med en χ2 på 0,65 og 1 frihedsgrad bliver P-værdien 72%.Vi afviser H0, når P er mindre end 5%. I dette tilfælde opretholder vi derfor H0. Forskellene i fordelingerne (de faktiske og de observerede) kan skyldes tilfældigheder som følge af stikprøven. Hvad sker der med chi-i-anden teststørrelsen, hvis stikprøvestørrelsen øges? Excel har også en funktion, CHITEST, der tager der tager de faktiske og forventede antal som input og returnerer P-værdien. Trin 5: Konklusion 7
Der er gennemført en undersøgelse blandt ITU studerende. De, som kommer med en bachelor fra et andet universitet, fordeler sig som følger mht. baggrund: 20% kommer fra naturvidenskabelige uddannelser 40% fra samfundsvidenskabelige uddannelser 40% fra humanistiske uddannelser Stikprøven på 42 studerende har følgende sammensætning: 7 fra naturvidenskabelige uddannelser (17%) 19 fra samfundsvidenskabelige uddannelser (45%) 16 fra humanistiske uddannelser (38%) Er stikprøven repræsentativ for populationen? Opgave i Godness-of-Fit test 8
Goodness of fit test df for én række = (antal celler – 1) df = (3-1) = 2 P(X2>0,8) = 67 % Besvarelserne i bortfaldsundersøgelsen antages af være repræsentative. 9
Test of Independence Afhænger valget af rejsemål af målgruppen? Et rejsebureau har introduceret oversøiske rejsemål, og vil vide, om de appellere til børnefamilier. • Tabelopstilling • Responsvariablen (den afhængige) sættes i kolonnerne. • Den forklarende variabel (den uafhængige) sættes i rækkerne. • Beregn betingede procentfordelinger. • Vis antallet (stikprøvestørrelsen) som procenterne er beregnet på. 10
Test of Independence Afhænger rejsemålet af målgruppen? Definition To variable er uafhængige, hvis de betingede fordelinger er ens (statistisk set) To variable er afhængige, hvis de betingede fordelinger afviger betydeligt fra hinanden (statistisk set) Definitionen henviser til en population. Tabellen viser resultater fra en stikprøve og de afviger mere eller mindre fra populationens. 11
Test of Independence • Forudsætninger • Simpel tilfældig udvælgelse. • Mindst fem forventede observationer i cellerne • Hypoteser • H0: De to variable er uafhængige • Ha: De to variable er afhængige • Beregning af teststørrelse • Vi kender det faktisk observerede antal observationer i hver celle • Vi beregner det forventede antal observationer i hver celle for det tilfælde, at de to variable er uafhængige. 12
Det forventede antal observationer • Sandsynligheder • P(Børnefam.) = 131/180, P(Ikke børnefam.) = 49/180 • P(Malta) = 89/180, P(Europa) = 73/180, P(Oversøisk) = 18/180 • Forventede antal observationer • P(Børnefam.) x P(Malta) x 180 = (131/180) x (89/180) x 180 =(131 x 89) / 180 = 64,77 • Hvis de to variable er uafhængige, forventer vi at finde 64,77 ≈ 65 observationer i celle 1 (hvor vi faktisk observerer 60). • Generel skivemåde: 13
3. Beregning af Chi-i-anden teststørrelsen Chi-i-anden beregnes for hver celle. Chi-i-anden teststørrelsen er summen heraf. Den sammenfatter, hvor langt de faktiske antal ligger fra de forventede antal (nul-hypotesens ”forventning”). Test of Independence = Ki-kvadrat-test • χ2 for den første celle: • (60 – 64,8) = -4,8 • (-4,8)2 = 23,04 • 23,04 / 64,8 = 0,35 • Sum (0,35 +...+ 0,74) = 2,87
4. Omregning af teststørrelsen til en P-værdi kræver at vi kender antallet af frihedsgrader, df, (degrees of freedom), i tabellen. Antallet beregnes efter formlen: df = (r-1) x (k-1)=(2-1) x (3-1) = 2. P findes ved opslag i Excel eller i bogens tabel. Ved opslag i Excel benyttes CHIDIST, der giver os arealet (=sand- synlighedsmassen) til højre for den observerede teststørrelse. Test of Independence = Ki-kvadrat-test 15
Konklusion: Store værdier af χ2 giver små P-værdier. Små P-værdier er beviser mod nul-hypotesen H0.Med en χ2 på 2,87 og 2 frihedsgrader bliver P-værdien 24%. Vi afviser H0, når P er mindre end 5%. I dette tilfælde opretholder vi derfor H0. Valget af rejsemål kan ikke formodes at afhænge af målgruppen. Forskellene i fordelingerne kan skyldes til-fældigheder som følge af stikprøven. Hvad sker der med chi-i-anden teststørrelsen, hvis to kolonner byttes om? Test of Independence 16
Falgruber i fb.m. Chi-i-anden test En statistisk signifikant sammehæng behøver ikke at have en praktisk betydning ”Misbrug” af chi-i-anden testen Data skal være genereret ved simpel tilfældig udvælgelse. Testen forudsætter, at de forventede antal > 5. Rækker og kolonner skal være uafhængige stikprøver (Kategorisering af kvantitative data).
Opgave i Test of Independence Har agressive personer større risiko for at få hjertesygdomme end ikke-agressive personer? En undersøgelse har belyst, om risikoen for en bestemt type hjertesygdom. Tallene fremgår af tabellen. • Opgaver • Beregn de betingede fordelinger og beskriv i ord, hvad du ser. • Test (slavisk, dvs. i de fem trin) om der er sammenhæng (asso-ciation) mellem responsvariablen og den forklarende variabel. • Skriv en konklusion • Kilde: http://www.sjsu.edu/faculty/gerstman/StatPrimer/crosstabs-exercises.htm (opgave 10.11, løsning i bunden af siden) 18