270 likes | 558 Vues
2. Indl
E N D
1. 1 Kapitel 11: Analyse af sammenhngen mellem kategoriske variable Afsnit 11.1: Hvad er uafhngighed og hvad er sammenhng?
2. 2 Indlringsml Sammenligne andele
Uafhngighed vs. afhngighed
3. 3 Er der en sammenhng mellem glde og indkomst? Procentandelen i en bestemt rkke i tabellen kaldes den betingede procentandel.
De former den betingede fordeling over glde, givet et bestemt indkomstniveau.
Retningslinier nr der skal konstrueres tabeller med betingede fordelinger;
Placer responsvariablen i sjlerne (glde)
Beregn de betingede andele for responsvariablen for hver rkke
Inkluder den totale stikprvestrrelseProcentandelen i en bestemt rkke i tabellen kaldes den betingede procentandel.
De former den betingede fordeling over glde, givet et bestemt indkomstniveau.
Retningslinier nr der skal konstrueres tabeller med betingede fordelinger;
Placer responsvariablen i sjlerne (glde)
Beregn de betingede andele for responsvariablen for hver rkke
Inkluder den totale stikprvestrrelse
4. 4 Er der en sammenhng mellem glde og indkomst?
5. 5 Hvis der f.eks. skulle vre uafhngighed mellem
indkomst og kn ville de relative andele fordele sig som
flgende:
Sprgsmlet er om andelene fordeler sig signifikant
forskelligt fra ovenstende. Hvis de gr, er de to
variable afhngige. Uahngighed eller afhngighed mellem glde og indkomst? Definitionen vedr. uafhngighed mellem variablene referer til populationen
Tabellen er en stikprve ikke en population
Selv om variablene er uafhngige vil vi ikke forvente at stikprvens betingede fordelinger er ens.
P grund af stikprvevariation, vil hver stikprve typisk afvige noget fra den sande populations fordeling
Definitionen vedr. uafhngighed mellem variablene referer til populationen
Tabellen er en stikprve ikke en population
Selv om variablene er uafhngige vil vi ikke forvente at stikprvens betingede fordelinger er ens.
P grund af stikprvevariation, vil hver stikprve typisk afvige noget fra den sande populations fordeling
6. 6 Kapitel 11: Analyse af sammenhngen mellem kategoriske variable Afsnit 11.2: Hvordan kan vi teste om kategoriske variable er uafhngige?
7. 7 Indlringsml Signifikanstest for kategoriske variable
Hvilke vrdier forventer vi i de enkelte celler hvis variablene er uafhngige?
Hvordan finder vi det forventede antal observationer I de enkelte celler?
teststrrelse
fordeling
De fem trin for et test af uafhngighed
8. 8 Indlringsml anvendes ogs som et test af homogenitet
og test til brug for sammenligning af andele i 2x2 tabeller
Begrsninger ved test
9. 9 Indlringsml 1: Signifikanstest for kategoriske variable Opstil en tabel af frekvenser fordelt p to kategoriske variable
Hypoteserne er:
H0: De to variable er uafhngige
Ha: De to variable er afhngige
Testen antager en stor, tilfldig udvalgt stikprve (antallet af observationer i hver celle er p mindst 5)
10. 10 Indlringsml 2: Hvad forventer vi at celleantallet skal vre hvis variablene er uafhngige? Antallet i enhver celle er en stokastisk variabel
Forskellige stikprver har forskellige antal vrdier
Middelvrdien af dets fordeling er det forventede celleantal
Dette findes under antagelsen af at H0 er sand
11. 11 Indlringsml 3:Hvordan finder vi det forventede celleantal? Forventede celleantal:
For en bestemt celle,
Den forventede frekvens er vrdierne som har de samme rkke- og kolonnetotaler som det observerede antal, men for hvilken de betingede fordelinger er identiske (dette er antagelsen af nul hypotesen).
12. 12 Indlringsml 3:Hvordan finder vi det forventede celleantal?Eksempel
13. 13 Indlringsml 4: Chi-i-anden teststrrelsen Chi-i-anden teststrrelsen opsummerer hvor langt vk de observerede celle antal I en kontingenstabel falder fra de forventede celle antal under antagelse af nul hypotesen
14. 14 Opstilling af hypoteser for denne test
H0: Glde og indkomst er uafhngige
Ha: Glde og indkomst er afhngige
Indlringsml 4:Eksempel: Glde og indkomst
15. 15 Beregning af teststrrelsen, :
(21-35,8)2/35,8 + (159-166,1)2/166,1 + (110-88,1)2/88,1+ (53-79,7)2/79,7 + (372-370)2/370,0 + (221-196,4)2/196,4 + (94-52,5)2/52,5 + (249-244)2/244,0 + (83-129,5)2/129,5 = 73,49
vrdien er 73,4
Eksempel: Glde og indkomst
16. 16
Jo strre vrdien er, jo strre bevis er der mod nul hypotesen om uafhngighed og til sttte for alternativ hypotesen om at glde og indkomst flges ad Chi-i-anden Teststrrelsen
17. 17 Chi-i-anden fordelingen For at omregne teststrrelsen til en P-vrdi bruger vi stikprve fordelingen af estimatet
For store stikprvestrrelser er stikprvefordelingen godt approximeret ved chi-i-anden sandsynlighedsfordelingen
18. 18 Chi-i-anden fordelingen
19. 19 Chi-i-anden fordelingen Hovedegenskaber ved chi-i-anden fordelingen:
Kan ikke vre negativ da man kvadrerer forskellen I tlleren
Min vrdien er 0, hvis observeret celleantal lig med forventede celleantal
Formen p fordelingen afhnger af antal frihedsgrader:
df = (r-1)(c-1), hvor r = antal rkker og c = antal kolonner
Middelvrdien fordelingen er lig med df vrdien
Fordelingen er skv til hjre
Nr df stiger bliver fordelingen mere klokkeformet
Jo strre vrdi, jo strre bevis mod H0: uafhngighed
20. 20 Chi-i-anden fordelingen
21. 21 5 trins metodikTest af uafhngighed i Chi-i-anden fordelingen 1. Antagelser:
To kvalitative variable
Tilfldighed
Forventede antal = 5 i alle celler
22. 22 5 trins metodikTest af uafhngighed i Chi-i-anden fordelingen 2. Hypoteser:
H0: De to variable er uafhngige
Ha: De to variable er afhngige (associated)
3. Teststrrelse:
23. 23 5 trins metodikTest af uafhngighed i Chi-i-anden fordelingen 4. P-vrdi: Sandsynligheden er hjre siden af den observerede vrdi i chi-i-anden fordelingen med frihedsgraderne df = (r-1)(c-1), hvor r = antal rkker og C = antal sjler
5. Konklusion: St den rapporterede P-vrdi ind i en sammenhng
Forkast H0 nr P-vrdien = significansniveauet
24. 24 Chi-i-anden bruges ogs til test af homogenitet Chi-i-anden testen afhnger ikke af hvilken variabel der anvendes som respons variabel og hvilken der er den forklarende variabel
Nr en respons variabel er identificeret og populationens betingede fordelinger er identiske, siges de at vre homogene
Testen er da refereret til som en test af homogenitet
25. 25 Begrnsninger ved Chi-i-anden Testen Hvis P-vrdiener meget lille er der strk bevis mod nul hypotesen
men
Teststrrelsen og P-vrdien fortller os ingenting om styrken af sammenhng
26. 26 Begrnsninger ved Chi-i-anden Testen Chi-i-anden test bliver ofte misbrugt, f.eks.;
Nr nogle af de forventede frekvenser er for sm
Nr nogle af rkkerne eller kolonnerne er afhngige stikprver
data ikke er tilfldig udvalgte
kvantitative data bliver klassificeret som kvalitative resulterende i tabt information
27. 27 Hj betyder ikke at der er en strk sammenhng En hj chi-i-anden testvrdi giver strk bevis for at der er sammenhng mellem variablene
Det betyder ikke, at der mellem variablene er en strk sammenhng
Teststrrelsen indikerer mere (igennem dets P-vrdi) hvor sikre vi kan vre for at der er en sammehng mellem variablene, men ikke hvor strk denne sammenhng er
28. 28 velser 11.9, side 562
11.10, side 562