1 / 27

Kapitel 11: Analyse af sammenh ngen mellem kategoriske variable

2. Indl

Mia_John
Télécharger la présentation

Kapitel 11: Analyse af sammenh ngen mellem kategoriske variable

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


    1. 1 Kapitel 11: Analyse af sammenhngen mellem kategoriske variable Afsnit 11.1: Hvad er uafhngighed og hvad er sammenhng?

    2. 2 Indlringsml Sammenligne andele Uafhngighed vs. afhngighed

    3. 3 Er der en sammenhng mellem glde og indkomst? Procentandelen i en bestemt rkke i tabellen kaldes den betingede procentandel. De former den betingede fordeling over glde, givet et bestemt indkomstniveau. Retningslinier nr der skal konstrueres tabeller med betingede fordelinger; Placer responsvariablen i sjlerne (glde) Beregn de betingede andele for responsvariablen for hver rkke Inkluder den totale stikprvestrrelseProcentandelen i en bestemt rkke i tabellen kaldes den betingede procentandel. De former den betingede fordeling over glde, givet et bestemt indkomstniveau. Retningslinier nr der skal konstrueres tabeller med betingede fordelinger; Placer responsvariablen i sjlerne (glde) Beregn de betingede andele for responsvariablen for hver rkke Inkluder den totale stikprvestrrelse

    4. 4 Er der en sammenhng mellem glde og indkomst?

    5. 5 Hvis der f.eks. skulle vre uafhngighed mellem indkomst og kn ville de relative andele fordele sig som flgende: Sprgsmlet er om andelene fordeler sig signifikant forskelligt fra ovenstende. Hvis de gr, er de to variable afhngige. Uahngighed eller afhngighed mellem glde og indkomst? Definitionen vedr. uafhngighed mellem variablene referer til populationen Tabellen er en stikprve ikke en population Selv om variablene er uafhngige vil vi ikke forvente at stikprvens betingede fordelinger er ens. P grund af stikprvevariation, vil hver stikprve typisk afvige noget fra den sande populations fordeling Definitionen vedr. uafhngighed mellem variablene referer til populationen Tabellen er en stikprve ikke en population Selv om variablene er uafhngige vil vi ikke forvente at stikprvens betingede fordelinger er ens. P grund af stikprvevariation, vil hver stikprve typisk afvige noget fra den sande populations fordeling

    6. 6 Kapitel 11: Analyse af sammenhngen mellem kategoriske variable Afsnit 11.2: Hvordan kan vi teste om kategoriske variable er uafhngige?

    7. 7 Indlringsml Signifikanstest for kategoriske variable Hvilke vrdier forventer vi i de enkelte celler hvis variablene er uafhngige? Hvordan finder vi det forventede antal observationer I de enkelte celler? teststrrelse fordeling De fem trin for et test af uafhngighed

    8. 8 Indlringsml anvendes ogs som et test af homogenitet og test til brug for sammenligning af andele i 2x2 tabeller Begrsninger ved test

    9. 9 Indlringsml 1: Signifikanstest for kategoriske variable Opstil en tabel af frekvenser fordelt p to kategoriske variable Hypoteserne er: H0: De to variable er uafhngige Ha: De to variable er afhngige Testen antager en stor, tilfldig udvalgt stikprve (antallet af observationer i hver celle er p mindst 5)

    10. 10 Indlringsml 2: Hvad forventer vi at celleantallet skal vre hvis variablene er uafhngige? Antallet i enhver celle er en stokastisk variabel Forskellige stikprver har forskellige antal vrdier Middelvrdien af dets fordeling er det forventede celleantal Dette findes under antagelsen af at H0 er sand

    11. 11 Indlringsml 3: Hvordan finder vi det forventede celleantal? Forventede celleantal: For en bestemt celle, Den forventede frekvens er vrdierne som har de samme rkke- og kolonnetotaler som det observerede antal, men for hvilken de betingede fordelinger er identiske (dette er antagelsen af nul hypotesen).

    12. 12 Indlringsml 3: Hvordan finder vi det forventede celleantal? Eksempel

    13. 13 Indlringsml 4: Chi-i-anden teststrrelsen Chi-i-anden teststrrelsen opsummerer hvor langt vk de observerede celle antal I en kontingenstabel falder fra de forventede celle antal under antagelse af nul hypotesen

    14. 14 Opstilling af hypoteser for denne test H0: Glde og indkomst er uafhngige Ha: Glde og indkomst er afhngige Indlringsml 4: Eksempel: Glde og indkomst

    15. 15 Beregning af teststrrelsen, : (21-35,8)2/35,8 + (159-166,1)2/166,1 + (110-88,1)2/88,1+ (53-79,7)2/79,7 + (372-370)2/370,0 + (221-196,4)2/196,4 + (94-52,5)2/52,5 + (249-244)2/244,0 + (83-129,5)2/129,5 = 73,49 vrdien er 73,4 Eksempel: Glde og indkomst

    16. 16 Jo strre vrdien er, jo strre bevis er der mod nul hypotesen om uafhngighed og til sttte for alternativ hypotesen om at glde og indkomst flges ad Chi-i-anden Teststrrelsen

    17. 17 Chi-i-anden fordelingen For at omregne teststrrelsen til en P-vrdi bruger vi stikprve fordelingen af estimatet For store stikprvestrrelser er stikprvefordelingen godt approximeret ved chi-i-anden sandsynlighedsfordelingen

    18. 18 Chi-i-anden fordelingen

    19. 19 Chi-i-anden fordelingen Hovedegenskaber ved chi-i-anden fordelingen: Kan ikke vre negativ da man kvadrerer forskellen I tlleren Min vrdien er 0, hvis observeret celleantal lig med forventede celleantal Formen p fordelingen afhnger af antal frihedsgrader: df = (r-1)(c-1), hvor r = antal rkker og c = antal kolonner Middelvrdien fordelingen er lig med df vrdien Fordelingen er skv til hjre Nr df stiger bliver fordelingen mere klokkeformet Jo strre vrdi, jo strre bevis mod H0: uafhngighed

    20. 20 Chi-i-anden fordelingen

    21. 21 5 trins metodik Test af uafhngighed i Chi-i-anden fordelingen 1. Antagelser: To kvalitative variable Tilfldighed Forventede antal = 5 i alle celler

    22. 22 5 trins metodik Test af uafhngighed i Chi-i-anden fordelingen 2. Hypoteser: H0: De to variable er uafhngige Ha: De to variable er afhngige (associated) 3. Teststrrelse:

    23. 23 5 trins metodik Test af uafhngighed i Chi-i-anden fordelingen 4. P-vrdi: Sandsynligheden er hjre siden af den observerede vrdi i chi-i-anden fordelingen med frihedsgraderne df = (r-1)(c-1), hvor r = antal rkker og C = antal sjler 5. Konklusion: St den rapporterede P-vrdi ind i en sammenhng Forkast H0 nr P-vrdien = significansniveauet

    24. 24 Chi-i-anden bruges ogs til test af homogenitet Chi-i-anden testen afhnger ikke af hvilken variabel der anvendes som respons variabel og hvilken der er den forklarende variabel Nr en respons variabel er identificeret og populationens betingede fordelinger er identiske, siges de at vre homogene Testen er da refereret til som en test af homogenitet

    25. 25 Begrnsninger ved Chi-i-anden Testen Hvis P-vrdiener meget lille er der strk bevis mod nul hypotesen men Teststrrelsen og P-vrdien fortller os ingenting om styrken af sammenhng

    26. 26 Begrnsninger ved Chi-i-anden Testen Chi-i-anden test bliver ofte misbrugt, f.eks.; Nr nogle af de forventede frekvenser er for sm Nr nogle af rkkerne eller kolonnerne er afhngige stikprver data ikke er tilfldig udvalgte kvantitative data bliver klassificeret som kvalitative resulterende i tabt information

    27. 27 Hj betyder ikke at der er en strk sammenhng En hj chi-i-anden testvrdi giver strk bevis for at der er sammenhng mellem variablene Det betyder ikke, at der mellem variablene er en strk sammenhng Teststrrelsen indikerer mere (igennem dets P-vrdi) hvor sikre vi kan vre for at der er en sammehng mellem variablene, men ikke hvor strk denne sammenhng er

    28. 28 velser 11.9, side 562 11.10, side 562

More Related