Beschrijvende en inferentiële statistiek

Beschrijvende en inferentiële statistiek College 8 – Anouk den Hamer – Hoofdstuk 11 (11.5 geententamenstof)

Vandaag • Oude tentamenvragen • Chi-square toets

Kritieke t-waarde?

Vandaag • Chi-square toets

Inferentiële statistiek: overzicht

Chi-square toets • Met een chi-square toets kun je twee of meer categorische variabelen vergelijken • Categorische variabele: variabele die uit verschillende categorieën bestaat

Vorige keer • We keken of het hebben van een kat invloed heeft op geluk. • Soort variabelen? • Categorisch (wel/geen kat) en continu (geluk)

Vandaag • Twee categorische variabelen vergelijken

Voorbeeld vergelijken categorische variabelen • Een onderzoeker wilt weten of flirtgedrag afhankelijk is van opleidingsjaar. • Zou er verschil bestaan in het flirtgedrag tussen eerste-, tweede- en derdejaars? • Maw: bestaat er een associatie tussen flirtgedrag en opleidingsjaar? opleidingsjaar flirtgedrag

Opleidingsjaar: eerste-, tweede-, derdejaars • Flirtgedrag: nooit, zelden, af en toe, vaak, heel vaak

H0: opleidingsjaar heeft geen invloed op flirtgedrag • Ha: hoe hoger het opleidingsjaar, hoe meer flirtgedrag • Of: • H0: flirtgedrag en opleidingsjaar zijn onafhankelijk van elkaar (er bestaat geen associatie) • Ha: flirtgedrag en opleidingsjaar zijn afhankelijk van elkaar (er bestaat een associatie)

Chi-square test Test van onafhankelijkheid: - H0 : variabelen zijn onafhankelijk - Ha : variabelen zijn afhankelijk Doel test: als de variabelen onafhankelijk zijn, hoe groot is dan de kans dat we vinden wat we vinden?

Om te zien of er wel of geen associatie is vergelijk je de: • Observed counts: de waardes die je vindt in je steekproef • Expected counts: de waardes die je zou verwachten als de nulhypothese waar zou zijn H0: flirtgedrag en opleidingsjaar zijn onafhankelijk van elkaar (er bestaat geen associatie)

Kruistabel met observed counts

Kruistabel met expected count 765.5 Expected count = (rij totaal x kolom totaal) / totaal aantal respondenten Expected count eerstejaars die nooit flirten = (3534 x 12211) / 56373 = 765.5

Kruistabel met expected counts

Observed en expected counts

Waarom? • Waarom observed en expected counts bekijken? • Als de observed counts erg afwijken van de expected counts dan zou er een associatie kunnen bestaan tussen flirtgedrag en opleidingsjaar. • Associatie significant? Chi-square test.

Chi-square • De chi-square statistic geeft aan hoe veel de observed counts van de expected counts afwijken. • In SPSS vind ik dat de chi-square 26978 is. • Hoe hoger de chi-square, hoe groter de kans dat er sprake is van een significante associatie

Observed en expected counts

Hoe weet je of de chi-square significant is? • Je rekent eerst de degrees of freedom (df) uit: • df = (rij – 1 ) x (kolom – 1) • (3 – 1) x (5 – 1) = 8

Degrees of freedom • Vrijheidsgraden in chi-square toets: het minimaal aantal cellen waarvan je de uitkomst moet kennen om de overige cellen te kunnen berekenen.

df = (rij – 1 ) x (kolom – 1) • Df = (3 – 1) x (5 – 1) = 8 • We moeten dus van 8 cellen de waardes weten willen we de andere cellen kunnen berekenen

Chi-square significant? • Tabel C (p. 736) • In die tabel zie je welke waarde de chi-square minimaal aan moet nemen wil deze significant zijn (de kritieke waarde).

Met df = 8 moet de chi-square minimaal 15.51 zijn (als je met α = 0.05 toetst) • Onze chi-square is 26978 en dus significant

Dus chi-square • De chi-square statistic geeft aan hoeveel de observed counts van de expected counts afwijken. • Als deze significant afwijken, dan bestaat er een associatie tussen de twee variabelen. • Want: dat wat je vindt in je steekproef (observed counts) is anders dan wat je op basis van de nulhypothese had verwacht (expected counts). • Daardoor kun je de nulhypothese verwerpen als je een significante chi-square vindt.

Onze nulhypothese zei dat opleidingsjaar en flirtgedrag onafhankelijk van elkaar waren. Dat ze dus niks met elkaar te maken zouden hebben. • Echter significante chi-square, dus nulhypothese verwerpen.

In SPSS Assumptie chi-square toets: iedere cel moet een expected value hebben van minimaal 5. Zo niet, dan is je steekproef te klein.

Conclusie voorbeeld • Als flirtgedrag onafhankelijk is van opleidingsjaar, dan is het erg onwaarschijnlijk dat we een chi-square van 26978 vinden (kans namelijk kleiner dan 5%). • Het flirtgedrag is inderdaad afhankelijk van het opleidingsjaar. Eerste- en tweedejaars flirten vaker dan derdejaars (dat zagen we in de tabel met de observed counts). • Er bestaat dus een significante associatie tussen flirtgedrag en opleidingsjaar.

Eigenschappen chi-square • Chi-square is altijd positief getal • Hoe hoger de chi-square, hoe groter het bewijs tegen H0 : onafhankelijkheid • De chi-square is een goodness-of-fit statistic: het geeft aan hoe goed de expected values (de H0) de observed values hebben voorspeld • De laagst mogelijke waarde van chi-sqaure is 0, in dat geval zijn de observed counts en de expected counts precies gelijk.

Tabel C Hoe groter het verschil tussen de observed values en de expected values, hoe meer bewijs we hebben tegen H0. Daarom kijk je alleen naar de rechterstaart.

Homogeniteit • De chi-square test wordt vaak “test of homogeneity”genoemd, omdat je wilt weten of de expected counts en observed counts homogeen (hetzelfde) zijn • Als ze homogeen zijn dan zijn de variabelen waar je op getest hebt onafhankelijk van elkaar

Associatie • Met een chi-square toets weet je of er een statistisch significante associatie is, je weet echter nog niet hoe sterk deze associatie is. • Een hoge chi-square betekent niet direct een sterke associatie! • Waarom? Omdat grotere steekproeven ook grotere chi-squares hebben.

Verschillende manieren om te zien hoe sterk de associatie is: • Kruistabel percentages • Adjusted residuals • Correlatie (kan alleen bij ordinale variabelen, niet bij categorische variabelen)

Eerste manier om sterkte associatie te zien: kruistabel percentages

Is hier sprake van een sterke associatie? Nee. Er is geen verschil tussen mannen en vrouwen in wat ze stemmen.

Tweede manier om sterkte associatie te zien: adjusted residuals • Met de adjusted residuals vinden we welke cellen “verantwoordelijk” zijn voor de associatie • Adjusted residual: hoeveel standaardfouten de observed count van de expected count afwijkt

Adjusted residuals • Residual: verschil tussen de observed count en de expected count, dus observed count – expected count. • Standardized residual: residual / se • Waarom zou je de gestandaardiseerde residual (ook wel adjusted residual genoemd) willen weten? • Omdat je dan weet hoeveel standaardfouten de observed count van de expected count afwijkt en je daarmee kunt interpreteren hoe sterk de associatie in die cel is. • Als de adjusted residuals groter zijn dan 3 of -3 dan is er een associatie in die cel.

Dus alleen bij de democraten is er een verschil tussen stemgedrag van mannen en vrouwen. • Bij de vrouwen werd er 4 se’s meer op democraten gestemd dan verwacht. En bij mannen 4 se’s minder dan verwacht. • Stemgedrag is dus afhankelijk van geslacht, ook al zien we alleen een effect bij de democraten.

Derde manier om sterkte associatie te zien: correlatie

Beschrijvende en inferentiële statistiek

Beschrijvende en inferentiële statistiek

Presentation Transcript

powerpoint presentation

Powerpoint presentation

PPT Presentation

PowerPoint presentation

PowerPoint Presentation.

talk-ppt - PowerPoint Presentation

Statistiek

Archivo PowerPoint 2003 ( ppt )

Statistiek

Voorkennistest wiskunde en statistiek

PowerPoint Presentation

Statistiek

PowerPoint Presentation

Beschrijvende statistiek

PowerPoint Presentation

PowerPoint Presentation

Een overzicht van de Beschrijvende statistiek

Beschrijvende en inferentiële statistiek

Statistiek

Le duel Powerpoint / Presentation

Een overzicht van de Beschrijvende Statistiek

Full Service Moving Plano TX - PowerPoint PPT Presentation