Hvad går en hypotesetest ud på?

Statistikog kvantitativ metodeSociologi5. semester efterår 2004Lektion 7, tirsdag den 26. oktoberHypotesetestved Henrik Lolle

F.eks.: H0: HA: Hvad går en hypotesetest ud på? En hypotesetest går helt overordnet ud på statistisk at teste, hvor sandsynlig stikprøvedataene er, under forudsætning af at den såkaldte nul-hypotese er korrekt. Hvis man nu i en stikprøve finder et gennemsnit på 60, går hypotesetesten ud på at teste formelt, hvor sandsynligt det er at finde et så afvigende resultat i en tilfældig udtrukket stikprøve. Der testes gennem ’proof by contradiction’ – dvs. den alternative hypotese kan eventuelt godtages via forkastelse af nul-hypotesen.

Elementer i en hypotesetest • Grundlæggende antagelser for at kunne udføre testen • Hypoteser opstilles – nul-hypotese og alternativ hypotese • Test statistik beregnes pba. stikprøvedata • P-værdi beregnes ud fra kendskab til ’sampling distribution’ • Konklusion pba. p-værdi

Eksempel på hypotesetest for gennemsnit Hvad eksemplet drejer sig om: Respondenter i en survey-undersøgelse med 214 respondenter har bl.a. skulle besvare et spørgsmål om, hvor mange år de har boet, der hvor de bor for øjeblikket, og de skal svare i antal hele år.

ad 1: Antagelser • Variablen er kvantitativ • Stikprøven er udtaget tilfældigt • Der er mere en 30 besvarelser Forudsætningerne er opfyldt for at man kan foretage hypotesetest for gennemsnit på store stikprøver, og man kan derfor gå videre med selve testen!

ad 2: Hypoteser Nogen har påstået, at den gennemsnitlige tid, som folk har boet, hvor de bor for øjeblikket, er 18 år. Nul-hypotesen (H0) lyder derfor, at gennemsnittet er lig med 18. Jeg siger (af en eller anden årsag), at det tror jeg ikke på. Jeg har en formodning om, at gennemsnittet er større, og det vil jeg undersøge nøjere. Den alternative hypotese, HA, er derfor, at gennemsnittet i populationen er større end 18. Der er altså tale om en enkeltsidet test:

Standardfejl: Z-værdi: ad 3: Test-statistik

Der kan være tale om enten en énsidet test og en dobbelt-sidet test: Dobbeltsidet Enkeltsidet Enkeltsidet ad 4: P-værdi P-værdien ved en hypotesetest vedrørende gennemsnit kan forklares således: Hvis H0 er sand, så vil et gennemsnit, der er mindst lige så afvigende fra H0, som den man har målt i stikprøven, have en sandsynlighed, der er lig med p-værdien. I eksemplet er der tale om en enkeltsidet test, og p-værdien er derfor lig med tallet, som slås direkte op i z-tabellen for z lig med 1,17. Denne værdi er 0,12.

ad 5: P-værdi og konklusion P-værdien angiver sandsynligheden for at finde et gennemsnit i en stikprøve (med 214 respondenter), der er mindst lige så stort som 19,229, under antagelse af at nul-hypotesen om de 18 år som gennemsnit i populationen er korrekt. Da p-værdien er på ca. 0,12, er der altså mere end ti pct. chance for at finde så stort et gennemsnit eller større, hvis gennemsnittet i populationen er 18 (med så lille en stikprøve). Det er normalt ikke en p-værdi, der vil være lille nok til, at man vil afvise nul-hypotesen. Normalt vil man fordre en p-værdi på max. 0,05 eller 0,01 (også kaldet for et signifikansniveau på henholdsvis 0,05 og 0,01). Med andre ord: Vi forkaster ikke nul-hypotesen. Og det betyder samtidig, at vi ikke kan godtage den alternative hypotese.

Grafiskillustration Sampling distribution

Betydning af antal cases Beregninger på disse data viser en p-værdi på 0,027. Dette er på trods af, at gen-nemsnittet i denne stikprøve faktisk ikke afviger helt så meget fra antagelsen i H0, som i den lille stikprøve. Årsagen til den mindre p-værdi er det større antal respondenter, der giver en mindre standardfejl og en større sikkerhed.

Kommentar vedr. antal cases Fundet af en lille p-værdi i den større stikprøve betyder ikke, at man altid vil kunne minimere p-værdien ved at tage en større stikprøve. Man kan ganske vist gøre standardfejlen mindre, men den lille stikprøve, som man i første omgang havde taget, kunne jo have faldet lidt uheldigt, skævt ud. Det er jo netop pointen, at små stikprøver ikke giver et så sikkert billede af de sande parametre i populationen. Men givet at vi i den ny og større stikprøve finder omtrent samme gennemsnit som i den første stikprøve, vil p-værdien mindskes.

Afsluttende kommentar til eksemplet Ud over at skrive en konklusion er det klogt også at angive selve p-værdien, sådan at læseren selv kan tage stilling. Der skal også gøres opmærksom på, om der er tale om en énsidet eller dobbeltsidet test, da dette jo i høj grad influerer på p-værdiens størrelse. Havde der således i det sidste eksempel været tale om en dobbeltsidet test, hvor man som alternativ hypotese påstod, at gennemsnittet blot var forskelligt fra de 18 år, ville p-værdien være to gange den opslåede værdi - nemlig andelen i begge haler. En sidste yderligere kommentar: I den viste énsidede test ligger implicit en test af en udvidet nul-hypotese - nemlig at gennemsnittet er 18 eller lavere. P-værdien gælder ganske vist den situation, hvor det sande gennemsnit er præcist 18, men p-værdien ville blot blive endnu mindre ved et sandt gennemsnit under 18. Hvis derfor den snævre nul-hypotese forkastes, gør den bredere det også.

Men standardfejlen beregnes anderledes: Hypotesetest for andele/proportioner Samme overordnede metode som ved gennemsnit: Læg mærke til, at der i beregningen af standardfejlen benyttes andelen fra nulhypotesen og ikke den fra stikprøven beregnede, sådan som det er tilfældet ved intervalestimering (A&G p. 132).

Formlen for beregning af minimum antal enheder: Krav til stikprøvestørrelse ved hypotesetest for andele Ved andele på nær 0 og 1 kommer sampling fordelingen ikke til at ligne en normalfordeling, hvis der er tale om små stikprøver (se Agresti & Finlay s. 172). I disse yderpositioner er der behov for flere observationer, så fordelingen bliver smallere. Skal man f.eks. teste en andel på 0,8 har man brug for et n større end 10/0,2 = 50.

Eksempel på hypotesetest for andele (N = 1.000) Eurobarometer-spørgsmål

Hypoteser: EU-eksempel fortsat Et Eurobarometer fra oktober 2003 viser, at 57 pct. i en stikprøve på 1.000 personer, tilfældigt udvalgt blandt den danske befolkning på 15 år og derover, er tilhængere af, at vetoretten i EU skal bevares. Undersøgelsesspørgsmål: Er der flertal i befolkningen for at bevare vetoretten?

EU-eksempel fortsat Beregning af teststatistik (z-værdi):

Opslag eller beregning af p-værdi: • Opslag i Agresty & Finlay viser lidt højere end 0,0000034 • Mere præcis beregning viser 0,0000047 Konklusion: • Med så lille en p-værdi vil man altid forkaste nulhypotesen og godtage den alternative. Man vil altså konkludere, at der er et flertal, der går ind for at bevare vetoretten, som den er nu. • Samtidig vil man dog opgive selve p-værdien. Det er især et ’must’, når man ikke på forhånd angiver et bestemt -niveau EU-eksempel fortsat

Type 1 og Type 2 fejl Type 1 fejl: man forkaster en sand nulhypotese Type 2 fejl: man formår ikke at afvise en falsk nulhypotese(se tabel 6.4 p.174 i Agresty & Finlay). • Hvis nulhypotesen er korrekt er sandsynligheden for at begå en type 1 fejl lig med alpha-værdien (det signifikansniveau som man vil operere med - f.eks. 0,05 el. 0,01). 95 pct. af stikprøvegennem-snittene i en lang række stikprøver vil falde inden for et interval på plus/minus 1,96 gange standardfejlen, men 5 pct. vil falde uden for. • Man kan ikke præcist regne ud, hvor stor sandsynligheden er for at begå en type 2 fejl. Det kommer nemlig an på populationens sande gennemsnitsværdi. (se evt. illustration i Agresty & Finlay p. 194 - uden for pensum)

Usikkerheden ved at skifte ’ ’ ud med ’s’ i beregningen af standardfejlen bliver endvidere større ved små stikprøver, og derfor benyttes ikke normalfordelingen, men en såkaldt t-fordeling, der er bredere spredt ud end normalfordelingen. Hvor bred t-fordelingen er, afhænger af antallet af observationer i stikprøven (eller af frihedsgraderne, n-1). Små stikprøver og t-fordelingen • Beregning af sikkerhedsinterval og hypotesetest ved små stikprøver - under 30 observationer - er helt sammenligneligt med beregning ved store stikprøver. Der kræves imidlertid formelt set, at variablen er normalfordelt. Grunden hertil er, at man ved så små stikprøver ikke kan forvente, at estimaterne, der udregnes på baggrund af stikprøvedata, fordeler sig normalt (Figure 4.15 i Agresty & Finlay).

Jeg havde på forhånd en hypotese om, at fordelingen mellem højre og venstre ville være cirka lige på skalaen fra 0 til 10. Følgende hypoteser blev opstillet: Eksempel på hypotesetest (1)(for gennemsnit med lille stikprøve) Frekvensfordeling for mænd fra 3. sem. samf./adm. 2001:

Eksempel på hypotesetest (2) Beregning af t-værdi: Opslag i t-tabel ud for 21 df (n – 1) viser, at den fundne t-værdi giver en enkeltsidet p-værdi på lidt under 0,025. Testen er dobbeltsidet, så værdien skal ganges med to, sådan at der fås en p-værdi på knapt 0,05.

Eksempel på hypotesetest (3) Testen kan også udføres i SPSS under navnet ’One-Sample T Test.

T-testen dur ikke til hypotesetest for andele. Her bruges binomialtest (ikke pensum). Sandsynlighed for at X er lig med 0, 1, 9 eller 10, hvor X angiver antallet i ’Group 1’.

Hvad går en hypotesetest ud på?