230 likes | 417 Vues
Statistik Lektion 8. Parrede test Test for forskel i andele Test for ens varians Gensyn med flyskræk!. Afhængige og uafhængige stikprøver. Ved en uafhængig stikprøve udtages en stikprøve fra hver gruppe.
E N D
StatistikLektion 8 Parrede test Test for forskel i andele Test for ens varians Gensyn med flyskræk!
Afhængige og uafhængige stikprøver • Ved en uafhængig stikprøve udtages en stikprøve fra hver gruppe. • Mænd og kvinders løn: Tag en stikprøve fra gruppen af mænd og en stikprøve fra gruppen af kvinder og sammenlign gennemsnitslønnen for de to grupper. • Kilometer per liter: Tilfældig stikprøve af Fiat’er og tilfældig stikprøve af Lancia’er. • Ved en afhængig stikprøve er observationerne i de to grupper parrede. Oftest er det den samme person/genstand, der bliver observeret i to forskellige situationer. • Bio benzin kontra almindelig benzin: Vælg tilfældigt et antal VW Touran’er og test dem med de to forskellige typer benzin. • Original Nike sko kontra Super Nike sko: Vælg tilfældigt nogle personer til at løbe 5 km og lad dem teste begge par sko.
Forrige forlæsning • Sammenligning af to middelværdier – kendt varians norm. pop. eller stort n • Hypotesetest + Konfidensinterval • Sammenligning af to middelværdier – ukendt varians normal population • Hypotesetest + Konfidensinterval • Parrede observationer • Hypotesetest + Konfidensinterval • Sammenligning af to andele • Hypotesetest + Konfidensinterval • Test for ens varians i to populationer Denne forlæsning
Parrede observationer • For den i’te person har vi to observationer Xi,1og Xi,2, fx. blodtryk før og efter behandling. • For den i’te person definerer vi differencen Di = Xi,1-Xi,2. • Forskelle mellem ”før” og ”efter” kan nu undersøges vha. hypotesetest af middeldifferencen, mD. • Typisk antagelse er, at differencerne er normalfordelte, Di ~ N(mD, sD2). • Estimaterne for hhv. middelværdi og varians betegnes og .
Parrede observationer • Udregn differencer:
Samme Historie I R Commander • Statistics → Means → Paired t-test… • p-værdi = 0.08345 > 0.05, dvs. vi kan ikke afvise H0. • Dvs. vi kan ikke afvise at de to sko-typer er lige gode. Bemærk: 95% konfidensinterval for forskellen i middelværdi indeholder 0!
Bemærkninger til parret t-test • Selvom vi har to sæt af observationer, så koger det ned til et sæt af differencer. Vi tester derfor kun én middelværdi, og kan derfor ”genbruge” t-testet fra sidst. • Ved at have parrede observationer, forsvinder variationen i observationerne, der skyldes variationen i ”deltagerne”. Dette gælder kun hvis differencerne er uafhængige af før-målingerne.
Sammenligning af to andele, p1 = p2, store stikprøver H0: p1 – p2 = 0 ( dvs. H0 : p1 = p2 ) H1: p1 – p2 ≠ 0 ( dvs. H0 : p1 ≠ p2 ) Teststørrelse Hvis H0er sand, så gælderZ ~ N(0,1). Forkast H0, når p-værdien er lille, eller sammenlign med de kritiskeværdier.
Eksempel - Titanic • Er andelen af mænd, der overlevede, pm, den samme som andelen af kvinder, der overlevede, pk?
Eksempel - Titanic • H0: pk= pm • H1: pk≠ pm • H0 forkastes da p-værdien = 2·P(|Z|>18.23) ≈ 0.
Konfidens interval for differencen, p1 – p2, mellem to andele
Eksempel - Titanic • Find et 95% konfidensinterval for forskellen i andelen af overlevende blandt mænd og kvinder: • Da konfidensintervallet ikke indeholder nul, kan vi afvise H0: m1 = m2 på signifikansniveau a = 0.05.
F fordelingen og test for lighed af to populationsvarianser F fordelingen er fordelingen af brøken af to chi-i-anden stokastiske variable, der er uafhængige og hver er divideret med antallet af dens frihedsgrader. En Ffordelt stokastisk variable med k1 og k2 frihedsgrader:
F-tabellen – tabel 9, side 867 Critical Points of the F Distribution Cutting Off a Right-Tail Area of 0.05 k1 1 2 3 4 5 6 7 8 9 k2 1 161.4 199.5 215.7 224.6 230.2 234.0 236.8 238.9 240.5 2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 F-fordelingen med 7 og 12 frihedsgrader 0 . 7 0 . 6 0.05 0 . 5 ) 0 . 4 F ( f 0 . 3 0.05 0 . 2 0 . 1 F 0 . 0 0 1 2 3 4 5 3.01 1/F12,7,0.05 = 0.278 F7,12,0.05 = 3.01 Når man skal finde det venstre kritiske punkt, kan man bruge følgende sammenhæng:
Kritiske punkter i F fordelingenF(6, 9), = 0.10 Det højresidet kritiske punkt: F6,9,0.05= 3.37 Det tilsvarende venstresidet punkt: F-fordeling med 6 og 9 frihedsgrader 0 . 7 0.90 0 . 6 0.05 0 . 5 ) 0 . 4 F ( f 0 . 3 0.05 0 . 2 0 . 1 0 . 0 F 0 1 2 3 4 5 F6,9,0.95 = 1/F9,6,0.05 = 0.2439 F6,9,0.05 = 3.37
Test for ens varians Teststørrelsen til test for ens populations varians i to normalfordelte populationer er givet ved: • I: Tosidet test: • 1 = 2 • H0: 1 = 2 • H1:2 • II:Ensidet test • 12 • H0: 1 2 • H1: 1 2
Eksempel Population 1 Population 2 Signifikansniveau: a = 0.10 Kritiske værdier: Hypoteser: Teststørrelse: H0 kan ikke afvises på signifikans-niveau 10%, da teststørrelsen ikke er større end 3.28 eller mindre end 0.35.
Vigtigste fordelinger i kurset • Binomial B(n,p) • Normal N(m,s2) • c2 c2(n) • tt(n) • F F(k1,k2)
Flyskræk! • Passer overskriften? • Politiken 6/12-’07 • Er du tryg ved at flyve? • Ja: 86% i 2005 83% i 2007 • Er der sket en statistisk signifikant ændring? • Sum selv svaret ;-)
Sidste Summeopgave • Antag at der er blevet udspurgt 1001 personer i både 2005 og 2007. • Test på signifikansniveau a=0.05 om der er en forskel i andelen af folk, der er trygge ved at flyve. • Bestem p-værdien. • Hvad synes I om overskriften?
Til efteråret: Økonometri • Økonometri: Statistik anvendt på økonomiske problemstillinger • Indhold: • Lineær regression - Middelværdien er forklaret ved en eller flere kontinuerte forklarende variable • Form: • 7 forelæsninger efterfulgt af projekt.