1 / 26

Forelesning 6 HSTAT1101

Forelesning 6 HSTAT1101. Ola Haug. Norsk Regnesentral. 22.09.04. Husker du?. Hypotesetestingsprosedyren Vi stiller opp en konservativ / nøytral hypotese, H 0 , som vi har mistanke om at ikke stemmer. Vi vil undersøke om våre data gir grunnlag for å påstå at mistanken er berettiget.

Albert_Lan
Télécharger la présentation

Forelesning 6 HSTAT1101

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Forelesning 6HSTAT1101 Ola Haug Norsk Regnesentral 22.09.04

  2. Husker du? • Hypotesetestingsprosedyren • Vi stiller opp en konservativ / nøytral hypotese, H0, som vi har mistanke om at ikke stemmer. Vi vil undersøke om våre data gir grunnlag for å påstå at mistanken er berettiget. • Dette gjør vi ved å anta H0 og • enten finne den tilhørende p-verdien (=sannsynligheten for å få vårt observerte resultat eller et enda mer ekstremt resultat, gitt at H0 er riktig), og forkaste H0 hvis p-verdien er veldig lav (dvs. lavere enn det valgte signifikansnivået), • eller beregne forkastningsområdet svarende til det valgte signifikansnivået og forkaste H0hvis vår teststørrelse X ligger i dette området.

  3. Dagens temaer • Kontinuerlige variabler • Sannsynlighetstetthet • Normalfordelingen, sentralgrenseteoremet • Normalfordelingen • som tilnærmelse til den binomiske fordelingen • som tilnærmelse til Poissonfordelingen

  4. Kontinuerlige variabler • En kontinuerlig stokastisk variabel (også kalt måle-variabel) kan ta et uendelig antall mulige verdier • Merk! Denne egenskapen går på hvilke verdier en kontinuerlig variabel kan ta, og ikke hvilken verdi vi faktisk representerer en måling med (avrunding og bruk av et endelig antall siffer gir diskretisering) • Eksempler: • Høyde • Hemoglobinnivå i blodet • Tid mellom hendelser • Kroppstemperatur

  5. Sannsynlighetstetthet • Grafisk representasjon av (punkt-)sannsynligheter for en tellevariabel kan skje via et (sannsynlighets-) histogram • Tilsvarende plottes en kontinuerlig funksjon kalt sannsynlighetstettheten for kontinuerlige variabler • Sannsynlighetstettheten, f(x), til en variabel X tilfredsstiller følgende krav: • f(x)≥ 0 for alle x • Totalt areal under funksjonskurven f(x) er 1 • P( a ≤ X ≤ b ) er arealet under f(x) fra a til b

  6. Sannsynlighetstetthet Eksempel på sannsynlighetstetthetsfunksjon

  7. Sannsynlighetstetthet Parallelle begreper for kontinuerlige og diskrete variabler P(X=x) f(x)

  8. Sannsynlighetstetthet • Merk forskjellen på: • Sannsynlighetshistogram for diskrete variabler: Dette framstiller eksakte punktsannsynligheter for en stokastisk variabel, P(X=x), i et stolpediagram. • Et vanlig histogram laget fra grupperte observasjoner av en kontinuerlig variabel viser fordelingen i et utvalg fra en populasjon, hvor populasjonen er beskrevet gjennom sannsynlighetstettheten f(x). Histogrammet vil være uregelmessig og preget av tilfeldige utslag, mens sannsynlighetstettheten f(x) er en glatt og pen ”gjennomsnittskurve”.

  9. Sannsynlighetstetthet

  10. Sannsynlighetstetthet • Merk 1! De høyeste funksjonsverdiene av f(x) svarer til de mest sannsynlige x-verdiene i fordelingen (jfr. de høyeste søylene i sannsynlighetshistogrammet for diskrete variabler). • Merk 2! Sannsynlighetstetthet og sannsynlighets-fordeling er begreper som ofte blandes sammen selv om de har klart forskjellig innhold: ”Sannsynlighetsfordelingen til X i a (P(X≤a)) er arealet under sannsynlighetstetthetskurven f(x) opp til punktet x = a”.

  11. Sannsynlighetstetthet Sannsynlighetstetthet (rød) og sannsynlighetsfordeling (blå)

  12. Normalfordelingen • Er den viktigste og vanligste kontinuerlige sannsynlighetsfordelingen (også kalt Gaussfordeling, jfr. Gausskurven for karakterfordeling i skolen) • Har to parametere knyttet til seg: • µ som er forventningen • σ som er (teoretisk) standardavvik For X normalfordelt skriver vi da X ~ N( µ, σ) • Sannsynlighetstetthet:

  13. Normalfordelingen • Egenskaper ved normalfordelingen • Er symmetrisk om forventningsverdien, dvs. • Ulike verdier av µ og σ gir forskjellig utseende på sannsynlighetstetthetsfunksjonen • Arealet innenfor µ ± σ dekker ca. 68% av fordelingen Arealet innenfor µ ± 2σ dekker ca. 95% av fordelingen

  14. Normalfordelingen Fødselsvekt som normalfordelt med µ = 3000 (g) og σ= 500 Arealet av det skraverte feltet svarer til sannsynligheten P( µ - 2σ < X < µ + 2σ ) Dette utgjør 95% av det totale arealet under kurven. f(x)

  15. Normalfordelingen • Lek og lær med normalfordelingen: http://www-stat.stanford.edu/~naras/jsm/FindProbability.html • Beregner/visualiserer sannsynligheter og persentiler i normalfordelingen

  16. Normalfordelingen • Standardisering av normalfordelingen • Enhver normalfordelt variabel X ~ N( µ, σ) kan bringes over på standard form via transformasjonen Z = (X - µ) / σ, dvs. • Z er da standardnormalfordelt, dvs. Z ~ N( 0, 1) • Standardnormalfordelingen er tabulert, dvs. vi kan finne P(Z < z) fra tabelloppslag (se s. 304 i læreboka).

  17. Normalfordelingen P(Z < z) P(Z< 0.14) = 0.5557 Tabellopppslag

  18. Normalfordelingen • Hvorfor er normalfordelingen nyttig? • Sentralgrenseteoremet: ”Et gjennomsnitt av mange uavhengige størrelser der ingen dominerer, er (tilnærmet) normalfordelt” • Eksempler: • blodtrykk, høyde osv. (mange gener har betydning) • gjennomsnitt av flere målinger • Merk! Slett ikke alle størrelser er normalfordelt!

  19. Normalfordelingen Eksempel: Histogram over total PSA (prostata spesifikt antigen) (µg/l) fra 50 pasienter med prostatakreft er ikke forenlig med en underliggende normalfordeling.

  20. Normal- og binomisk fordeling • Binomiske sannsynligheter er vanskelige å beregne når antall enkeltforsøk, n, er stort • Den binomiske fordelingen konvergerer mot (går mot) en normalfordeling når n blir ”rimelig” stor, dvs. • Forventningsverdi og standardavvik i den tilnærmede normalfordelingen bestemmes ved å kreve at de skal være lik tilsvarende størrelser i den binomiske fordelingen:

  21. Normal- og binomisk fordeling Eksempel: Binomisk fordeling med p = 0.2 for økende n n=5 n=2 n=15 n=30

  22. Normal- og binomisk fordeling • Lek og lær med normal- og binomisk fordeling: http://www.ruf.rice.edu/~lane/stat_sim/normal_approx/index.html • Visualiserer tilnærmelsen til normalfordeling for ulike kombinasjoner av n og p

  23. Eksempel: uttesting av dietter • To dietter Feed-on og Feed-off skal testes nærmere: • Et utvalg på 100 personer prøver en uke Feed-on og en uke Feed-off og etterpå blir de spurt om i hvilken periode de mistet mest vekt. • Etter prøveperioden svarte 58 personer at de mistet mest vekt i perioden hvor de brukte Feed-on. • Spørsmål: Undersøk ved hjelp av hypotesetesting hvorvidt resultatet av undersøkelsen gir grunnlag for å hevde at Feed-on er signifikant bedre enn Feed-off.

  24. Normal- og Poissonfordeling • Tommelfingerregel: Sannsynligheter i Poissonfordelingen kan tilnærmes med en normalfordeling dersom parameteren λ ≥ 5. • Forventningsverdi og standardavvik i den tilnærmede normalfordelingen bestemmes ved å kreve at de skal være lik tilsvarende størrelser i Poissonfordelingen:

  25. Normal- og Poissonfordeling Eksempel: Poissonfordeling for økende verdier av λ λ=0.5 λ=2 λ=5 λ=15

  26. Eksempel - trafikkdødsfall • Over en periode er det observert et relativt stabilt tall på 120 dødsfall i trafikken pr. år blant personer i aldersgruppen 15-24 år. • Så et år blir tallet redusert til 90 drepte. • Spørsmål: Gir dette grunnlag for å påstå at risikoen for å dø i trafikken virkelig er gått ned, eller er observasjonen dette året kun uttrykk for tilfeldig variasjon?

More Related