1 / 36

Statistikk

Statistikk. Hvordan får man data og modell til å passe sammen?. Når modell+metodikk krasjer med virkeligheten. C. Ønsker å finne sammenhengen mellom vannstand (h) og vannføring (Q). Antar formen: Q=C(h-h 0 ) b

brede
Télécharger la présentation

Statistikk

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Statistikk Hvordan får man data og modell til å passe sammen?

  2. Når modell+metodikk krasjer med virkeligheten C Ønsker å finne sammenhengen mellom vannstand (h) og vannføring (Q). Antar formen: Q=C(h-h0)b h0 er bunnvannstanden, b har å gjøre med formen på elveprofilen og C har å gjøre med bredden på elva. Tilpasser med et sett vannføringsmålinger. Med likelihoods-tilpasning gir enkelte målesett uendelige parametre! Tilpasningen blir bra, men med komplett urimelige parameter-verdier. h Q b h0 Datum, h=0 Hva som utgjør rimelige og urimelige parameter-verdier, er ikke noe frekventistisk metodikk i utgangspunket tar høyde for. Bayesiansk statistikk, derimot…

  3. Statistisk skoler- Bayesiansk Bayesiansk statistikk: Her oppsummerer man alt man vet om parametrene via en fordeling (siden de er usikre). Først angir man en såkalt a’ priori-fordeling som beskriver førkunnskap om parameterverdiene, , og evt. også modellene, M. Dette oppdateres så med data, D, via Bayes formel: Uformell versjon av Bayes formel: posterior=prior*likelihood/marginal Fra førkunnskap + data får man en såkalt a’posteriori-fordeling for parameterne gitt modell. Dette oppsummerer all kunnskap man har om parameterne etter å ha håndtert data. All inferens gjøres altså med sannsynlighetsberegninger. Førkunnskap Likelihood

  4. Bayesiansk statistikk –en medisinsk oppvarming Forestill deg en sykdom med en medisinsk test som alltid vil finne sykdommen hvis man har den. Den er ellers svært nøyaktig også, og vil gi falske positive i kun 1% av tilfellene der man ikke har sykdommen. Sykdommen er sjelden, bare en av tusen har den. Hvis du tester positivt, hvor sannsynlig er det at du har sykdommen? Det er altså bare 9% sjanse at du har sykdommen! Hva skjer?

  5. Bayesiansk statistikk –en grafisk medisinsk oppvarming Ett tusen personer før testen, representert med små sirkler = Syk = Frisk

  6. Bayesiansk statistikk –en grafisk medisinsk oppvarming Etter testen, vil en syk og ca. ti friske teste positiv = Syk = Frisk Sannsynligheten for at du har sykdommen har økt enormt, men ti av elleve (91%) vil teste positiv selv om de er frisk, kun 9% fordi de faktisk har sykdommen. Positiv test er altså evidens (og ganske sterkt sådan) for sykdom, men ikke så sterkt at vi tror det er mer sannsynlig enn at vi fremdeles er frisk. En naiv frekventist kjøre en modelltest og si at sannsynligheten for positiv test (1%) er mindre enn vanlig brukt signifikansnivå (5%), og at de er syk med 95% konfidens. En dreven frekventisk vil kalle din sykdomstilstand en skjult variabel heller enn et modellvalg, og deretter bruke Bayesiansk metodikk.

  7. Bayesiansk statistikk – paralleller og forskjeller Parallelt/ligner • Troverdighetsintervall: Et 95% troverdighetsintervall til en parameter er et intervall som omslutter 95% av sannsynlighetsfordeligen til parameteren, gitt den informasjonen du har. • Modelltesting: Kan beregne sannsynligheten for en modell gitt data, tilsvarende som man regner ut sannsynlighetstettheten til en parameter gitt data. • Estimasjon: Man kan estimere parametre. Men dette gjøres etter at a’ posteriori-fordelingen er beregnet. Typisk tar man gjennomsnitt, median eller modus over fordelingen. Forskjellig • Fordeling på selve parametrene. • Man trenger en førkunnskap, en fordeling over parametrene før data: f(). • All informasjon etter data ligger i a’posteriori-fordelingen, f(|D). • All oppdatering skjer via likelihood (ingen inferens gjort på counter-factuals). • Det er mulig å skaffe evidens for enklere modeller. Man kan altså gradvis føle seg tryggere på en null-hypotese. • Har vi håndtert ett datasett, bruker vi det som førkunnskap hvis vi skal håndtere ett til.

  8. Førkunnskap – a’ priori-fordeling • A’ priori-fordelingenskal oppsummere den kunnskapen vi har om modellen(e) før data. • Man velger gjerne fordelingsfamilie først, gjerne ut ifra egenskapene til parameterne (kan de ta verdier over hele tallinjen, er de strengt positive eller i intervallet 0-1?) samt matematiske behagelighetshensyn. Tviler man på utfallet av slike valg, bør man prøve flere (robusthetsanalyse). • Man tilpasser så dette til mer konkret førkunnskap, som for eksempel ”i hvilket intervall ville jeg ikke bli overrasket over å finne parameteren” for deretter å justere et (f.eks) 95% troverdighetsintervall i forhold til dette. • Vanlig feil: Se på de data man skal analysere for å si noe om a’ priori-fordelingen. Da går man i sirkler, og får helt urimelige anslag på usikkerhet og modellvalg.

  9. Førkunnskap – a’ priori-fordeling (2) I utgangspunktet rent subjektivt, men kan gjøres mer godtabart for andre ved: • Inkorporere fagkunnskap som et fagfelt har blitt enig om (intersubjektivitet) • Se hva slags variasjoner som ligger i naturen. For eksempel for hydrologiske stasjoner, hva er typiske variasjoner i vannføringskurve-parametre? Kan tenke på dette som ”naturens a’ priori-fordeling”. • Bruke såkalt ikke-informative a’ priori-fordelinger. NB: Disse er ofte ikke propre fordelinger. F.eks. finnes det ingen ekte sannsynlighetsfordeling som trekker med lik sannsynlighet over hele tallinjen. Likevel kan ikke-propre fordelinger ofte resultere i propre a’ posteriori-fordelinger. PS: Ikke bruk slike i modell-sammenligning!

  10. Bayesiansk statistikk – fordelinger Man starter analysen med to ting: • En modell som sier hvordan data produseres, og som omhandler parametre man er interessert i. Dette er likelihood’en: f(D|). • En a’ priorifordeling, f(). Oppsummerer vår førkunnskap om parametrene. • Fra dette får man følgende fordelinger av interesse: • A’ posteriori-fordeling: f(|D). Dette oppsummerer alt vi vet om parametrene etter at vi har håndtert våre data. • Fordelingen til avledede størrelser: Eks: vannføring på en gitt vannstand når Q=C(h-h0)b • A’ priori prediksjonsfordeling, også kalt marginal-fordelingen. f(D), gir sannsynligheten for ulike utfall ubetinget på parametereverdien (ut ifra det vi vet om parametrene på forhånd altså a’ prior-fordelingen). Anvendt på data, gir dette sannsynligheten (likelihood’en) til data gitt kun modellen (likelihood og prior). Kan derfor også kalles modell-likelihood, siden den inngår på samme måte i Bayes formel for modell-inferens som parametrisk likelihood inngår i Bayes formel for parameter-inferens. Matematisk: • A’ posteriori prediksjonsfordeling, f(Dnew|D), sannsynligheten for å få nye data gitt de gamle (Dette er et eksempel på fordelingen til en avledet størrelse). Tar altså hensyn til usikkerheten i parametrene etter data-håndtering. • PS: A’ posteriorifordelingen vil være a’ priorifordeling når vi skal håndtere nye data. Prediksjonsfordelingen vil være den nye marginalfordelingen.

  11. Bayesiansk statistikk – sammenligning av sannsynligheter Bayes formel: Om en parameter-verdi øker eller minsker i sannsynlighet etter data, relativt til en annen parameter-verdi, kan ses hvis vi sammenligner a’ posteriori-sannsynlighetene: • Parameterverdi 1 øker dermed i sannsynlighet relativt til 2 hvis f(D|1)>f(D|2), altså data er mer sannsynlig med parameterverdi 1 enn 2. (Har her underkjent at det er kun en modell vi ser på.) • Tilsvarende gjelder for modeller: • Altså en modell øker i sannsynlighet relativt til en annen hvis data er mer sannsynlig (marginalisert over parameterverdiene) for denne modellen enn for den andre, Pr(D|M1)>Pr(D|M2). • Viktigst av alt: Man får ikke noe fra absolutte sannsynligheter for data gitt antagelse. Det er kun sammenligning av sannsynligheter (eller sannsynlighetstettheter) som teller!

  12. Bayesiansk statistikk – ukjent forventing på normalfordelte data med kjent standardavvik Førkunnskap: ~N(0=0, =3) • Likelihood: (All informasjon om  ligger i gjennomsnittet i dette tilfellet). • A’ priorifordeling, velger: • A’ posteriori-fordeling (omstendelig utregning): Etter-kunnskap: ~N((x)=2.15, (x)=0.44) For n=5, x=2.2, =1

  13. Bayesiansk statistikk – ukjent forventing på normalfordelte data med kjent standardavvik Egentlig samplingsfordeling for gjennomsnitt (ukjent for oss), =2,=1,n=5 • Likelihood: (All informasjon fra data ligger i gjennomsnittet i dette tilfellet). • A’ priorifordeling, velger: • A’ priori prediksjons-fordelingen: • A’ posteriori prediksjonsfordeling: Marginalfordelig til gjennomsnitt for oss. Prediksjons-fordeling, n=m=5, x=2.2, =1

  14. Bayesiansk statistikk – modellsammenligning • Teknisk sett gjør vi modellsammenligning med Bayes formel: • Drivkraften her er marginalfordelingene til data, f(D|M). Sammenligner vi de, kan vi se om vi får evidens for den ene eller andre modellen. • Eks: Eksperiment på ekstrasensoriske sanser gav 18 av 30 korrekte utfall på enten-eller-spørsmål hos en forsøksperson. Er det noe i det? Bruker binomialfordeling med enten kjent, p=0.5 (nei), eller ukjent (ja) uniformt fordelt suksessrate. • Kan vise at marginalfordelingen med uniformt fordelt suksessrate gir lik sannsynlighet for alle utfall. • Ser fra plottet at utfall mellom 11 og 19 er evidens for p=0.5, mens andre utfall er evidens mot. 18 riktige er mer sannsynlig på tilfeldig gjetting enn hvis det er ekstrasensoriske sanser i spill. Marginalfordeling for p=0.5 (rød ) og p ukjent (blå)

  15. Bayesiansk estimering – en advarsel Tar man forventnings- eller median-estimat, kan man regne med at verdien man får er representativ for a’ posteriori-verdien til hver parameter, men ikke nødvendigvis at kombinasjonen er representativ. Urepresentative parameter-kombinasjoner kan gjøre en mye dårligere jobb med å beskrive data enn en god en. Har sett eksempel på dette i multi-segmentvannføringskurve-tilpasning, som i slike tilfeller underestimerte vannføringen konsekvent. Beste løsning; estimer direkte det du skal fra a’ posteriori-fordelingen, i stedet for å gå via parameter-estimat. Nest beste løsning: Bruk modus. NB: Betyr optimering! Parameter 2 Forventning Modus Parameter 1

  16. Bayesianskmodell-gjennomsnitt Man kan lage prediksjons-fordelinger kun betinget på modell, ikke modellparametre, ved å ta hensyn til usikkerheten i disse: Tilsvarende kan man finne prediksjons-fordelingen *ubetinget* på modell: (Fra loven om total sannsynlighet)

  17. Bayesiansk vs frekventistisk Ulemper Fordeler Faglig kunnskap kan tas i bruk. Siden du må oppgi en førkunnskap, tvinges du til å lage meningsfulle modeller. Resultatene er ofte lett å forstå og henger sammen med dagligdags bruk av sannsynlighet. Svært kompliserte modeller kan bygges og analyseres. Du trenger ikke ta stilling til om noe er fundamentalt stokastisk eller ikke. Du får parameterusikkerhet ”gratis”. Du blir tvunget til å oppgi en førkunnskap. Siden førkunnskapen gjerne har en subjektiv karakter, blir resultatet å anse som subjektivt også. Ofte ikke så mange ferdigmetoder tilgjengelig. Utregningen før du får resultater er oftere vanskelig. Bayesiansk statistikk Ingen førkunnskap nødvendig, betyr en mer ”objektiv” metode. Mange ferdigmetoder klare til å tas ibruk. Med andre ord en stor ”verktøykasse” som kan anvendes med en gang. Enklere beregninger betyr at det er enklere å komme i gang med bruken. Vanskelig å benytte relevant faglig førkunnskap. Vanskelig å forstå hva resultatene faktisk betyr! Kompliserte modeller kan være nærmest umulig å analysere med frekventistiske metoder. Du må ta stilling til om noe er fundamentalt stokastisk eller ikke. Parameterusikkerhet er en separat oppgave du må gjøre etter estimering. Frekventistisk estimering kan inneholde ”bugs”, sett i vannføringskurve-estimering. Frekventistisk statistikk

  18. Bayesiansk vs frekventistisk – det pragmatiske aspektet Når modellkompleksiteten er under en hvis terskel, er frekventistisk metodikk enklest. Over terskelen blir det enklere med Bayesiansk metodikk. Arbeid Frekventistisk Bayesiansk Kompleksitet

  19. Simulering og store talls lov Anta du er interessert i egenskaper til fordelingen til en variabel (sannsynligheter, forventning, varians, kvantiler etc.). Anta videre at du ikke kan regne ut disse direkte. Det du derimot kan er enten å trekke direkte fra variabelen eller du kan konstruere den fra variable du kan trekke fra. Med mange trekninger (et ensemble) fra den variabelen du er interessert i, kan du dermed estimere sannsynligheter, forventning, median, varians, kvantiler og så videre. Eks: • Regne ut sannsynligheten for å få yatzi utledet fra en algoritme for terningkast og omkast. • Estimere sannsynligheten for en feilsituasjon i innkjøringssystemet ut ifra feilraten til enkelt-komponentene og kunnskap om hvordan de samhandler. • Regne ut forventet vannføring fra et ensemble av vær-scenario med spesifiserte sannsynligheter og/eller ut ifra like sannsynlige modeller. • Finne egenskapene til en Bayesiansk a’ posteriori-fordeling (via MCMC-trekninger).

  20. Monte Carlo-metodikk fordeling Integral kan estimeres med trekninger, hvis du kan dekomponere det du integrerer over i en fordeling og en annen funksjon: Her står Effor ”forventingen når vi bruker fordelingen f”. Siden snitt kan brukes som estimat for en forventning, vil Eks: Man kan beregne  ved å trekke observere at arealet av en sirkel omsluttet av rektangelet 0<x<1,0<y<1 er /4: Tar man altså et hagleskudd inn i rektangelet 0<x<1,0<y<1 og sjekker andelen som faller innenfor sirkelen x2+y2<1, får man altså noe som ca. er like /4.

  21. Monte Carlo-metodikk og Importance sampling Importance sampling er en Monte Carlo-metode der man har valgt en såkalt forslags-fordeling, g(x), selv. Dette kan brukes til å søke ut en forslagsfordeling g som gjør variansen (usikkerheten) til det beregnede snittet bedre. Teorien sier at desto mer g(x) ligner på m(x)f(x) (opp til en multiplikativ konstant), desto bedre blir estimatet (mindre usikkerhet). Dette kan brukes i Bayesiansk sammenheng til å beregne marginalfordelingen (a’ priori prediksjonsfordeling til data), som brukes til å regne ut modellsannsynligheter: Valget av forslagsfordelingen vil avgjøre hvor effektiv denne estimeringen er (hvor stor varians estimatet har). Desto nærmere forslagsfordelingen ligner h(x) (opp til en normaliseringskonstant), desto mer effektivt blir det.

  22. Bayesiansk statistikk – når parameter-inferens blir vanskelig (MCMC) • Minner om Bayes formel (når vi ser på kun en modell): • Men, det finnes måter å sample (trekke) fra en fordeling, uten å kjenne til konstantene (normaliseringen) i fordelingen, kun hvordan fordelingen avhenger av det den er en fordeling av. f(D) er i dette tilfelle den ukjente normaliseringskonstanten. • En Markov-kjede er en tidsserie der verdien ”nå” avhenger (kun) av forrige verdi. Enkelte tidsserier stabiliserer seg slik at de har en fordeling som ikke forandrer seg over tid, den såkalte stasjonærfordelingen. • Det er mulig å lage en tidsserie som er slik at den stasjonære fordelingen er lik den fordelingen du er ute etter selv om du ikke har normaliseringskonstanten. Dette kalles MCMC (Markovchain Monte Carlo). • WinBUGS er et system som muliggjør automatisk MCMC-sampling gitt modell, a’ prior-fordeling og data. (Alt: Egen MCMC-modul i R). Marginalfordelingen: Denne rakkeren kan være problematisk. Ikke alle integral har analytisk løsning.

  23. Bayesiansk statistikk – mer MCMC • Generelt går en MCMC rutine slik: • Lag et startforslag for parameterne, gammel. • Finn en måte (en forslagsfordeling*) å trekke ny parameterverdi gitt gammel og bruk den: ny~g(ny|gammel) • Aksepter ny trekning med sannsynlighet og bruk gammel trekning hvis ikke. • Gå tilbake til 2 så mange ganger du vil. Merk: Normaliseringer bortfaller Viktige begreper: Burn-in: antall trekninger før tidsserien nærmer seg stasjonær fordeling Spacing: antall trekninger mellom hver du kan beholde som ca. uavhengig trekning. Har her fått ca 5 uavhengige trekninger spacing Burn-in * Forslagsfordelingen bestemmer hvor effektiv algoritmen er.

  24. Prosesser og fordelinger – rekapitulering • Uavhengighet er en veldig behagelig egenskap til en prosess. ….. x1 x2 x3 x4 x5 x6 ….. xn • Samlet fordeling blir da ganske enkel å regne ut, hvis man kjenner fordelingen til enkelt-variablene. Er variablene likt fordelt blir det enda enklere. Noen kjente fordelingsfamilier og analysemetoder er tilknyttet uavhengige, likt fordelte variable via asymptotiske resultat. • Eks. på asymptotiske resultat for uavhengige variable: • Summen av n uavhengig, likt fordelte variable går (asymptotisk) i fordeling mot normalfordelingen, , der  og  er forventning og standardavvik til enkelt-variablene. Snittet går mot . • Maksimum/minimum av n uavhengige, likt fordelte variable går (asymptotisk) i fordeling mot General ExtremeValue (GEV)-fordelingen.

  25. Spesifikke uavhengige variable prosesser – Bernoulli-prosessen x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 I Bernoulli-prosessen tilhører utfallene to kategorier, gjerne kallt ’suksess’ (her illustrert med lyst blått) og ’feil’ (her illustrert med svart). Eks: • Kasting av kron/mynt • Rødfarge-status på passerende biler. • Hvorvidt årsmaksimalen for en stasjon oversteg en gitt terskelverdi. Inkorrekt: Regn-indikator på døgn-nivå.. Siden utfallene er uavhengige, kan prosessen spesifiseres med en enkel parameter, suksess-raten, p=Pr(xi=suksess). Er det mer enn to kategorier, er prosessen multinomisk, og det trenges flere parametre.

  26. Spesifikke uavhengige variable prosesser – Bernoulli-prosessen (2) Teller du antall suksesser for n forsøk, får du binomisk fordeling: Teller du antall forsøk til n’te feil, får du negativ binomisk fordeling: x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 I dette tilfelle, n=30, p=0.3 I dette tilfelle, n=1 (geometrisk fordeling), p=0.3 Kan anta verdiene 0,1,2,…,n Kan anta verdiene 0,1,2,…

  27. Spesifikke uavhengige variable prosesser – Poisson-prosessen t t1 t2 t3 t4 Poisson-prosessen er Bernoilli-prosessens storebror, i det at den foregår i kontinuerlig tid. Hendelsene er igjen uavhengig, med en sannsynlighet for en hendelse i et lite intervall, t, lik t. Prosessen er altså karakterisert ved en enkelt parameter, . Eks: • Antall bil-ulykker pr. år med dødlig utfall. • Antall kantareller på en sti (avhengighet kun for små områder, ellers vil raten forandre seg etterhvert). • Antall ganger man overskrider et gitt vannføringsnivå innenfor et tidsintervall. (PS: Strengt tatt ikke uavhengig!) Egenskaper: Starter vi fra et gitt tidspunkt, t, så er fordelingen for tid til neste hendelser avhenger ikke av hvorvidt det var en hendelse på tidspunkt t eller ikke. Prosessen er såkalt hukommelsesløs.

  28. Spesifikke uavhengige variable prosesser – Poisson-prosessen (2) t t1 t2 t3 t4 Fordelinger avledet fra denne prosessen: Antall hendelser innenfor et intervall på størrelse T er Poisson-fordelt: Tid til neste hendelse fra et hvilket som helst utgangspunkt ereksponensielt fordelt: De usorterte tidspunktene til hendelser betinget på at det er n hendelser innenfor et intervall T er uniformt fordelt: f(t) P(n) I dette tilfelle er =10. f(t1) 1 Her: n=1, T=1 n t 0 1 t1 Antar ikke-negative heltallsverdier. Merk, er  stokastisk og gammefordelt, blir antall hendelser negativt binomisk fordelt. Antar positive reelle verdier Antar reelle verdier mellom 0 og T.

  29. Fordelingsfamilier tilknyttet generelle uavhengige variable - Normalfordelingen Sentralgrenseteoremet: Har man n identisk fordelte stokastiske bidrag i en sum der  er forventingsverdien og  er standardavviket for hvert bidrag, vil summen nærme seg en normalfordeling med forventingsverdi n og standarddavvik når n går mot uendelig. Snittet vil dermed også gå mot noe normalfordelt, med forventning  og standardavvik . Matematisk ser den slik ut: Standard-normalfordelingen: =0,=1

  30. Fordelingsfamilier tilknyttet generelle uavhengige variable - lognormal-fordelingen (skalastørrelser) Når en størrelse er nødt til å være strengt positiv (massen til en person, volum i et magasin, vannføringen i en elv), passer det ikke å bruke normalfordelingen. En enkel måte å fikse dette på, er å ta en logaritmisk transformasjon på størrelsen. Hvis en stokastisk variabel X>0, vil log(X) anta verdier over hele tall-linjen. Antagelsen log(X)~N(,) gir også en fordeling for X, kalt den lognormale fordelingen, X~logN(,). Hvis forventningen  øker, øker også usikkerheten (standardavviket), men den relative usikkerheten forblir konstant. Fra sentralgrenseteoremet kan man argumentere for at produktet av uavhengige likt fordelte positive variable går mot noe som er log-normalfordelt.

  31. Fordelingsfamilier tilknyttet generelle uavhengige variable - (invers) gamma-fordeling Gamma-fordelingen er en annen fordeling for strengt positive størrelser. Den har en matematisk form som er svært behagelig når man studerer variasjons-parametre (summer av uavhengige kvadratavvik) og rate-parametre (Poisson). Den er dog ikke så enkel å bruke når man starter med et troverdighets-intervall og ønsker å finne fordelingen som passer med det. Hvis X er log-normal-fordelt, er også 1/X det. Men hvis X er gamma-fordelt er 1/Xinvers-gammafordelt. Dette er ikke samme fordelingen, selv om den kan se ganske lik ut.

  32. Fordelingsfamilier tilknyttet generelle uavhengige variable - Ekstremverdifordelinger (GEV) Ekstremverdifordelinger er fordelingstyper som typisk vil være gode tilnærmelser til fordelingen til ekstreme hendelser, under gitte betingelser. Betingelsene vil angi hvilken fordeling det er snakk om. Maksimum/minimum av en samling uavhengige data over et gitt tidsintervall. Eks: årsflommer Her sier teorien det er GEV-fordelingen som gjelder. Denne har tre parametre, en som angir sentrering, en for spredning og en angir formen.

  33. Ekstremverdi-analyse • Målet er å estimere T-års-ekstremen (flommen). T-års-ekstremen er slik at etter T år vil det i forventning være én overskridelse av T-års-ekstremen. For årlige ekstremer blir dette 1/T-kvantilen til fordelingen disse verdiene. • Data: Enten maksima/minima fra blokker eller fra maksima/minima over/under terksel. • For maksima/minima fra årsblokker blir dette klassisk gjort ved å estimere ekstremverdi-fordelings-parameterne, og hente 1/T-kvantilen derifra. • Asymptotisk teori angir standard-fordelinger hvis man har et sett maksima over gitte (store) blokker med uavhengige data (GEV) eller over en gitt stor verdi (Pareto). Fordeling (svart), data (søyler), ML-estimert fordeling (rød), Bayesiansk prediksjonsfordeling (blå).

  34. Ekstremverdi-analyse-problemer • Merk at sannsynligheten for å overstige en 100-års-flom på en 100-års-periode ikke er 100%. Hvert år en sannsynligheten for overstigning 1/T, som over T uavhengige år blir ca. lik 1-e-163.2%. • Merk at forutsetningene for asymptotikken er brutt i NVE-data (slettes ingen uavhengighet innenfor år). • Merk at estimert T-års-ekstrem vil være det vi får fra å velge en fordelingsfamilie, estimere parametre og beregne 1/T-kvantil fra dette. Dette er ikke den egentlige T-års-ekstremen, fordi vi er usikre på korrekt fordelingsfamilie og usikre på parameterverdiene. Dette kan føre til skjevheter i estimert T-års-ekstrem. • Eks: Trekker man et datasett på 25 år trukket fra en Gumbel-fordeling med tilfeldige parametre, vil ML-estimert 100-års-flom overstiges en av 65 ganger når man trekker en ny årsmaks fra Gumbel-fordelingen. I praksis oppfører derfor estimert 100-års-flom seg som en 65-års-flom. Det samme fås for L-momenter, men ikke Bayesianske prediksjonsfordelinger tatt fra vag prior.

  35. Ekstremverdi-analyse og ikke-stasjonaritet • En tidsserie er ikke-stasjonær hvis den fordelingen til utfallene forandrer seg med tid. Dette er rimelig å anta er tilfelle for vannføring og meteorologiske tidsserier p.g.a. klimaendringer. • I enkleste tilfelle kan endringene beskrives ved parametriske sammenhenger. For eksempel ved GEV-fordelingen kan vi ha at parametrene forandrer seg linært i tid (Engeland, Hisdal, Frigressi 2005): • Mer avansert men mindre predikerbart: som stokastiske prosesser.

  36. Fordelingsfamilier tilknyttet generelle uavhengige variable - Ekstremverdifordelinger (Pareto) • 1. Maksimum over en gitt terskelverdi Her sier teorien det er Pareto-fordelingen som gjelder. Denne har tre parametre, en som angir terskelverdien, xm, en som angir skalaen og en som angir formen, k. Pareto-fordelingen kan være ekstremt tunghalet, det vil si at sannsynlighets-tettheten avtar veldig lite utover. (Dette kan være problematisk for forventing og standardavvik).

More Related