Help! Statistiek!

Help! Statistiek! Doorlopende serie laagdrempelige lezingen, voor iedereen vrij toegankelijk. Doel: Informeren over statistiek in klinisch onderzoek. Tijd: Derde woensdag in de maand, 12-13 uur 17 september Bayesiaanse statistiek 15 oktober Statistische software: van SPSS naar R 19 november Robuuste statistiek Sprekers: Vaclav Fidler, Hans Burgerhof, Wendy Post DG Epidemiologie www.EpidemiologyGroningen.nl

Programma • Wie was Bayes? • Wat is Bayesiaanse statistiek? • Wat zijn de verschillen met de klassieke (frequentistische) statistiek? • Eenvoudig voorbeeld • Voorbeeld van een Bayesiaanse analyse uit de medische literatuur • Voor- en nadelen van Bayesiaanse statistiek • literatuurverwijzingen

Thomas Bayes (1702 – 1761) Conditionele kans (toepassing o.a. bij diagnostische tests) Stelling van Bayes: Vanaf ± 1920 “Bayesiaanse statistiek” gebezigd door o.a. Ramsey, De Finetti, Savage, Jeffreys

Bayesiaanse statistiek … • Beschouwt de onbekende parameter(s) als kansvariabele(n) • Stelt een a priori kansverdeling op betreffende de onbekende parameter(s) • Bepaalt de likelihoodfunctie van de parameter(s), gegeven de data • Berekent de a posteriori kansverdeling met behulp van de stelling van Bayes • Trekt conclusies met behulp van deze a posteriori verdeling over de parameter(s) 80 % kans dat µ tussen 20 en 60 ligt Volgens de H0 is µ = 40 frequentist Bayesiaan

Een klassieke (frequentistische) analyse • Er bestaat een geneesmiddel voor aandoening A waarvan bekend is dat deze in 30 % van de gevallen een positief effect heeft (binnen twee weken) • We hebben een nieuw middel en verwachten dat deze in 50 % van de gevallen binnen twee weken een positief effect heeft • H0 en alternatief (H0: π = 0,3 tegen H1: π > 0,3) • Poweranalyse ( n = 50) • Toets (Binomiaal, normale benadering) • (95%) betrouwbaarheidsinterval Kritiek gebied P-waarde

Vervolg klassieke statistiek • In ons onderzoek vinden we bij de 50 personen die met het nieuwe middel behandeld zijn 23 “successen” binnen twee weken • 95 % BI? • Conclusie naar aanleiding van de toets?

Vervolg klassieke statistiek • Puntschatter voor π: 23/50 = 0,46 • 95 % BI voor π: [ 0,32 ; 0,60 ] • Interpretatie? • Als we deze procedure vaak zouden herhalen, zal de onbekende π in ongeveer 95 % van de gevallen in het geschatte interval liggen • Het is in de klassieke statistiek onjuist om te spreken over “de kans dat π in het interval ligt”. De parameter π is geen kansvariabele! Vandaar “frequentisten” Bayesianen vattenparameters wel op als kansvariabelen

De Toets De kansverdeling van het aantalsuccessen X als H0 waar is (π = 0,3) Kritiek van de Bayesiaan: Waarom kansen bepalen op gebeurtenissen die niet hebben plaatsgevonden? Waarom is α = 0,05? Wat als het een eenmalige gebeurtenis betreft? 23 Eénzijdige P-waarde: P(X ≥ 23) = 0,0123 wordt vergeleken met α (meestal 0,05) H0: π = 0,3 wordt verworpen

Aangaande de P-waarde: • Jeffreys (1961): “What the use of P implies, therefore, is that a hypothesis that may be true may be rejected because it has not predicted observable results that have not occured”

Bayesiaanse analyse:de a priori verdeling • De a priori verdeling geeft kansen op verschillende waarden van de onbekende parameter(s) voordat het experiment heeft plaatsgevonden. • De a priori verdeling kan bepaald worden op grond van een pilot, literatuur, meningen van een panel van experts of (subjectieve) ervaringen in het verleden

Eenvoudig voorbeeld • Als er slechts twee mogelijkheden voor de succeskans π zijn (0,3 en 0,5) en we hebben geen enkele aanwijzing welke van de twee waarden de juiste is, zouden we de volgende a priori verdeling kunnen nemen: P(π = 0,3) = 0,5 P(π = 0,5) = 0,5 Of: de prior odds = 0,5/0,5 = 1

Likelihood • Er worden 50 mensen behandeld, de uitkomst is óf een succes (met kans π) óf een mislukking (met kans 1 – π). De kans op k successen wordt gegeven door de Binomiale kansverdeling:

A posteriori verdeling Posterior = prior*likelihood/0,05132 p(π |X) = C*p(X |π)*p(π) Stelling van Bayes

A posteriori kansverdeling (1) P(π = 0,5) = 0,935 Of: de posterior odds = 0,935/0,065 = 14,4 Vergelijk het “updaten” van een prevalentie na een diagnostische test

Realistischer voorbeeld • Waarschijnlijk kan de succeskans π meer dan twee waarden aannemen • Als we totaal geen idee hebben en alle kansen tussen 0 en 1 even waarschijnlijk zijn A priori verdeling = Uniforme verdeling (non-informatieve prior) 1 kans De a posteriori verdeling wordt nu bepaald door de likelihood 0 1 π Posterior = C*prior*likelihood

A posteriori kansverdeling (2) 95% HDR komt nagenoeg overeen met 95 % BI van de frequentisten (bij een Uniforme prior) 95 % HDR: [0,33 ; 0,60] 95 % kans dat 0,33 < π < 0,60 Gebruik de a posteriori verdeling om “Highest Density Regions” (HDR) te berekenen (HDR = Bayesian CI = credible interval)

A posteriori kansverdeling (3) • Als we voorafgaande aan de dataverzameling wel informatie hebben over de onbekende parameter, kunnen we dat verwerken in de a priori verdeling • Dit kun je doen door een prior te kiezen uit een specifieke familie van kansverdelingen

Beta-verdelingen Beta(α‚β) kansdichtheid π Voor α = β = 1 krijg je de uniforme verdeling

A priori verdeling: Beta(3,7) Prior: verwachtings- waarde voor π ≈ 0,3 P(π > 0,6) ≈ 0,03 Posterior verdeling van dezelfde familie als de prior: Conjugate prior

De a posteriori kansverdeling Puntschatting voor π: Frequentist: k/n = 23/50 = 0,46 Bayesiaan: (k + α) / (n + α + β) = 26 / 60 = 0,43 In de a priori verdeling gold P(π < 0,3) = 0,54, in de a posteriori verdeling is P(π < 0,3) = 0,02 In de a posteriori verdeling geldt P(0,31 < π < 0,56) ≈ 0,95 Verwachting: 0,43

Na een tweede experiment met48 successen uit n = 100 Beta (26,34) was de a posteriori van het vorige experiment A priori: Beta(26,34) A posteriori: Beta(74,86) Frequentist op grond van het laatste experiment: 95 % BI = [0,38 ; 0,58] P(0,39 < π < 0,54) = 0,95 Verwachting: 0,46

Voorbeeld van Bayesiaanse analyse uit de medische literatuur Ring en Spiegelhalter in Kidney International Kans op aneurysma bij ADPKD (2007) Bayesiaans random effect model m.b.h.v. MCMC

Voordelen Bayesiaanse statistiek • Interpretatie van de a posteriori verdeling (kansverdeling van de parameter(s)) eenvoudiger dan “dubbele ontkenning” van de frequentisten • Gebruik a posteriori verdeling voor beslissingen • Cumulatieve karakter van kennisvergaring (oude posterior wordt nieuwe prior) • Nuttig bij “stopping rules” en subgroepanalyses • Generieke aanpak

Nadelen van Bayesiaanse analyses • Kritiek mogelijk op keuze van de a priori verdeling • Wiskundig meestal ingewikkeld • Bestaat een non-informatieve prior? (schaal!) Neem een non-informatieve prior of Laat het effect van verschillende priors zien (sensitiviteitsanalyse) Steeds meer software beschikbaar (o.a. BUGS)

Tot slot … • Een Bayesiaan en een frequentist worden beiden ter dood veroordeeld …

Literatuur • Gelman e.a.: Bayesian data analysis (Chapman & Hall,1995) • Lee: Bayesian Statistics. An introduction. (Arnold, Londen,1989) • Iversen: Bayesian statistical inference (Sage 1984) • Spiegelhalter e.a.:An introduction to bayesian methods in health technology assessment (BMJ 1999) • Gurrin e.a.: Bayesian statistics in medical resaerch: an intuitive alternative to conventional data analysis (Journal of evaluation in clinical practice, 2000) • Ring en Spiegelhalter: risk of intracranial aneurysm bleeding in autosomal-dominant polycystic kidney disease (Kidney International, 2007) • BUGS: http://www.mrc-bsu.cam.ac.uk/bugs/

Volgende keer: Woensdag 15 oktober 2008 Statistische software: van SPSS naar R Same place, same time

Help! Statistiek!

Help! Statistiek!

Presentation Transcript

Betrouwbaarheid en validiteit: Alleen een kwestie van goed meten ?

Statistiek I

Help! Statistiek!

Help! Statistiek!

Help! Statistiek!

Voorkennistest wiskunde en statistiek

Health and Health services, Impairment and Disability, Nutrition / Social Security and Welfare Services

Statistiek

Statistiek 2

Marktonderzoek

Wiskunde statistiek

De normale verdeling

Discreet en dynamisch

M ARIO F . T RIOLA

De toetsuitslagen van de leerlingen zijn binnen en wat nu?

Methodologie &amp; Statistiek I

Help! Statistiek!

Meten en experimenteren

Staaf- en cirkeldiagram

Households and families, marital status and fertility

Economic Activity and Population not Economically Active

Introductie periode 2b

Help! Statistiek!

Help! Statistiek!

Presentation Transcript

Betrouwbaarheid en validiteit: Alleen een kwestie van goed meten ?

Statistiek I

Help! Statistiek!

Help! Statistiek!

Help! Statistiek!

Voorkennistest wiskunde en statistiek

Health and Health services, Impairment and Disability, Nutrition / Social Security and Welfare Services

Statistiek

Statistiek 2

Marktonderzoek

Wiskunde statistiek

De normale verdeling

Discreet en dynamisch

M ARIO F . T RIOLA

De toetsuitslagen van de leerlingen zijn binnen en wat nu?

Methodologie &amp;amp; Statistiek I

Help! Statistiek!

Meten en experimenteren

Staaf- en cirkeldiagram

Households and families, marital status and fertility

Economic Activity and Population not Economically Active

Introductie periode 2b

Methodologie & Statistiek I