1 / 97

Bayesian: Single Parameter

Bayesian: Single Parameter. Prof. Nur Iriawan, PhD. Statistika – FMIPA – ITS, SURABAYA 21 Februari 2006. Frequentist Vs Bayesian (Casella dan Berger, 1987). Grup Frequentist Grup yang mendasarkan diri pada cara klasik: MLE, Moment, UMVUE, MSE, dll Pendekatan analitis selalu sebagai solusi

lida
Télécharger la présentation

Bayesian: Single Parameter

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Bayesian: Single Parameter Prof. Nur Iriawan, PhD. Statistika – FMIPA – ITS, SURABAYA 21 Februari 2006

  2. Frequentist Vs Bayesian (Casella dan Berger, 1987) • Grup Frequentist • Grup yang mendasarkan diri pada cara klasik: MLE, Moment, UMVUE, MSE, dll • Pendekatan analitis selalu sebagai solusi • Grup Bayesian • Grup yang mendasarkan diri pada cara Bayesian • Pendekatan numerik serta komputasi secara intensif • Inference lebih didasarkan pada kemungkinan muncul terbesar Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 2

  3. Teorema Bayes(Thomas Bayes, 1702-1761) Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 3

  4. Model Bayesian(Box dan Tiao, 1973), (Zellner, 1971), (Gelman, Stern, Carlin, dan Rubin, 1995) Mengacu pada bentuk proporsional Yang dibentuk sebagai Bahwa data yang dibentuk sebagai likelihood digunakan sebagai bahan untuk meng-update informasi prior menjadi sebuah informasi posterior yang siap untuk digunakan sebagai bahan inferensi. Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 4

  5. Bayesian: Parameter juga diperlakukan sebagai variabel • Dalam Bayesian semua parameter dalam model diperlakukan sebagai variabel • Prinsip berfikir sebagai bentuk Full Conditional Distribution digunakan untuk mempelajari karakteristik setiap parameter • Dibedakan antara simbol penyajian likelihood data dan Full Conditional Distribution. Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 5

  6. Motivasi Bayesian • Theorema Bayes • Thomas Bayes • Pada bentuk lain jika adalah suatu r.v yang independen dengan θ adalah parameternya, maka P(B) adalah konstan Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 6

  7. Example: the Icy Road Case • Ice: Is there an icy road? • Values {Yes, No} • Initial Probabilities (.7, .3) • Watson: Does Watson have a car crash? • Values {Yes, No} • Probabilities (.8, .2) if Ice=Yes, (.1, .9) if Ice=No. Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 7

  8. Icy Road: Conditional Probabilities Watson Yes No Ice Yes .2 .8 .9 No .1 p(Watson=no|ice=yes) p(Watson=yes|Ice=yes) Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 8

  9. Icy Road: Likelihoods Note: 8/1 ratio Watson Yes No Ice p(Watson=yes|Ice=yes) Yes .2 .8 .9 No .1 p(Watson=yes|Ice=no) Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 9

  10. Watson Yes Ice Yes No Ice Ice .56 Yes .2 .7 .8 Yes Yes No .03 No .3 .9 No .1 Icy Road: Bayes Theorem:If Watson = yes -- Before Normalizing Prior * Likelihood µ Posterior Sum = .59. Need to divide through by this ‘normalizing constant’ to get probabilities. Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 10

  11. Watson Yes Ice Yes No Yes Ice Ice Ice .56 Yes .2 .7 .8 .95 Yes Yes Yes No .03 No .3 .9 No .05 No .1 Icy Road: Bayes Theorem:If Watson = yes Prior * Likelihood µ Posterior Posterior probabilities -- each term in the product divided through by the normalizing constant .59. Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 11

  12. Contoh pada kasus Normal • Representasi alami suatu distribusi • Normal(μ,σ2) atau N(μ,σ2) ? Mana representasi yang representatif ? Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 12

  13. Apa perbedaan antara penyajian berikut ini? ? Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 13

  14. Plot variabel x, μdanσ dalam full conditional Normal μ x μ σ σ Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 14

  15. Interval vs Highest Posterior Density (HPD)(Box dan Tiao, 1973),(Gelman et.al, 1995), (Iriawan, 2001) • Pembentukan interval konfidensi pada frequentist adalah sbb • Pembentukan interval konfidensi pada Bayesian didekati dengan HPD. Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 15

  16. Representasi Kesamaan Densitas(Iriawan, 2001) Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 16

  17. Compromise dalam Control Chart Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 17

  18. HPD pada Control Chart Individu Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 18

  19. Contoh Kasus pada Bernoulli • Seperti halnya pada Normal sebelumnya, x~Ber(x;p) disajikan sbb: dimana pada frequentist, p dianggap konstan • Bagaimana jika karena situasi dan tempat pengamatan yang berbeda dan diperoleh p berubah-ubah? Prinsip Bayesian, p akan diperlakukan menjadi sebuah variabel agar mempunyai kemampuan akomodatif pada keadaan seperti di atas. Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 19

  20. Anggap p berubah sesuai dengan distribusi Beta(α,β), seperti berikut: dengan • apa yang akan terjadi? Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 20

  21. Anggap satu pengamatan bernoulli telah dilakukan, maka posterior distribusinya adalah sbb: Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 21

  22. Sesuai dengan spesifikasi fungsi Beta, maka penyebut dapat diproses sbb: Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 22

  23. Sehingga distribusi posterior untuk p setelah satu observasi tersebut adalah Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 23

  24. Estimator Bayes • Bayesian estimate dari p dapat diperoleh dengan meminimumkan loss function. Beberapa loss functions dapat digunakan, tetapi disini akan digunakan quadratic loss function yang konsisten dengan mean square errors (MSE) • Secara umum, estimasi θ dengan pendekatan Bayes sbb ((Carlin and Louis, 1996), and (Elfessi and Reineke, 2001)) : Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 24

  25. Dengan memperlakukan expektasi pada posterior distribution diperoleh Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 25

  26. Seperti sebelumnya, diselesaikan integral tersebut dengan membuat variabel baru a*=a+x+1 dan b*=b-x+1. Integralnya akan memberikan hasil sbb: Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 26

  27. Dengan menggunakan penyederhanaan seperti berikut • Maka, • Atau Ingat hasil ini kembali pada saat pembahaan Compromising Bayesian dengan Classical Approaches Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 27

  28. Pengembangan hasil ini ke bentuk n buah percobaan Bernoulli akan menghasilkan sebanyak y sukses memberikan hasil • Dimana y adalah jumlah sukses dari observasi setiap bernoulli x. Nilai taksiran y adalah sebagai berikut: Ingat hasil ini kembali pada saat pembahaan Compromising Bayesian dengan Classical Approaches Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 28

  29. Prior dan Metode Bayesian(Gelman et.al, 1995) Karena parameter  diperlakukan sebagai variabel maka dalam Bayesian  akan mempunyai nilai dalam domain , dengan densitas f(). Dan densitas inilah yang akan dinamakan sebagai distribusi prior dari . Dengan adanya informasi prior yang dipadukan dengan data / informasi saat itu, X, yang digunakan dalam membentuk posterior  , makapenghitungan posteriornya akan semakin mudah, yaitu hanya dengan menghitung densitas bersyarat dari  diberikan oleh X=x . Kritikan pada Bayesian biasanya terfokus pada “legitimacy dan desirability” untuk menggunakan  sebagai random variabel dan ketepatan mendefinisikan/memilih distribusi prior-nya. Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 29

  30. Likelihood Proper/ conjugate Posterior Prior Bentuk Prior, Likelihood, dan Posterioryang ideal θ Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 30

  31. Bagaimana jika pemilihan priornya seperti berikut ini? Pemilihan prior seperti ini akan Merupakan sebuah misleading prior, Sehingga posteriornya tidak akan Jelas bentuknya. ? Likelihood Posterior Prior θ Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 31

  32. improper Prior yang serba sama densitasnya di semua domain Likelihood posterior prior θ Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 32

  33. Interpretasi distribusi Prior • Sebagai bentuk distribusi frequency • Sebagai bentuk representasi normatif dan objectif pada suatu parameter yang lebih rasional untuk dipercayai • Sebagai suatu representasi subjectifitas seseorang dalam memandang sebuah parameter menurut penilainnya sendiri Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 33

  34. Prior sebagai representasi Frequensi Distribusi • Adakalanya nilai suatu parameter dibangkitkan dari modus pola data sebelumnya baik itu dari pola simetri ataupun tidak simetri • Dalam sebuah inspeksi dalam proses industri, data kerusakan pada batch sebelumnya biasanya akan digunakan sebagai estimasi informasi prior untuk keadaan batch selanjutnya • Prior biasanya mempunyai arti fisik sesuai dengan frequensi kejadian data-datanya Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 34

  35. Interpretasi Normative/Objective dari suatu prior • Permasalahan pokok agar prior dapat interpretatif adalah bagaimana memilih distribusi prior untuk suatu parameter yang tidak diketahui namun sesuai dengan permasalahan fisik yang ada. • Jika  hanya mempunyai nilai-nilai pada range yang tertentu saja, hal ini cukup beralasan jika digunakan prior yang mempunyai densitas serba sama (equally likelly / uniformly distributed). Interpretasinya adalah bahwa setiap kondisi diberi kesempatan yang sama untuk dapat terpilih sebagai suporter likelihood dalam membentuk posteriornya. • Prior dapat mempunyai arti yang sangat janggal jika salah dalam pemilihannya Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 35

  36. Kasus prior dalam Continuous Parameters • Invariance arguments. • Hal ini akan dapat terjadi, sebagai contoh dalam kasus Normal mean m, dapat diartikan bahwa semua titik dalam semua interval (a,a+h) harus mempunyai probabilitas prior untuk semua h dan a yang diketahui. Hal ini akan memberikan pengertian bahwa untuk semua titik dalam interval tersebut mempunyai kesempatan sama terpilih atau cenderung mempunyai uniform prior (“improper prior”) • Untuk parameter, s, dalam interval (a,ka) akan mempunyai prior probabilitas yang sama, yang hal ini akan memberikan arti bahwa priornya akan proportional pada nilai 1/ s. Lagi-lagi hal ini juga menghasilkan sebuah improper prior. Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 36

  37. Macam-macam Prior • Conjugate prior vs non-conjugate prior ((Box dan Tiao, 1973),(Gelman et.al, 1995), (Tanner, 1996), (Zellner, 1971)) • Prior terkait dengan pola model likelihood datanya • Proper prior vs Improper prior (Jeffreys prior) • Prior terkait pada pemberian pembobotan/ densitas di setiap titik, uniformly distributed atau tidak • Informative prior vs Non-Informative prior • Prior terkait dengan sudah diketahui pola/frekuensi distribusi dari datanya atau belum • Pseudo-prior (Carlin dan Chib, 1995) • Prior terkait dengan pemberian nilainya yang disetarakan dengan hasil elaborasi dari frequentist (misal regresi dengan OLS) Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 37

  38. Continuous Parameters • Biasanya digunakan uniform prior (at least if the parameter space is of finite extent) • Tetapi jika  adalah uniform, maka suatu bentuk fungsi non-linear dari , g(), tidak akan uniform • Contoh jika p()=1, >0. Re-parameterisasi sebagai maka: dimana sehingga: • “ignorance about ” does not imply “ignorance about g.” The notion of prior “ignorance” may be untenable (mungkin dapat diperbolehkan)? Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 38

  39. Turning this process around slightly, Bayesian analysis assumes that we can make some kind of probability statement about parameters before we start. The sample is then used to update our prior distribution. Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 39

  40. Pertama, anggap bahwa prior yang digunakan dapat direpresentasikan sebagai probability density functionp(q) dengan q adalah parameter yang akan dipelajari. • Berdasarkan pada sampel X (likelihood function) kita akan dapat meng-update distribusi priornya mengguankan Bayes rule Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 40

  41. Beberapa Conjugate priors Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 41

  42. The Jeffreys Prior(single parameter) • Jeffreys prior diberikan sebagai berikut: dimana adalah expected Fisher Information • This is invariant to transformation in the sense that all parametrizations lead to the same prior • Can also argue that it is uniform for a parametrization where the likelihood is completely determined (see Box and Tiao, 1973, Section 1.3) Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 42

  43. Contoh Jeffreys pada Binomial Hasil ini adalah suatu bentuk distribusi beta dengan parameters ½ and ½ Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 43

  44. Contoh Jeffreys’ Priors yang lain Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 44

  45. Improper Priors  Trouble Posterior (sometimes) • Suppose Y1, .,Yn are independently normally distributed with constant variance s2 and with: • Suppose it is known that r is in [0,1], r is uniform on [0,1], and g, b, and s have improper priors • Then for any observations y, the marginal posterior density of r is proportional to where h is bounded and has no zeroes in [0,1]. This posterior is an improper distribution on [0,1]! Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 45

  46. Improper prior usually  proper posterior  Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 46

  47. Contoh lain: improper proper Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 47

  48. Subjective Degrees of Belief • Probability represents a subjective degree of belief held by a particular person at a particular time • Various techniques for eliciting subjective priors. For example, Good’s device of imaginary results. • e.g. binomial experiment. beta prior with a=b. “Imagine” the experiment yields 1 tail and n-1 heads. How large should n be in order that we would just give odds of 2 to 1 in favor of a head occurring next? (eg n = 4 implies a=b=1) Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 48

  49. Problems with Subjectivity • What if the prior and the likelihood disagree substantially? • The subjective prior cannot be “wrong” but may be based on a misconception • The model may be substantially wrong • Often use hierarchical models in practice: Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 49

  50. Hierarchical Model • Contoh pada kasus Binomial Gamma(c, d) Gamma(g, h) Gamma(e, f) Beta(a, b) Poisson(λ) Binomial(n, p) Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 50

More Related