1 / 37

統計與生活

統計與生活. 第 九 單元:機率模型 授課教師:國立臺灣大學公共衛生學系 蕭 朱 杏 教授. 【 本著作除另有註明外,採取 創用 CC 「姓名標示-非商業性-相同方式分享 」臺灣 3.0 版 授權釋出 】. 隨機變數 Random variable; 機率的規則 Probability rules 常見機率模式 Bernoulli distribution; Binomial dist.; Normal dist. 抽樣分配 Sampling distribution.

andren
Télécharger la présentation

統計與生活

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 統計與生活 第九單元:機率模型 授課教師:國立臺灣大學公共衛生學系 蕭朱杏教授 【本著作除另有註明外,採取創用CC「姓名標示-非商業性-相同方式分享」臺灣3.0版授權釋出】

  2. 隨機變數Random variable; 機率的規則Probability rules 常見機率模式Bernoulli distribution; Binomial dist.; Normal dist. 抽樣分配Sampling distribution

  3. 隨機變數Random Variable & 機率模式Probability Model (1/2) 利用X代表隨機現象的隨機變數, (亦即將隨機事件realization),則描述X之機率的模式就叫機率模式 (1)如X代表丟骰子的結果,則X=1表示出現一點,X=2表示出 現兩點,…; P(X=i)=1/6, for i=1,2,…,6 畫圖? (2)X也可以不只一個值:XA代表出現A事件的所有X的值 如A=骰子出現偶數點, X ∈ A={2,4,6}

  4. 機率模式Probability Model (2/2) 全班成績的分級共分三級A,B,C,其中80%為A級,15%為B級,5%為C級; 令X=1代表A級;X=2表B級;X=3表C級 則P(X=1)=0.8;P(X=2)=0.15;P(X=3)=0.05 這是全班成績級數的分佈, 也是全班成績級數的機率模式 畫個圖?

  5. 機率的規則Rules for Probability(1/2) 任何機率值介於0和1之間 所有可能的結果(outcome)機率總和為1 互為補集的A, Ac之機率為P(A)+P(Ac)=1 如果 AB=,(mutually exclusive),則P(AB)=P(A)+P(B) 注意機率不可互相矛盾

  6. 機率的規則Rules for Probability(2/2) 注意機率不可互相矛盾 男同學佔全班40%;有女朋友的男同學佔全班60%(if A<B, P(A)<P(B)) 全班作業都超過90分;A實習班只有50%的人作業超過90分 基本人權應受到百分百尊重;殺人犯的基本人權尊重百分之五十就好

  7. 伯努利分配Bernoulli Distribution (1/5)definition & pdf 丟一次銅板: Pr(Y=1)=p; Pr(Y=0)=1-pY: random variable (隨機變數), here a binary coding Pr(Y) is called a density function, probability density (mass) function,機率密度函數, pdf, pmf Events: {正面},{反面},{正或反面},{紅色面}; {Y=1},{Y=0},{Y=0 or 1},{Y≠0,1} This is Bernoulli distribution伯努利分配 畫圖?

  8. 伯努利分配Bernoulli Distribution (2/5)expected value and variance 丟一次銅板(continued)Pr(Y=1)=p; Pr(Y=0)=1-p=qExpected value of Y: E(Y)=1×p+0×q=pExpectation of Y; “weighted” averageVariance of Y: Var(Y)E[(Y- E(Y) )2]=E[(Y-p)2]Var(Y)= (1-p)2×p+(0-p)2×q=pq

  9. 10

  10. Some Properties of Mean 期望值, expectation, expected value, mean, population mean 例:丟一個公正骰子獲得等同於點數的錢,令X=點數,則X是隨機變數;E(X)=?E(X)=11/6+2×1/6+…+6×1/6=E(X2)=12×1/6+22×1/6+…+62×1/6= E(aX) =a×E(X)例:丟一個公正骰子獲得等同於五倍點數的錢,令U=錢數,則E(5X)=E(U),且E(U)=5×1/6+10×1/6+…+30×1/6=5×E(X) E(c)=c

  11. Some Properties of Variance (1/3) Var(Y)E[(Y-)2]=E(Y2-2𝜇Y+𝜇2) =E(Y2)+E(-2𝜇Y)+E(𝜇2) =E(Y2)+(-2𝜇)E(Y)+𝜇2=E(Y2)-𝜇2 例:Y=0/1各pr=0.5,故Var(Y)=[020.5+12×0.5]-0.52=0.5×0.5 例:Y~Bernoulli(p)故Var(Y)=[12×p+02×q]-p2=p-p2=pq

  12. Some Properties of Variance (2/3) Var(Y)=E(Y2)-𝜇2 Var(aY)=E(a2Y2)-[E(aY)]2 =a2E(Y2)-[aE(Y)]2= a2Var(Y) Ex: Var(5Y)=25Var(Y) Ex: Var(-Y)=Var(Y)

  13. Some Properties of Variance (3/3) Var(X+Y)=Var(X)+Var(Y); 若X&Y獨立何謂獨立? 若P(AB)=P(A)P(B),則A,B兩事件獨立同理若P(X, Y)=P(X)×P(Y),則X&Y獨立例:P(甲丟出1,乙丟出0)=P(甲丟出1)×P(乙丟出0)例:P(甲病,乙病)=P(甲病)×P(乙病) 延伸, 若X, Y, Z獨立, 則 Var(X+Y+Z)=Var(X)+Var(Y)+Var(Z)

  14. 同時有不只一個伯努利分配Bernoulli Distribution (3/5) – application (sum) 連丟銅板兩次的結果總和(sum of 2 Bernoullis)Y: 丟兩次中的正面數的和,(隨機變數), Y=0,1,2 Pr(Y=2)=p×p; Pr(Y=0)=(1-p)(1-p); P(Y=1)=2pq (此處Y=X1+X2; X1,X2是Bernoulli) Events: {兩正面},{兩反面},{一正一反},{三正面}; {Y=2},{Y=0},{Y=1},{Y=3} 例:中老年人得血壓的機率0.4,3位中老年人中3位都有病的機率?但是,統計的情況通常是p未知,那麼如何估計?

  15. 很多伯努利分配的資料來估計pBernoulli Distribution (4/5) – estimate p 估計p? 隨機抽樣 100位中老年人,得64 1’s有病, 這其實是(1+1+…+0+…+0)/100 這估計值好嗎?穩定嗎?

  16. Aside: Variance of sample mean 樣本數n大則p的估計穩! 將之開根號稱為標準誤 “standard error” (se) Ex: 正面出現 498次/1000次, se=? Ex: 估計得病率=64/100, se2=(0.64)(0.36)/100, se=?

  17. 伯努利分配Bernoulli Distribution (5/5) ---summary 知道Bernoulli分配, 也知道利用多個Bernoulli的觀察值來求p的估計值之後, 接下來問, Bernoulli的和又是什麼樣的(隨機)變數呢?

  18. 二項式分配Binomial distribution (1/4) - pdf 若Y是n個Bernoulli的結果的和,則Y=0,1,…,n 這是有相同p的n個獨立Bernoulli相加而來 稱為二項式分配(Binomial distribution) Y~Bin(n,p), E(Y)=np; Var(Y)=npq (n 個 Bernoulli’s) Compute P(Y)=?

  19. 二項式分配Binomial distribution (2/4) - probability Y=100人中吳小姐的得票數 Y 是Binomial (100,p) Pr(Y=80)= Pr(Y≥80)=? Bernoulli and Binomial Bernoulli是指只丟一次銅板 Binomial是指丟n個銅板的結果總和

  20. 二項式分配Binomial distribution (3/4)--- computation when n is really large Y=200萬人中吳小姐的得票數 Y~Binomial(n=2,000,000, p) Pr(Y=999)= Compute? Use normal distribution常態分配 另外有人發現當p很小,n很大,np時,可用布阿松(Poisson)分配來逼近二項式分配(such as rare disease, horse kick)

  21. 二項式分配Binomial distribution (4/4)- plot

  22. 常態分布Normal distribution (1/6) - pdf Blood pressure Y~N(110,100) 期望值, 變異數 standard deviation 1 standard dev.(.68) 2 stddev(.95) 3 stddev(.99) P(Y≥110)=?(.5) P(120≥Y≥100)=?(.68)

  23. 常態分布Normal distribution (2/6) - probability 算血壓比110高的比例 P(Y>110)? (1) 因機率總和(總積分)為1,故此處是area under pdf after 110 (2) beyond 1 stddev = (1-0.68)/2 (3) via standard normal distribution, Z , then

  24. 常態分布Normal distribution (3/6)- density of standard normal, Z

  25. 常態分布Normal distribution (4/6) - Table Table B:(畫圖?) z: 標準計分的值 cdf: 累計的機率 Pr(Z≤-1.8)=0.0359 Pr(Z≤-1)=0.1587 因對稱Pr(Z≤-1)=Pr(Z≥1)Pr(Z≤1)=1-Pr(Z≥1)=1- Pr(Z≤-1)=0.8413

  26. 常態分布Normal distribution (5/6) - examples Use standard normal to compute probability: What if μ (全體民眾的血壓期望值)and σ (母體變異數) are unknown? Estimate!

  27. 常態分布Normal distribution (6/6) - examples 利用樣本平均數及樣本變異數估計:

  28. (回來)如何利用常態分布來逼近二項式分配 Y=200萬人中吳小姐的得票數 Y~Binomial(n=2,000,000, p) 當n很大,p不會太極端時,由Y分佈圖看來像常態N(np, npq) =N(1e6, 5e5), if p=0.5 Pr(拿到七成以上)=?𝑃(𝑌<0.7×2×〖10〗^6 )=𝑃(𝑌<1.4×〖10〗^6 |𝑌~𝑁(𝑛𝑝,𝑛𝑝𝑞)) 接下來再進行Y標準化的動作就可求機率值了

  29. 抽樣分布Sampling Distribution (1/4) Sampling distribution of statisticsStatisticsare functions of data,統計量是資料的函數, 如sample mean, sample variance, sample median, sample range如TVAB民意調查中心抽得的20人的y值,y/20,如蓋普普中心抽得的50人的平均血壓這個平均值會因不同的50人而不同,why?這個平均值會因不同的50人而不同,但值應該類似

  30. 抽樣分布Sampling Distribution (2/4) often this density curve is a normal curve can use “68-95-99.7 rule” or get probabilities from Table If n is large, then 只要樣本數夠大,這抽樣分配就會像常態分配,不管原來的母體是否是常態分配 (CLT)

  31. 抽樣分布Sampling Distribution (3/4) Ex: X={1,2,3,4,5}, plot sample means (each of size n) Central Limit Theorem (CLT)

  32. 抽樣分布Sampling Distribution (4/4) 派出1000個調查員,各自進行民意調查100人,得各自的平均值 ,則這1000個值畫長條圖會像常態分配N(p, pq/100)

  33. 自我作業 (1/2) 1. 利用EXCEL的功能生成1000個N(100,49)的隨機數值,稱之為x1,…,x1000畫長條分配圖;再生成另外1000個N(0,1)的隨機數值,稱之為y1,…,y1000畫長條分配圖;再計算z=(x-100)/7 ,畫z的長條分配圖;比較三個圖你發現什麼? 2. 先利用EXCEL畫Binomial(15,0.4)的分佈圖,再從此分配中生成10個隨機數值並求其平均,重複此動作100次之後,畫這100個平均值的分佈圖,你發現什麼? 3. 根據統計,在臺灣年齡超過四十歲以上的人當中,約百分之二十罹患高血壓, (1) 王先生48歲,請問他是否有高血壓的機率模式為何 (2) 小白在臺大校門口隨機抓到5位四十歲以上的中年人,請問其中有高血壓的人數服從什麼機率模式? (3) 請問小白的樣本中至少3人有高血壓的機率為何? (4) 如果小白很努力的抽樣,得到180位四十歲以上的中年人的血壓值,請估計其中有高血壓的人數?

  34. 自我作業 (2/2) (5) 根據4/28/2008的統計,台北市大安區大學里超過四十歲以上的人有4568人,請問其中罹患高血壓的人數的機率模式為何? 期望會有多少人罹患高血壓? (6) 根據4/28/2008的統計,大安區96年4月份人口統計四十歲以上有161795人,請估計其中罹患高血壓的人數超過十萬的機率? (7) 如果派遣50位公衛護士,每位隨機抽取100位四十歲以上的大安區居民,檢查其中高血壓的罹患比例,請問其中約有多少位公衛護士會得到0.25以上的罹患率?

  35. 版權聲明

More Related