700 likes | 1.01k Vues
一、抽樣方法. 1. 統計的意義:. 統計是針對一些不確定的現象中尋求有關全體的通則,. 而非個別事件發生的結果。. 研究對象的全體稱為「 母群體 」;. 從母群體抽出一部分稱為「 樣本 ( 隨機樣本 ) 」;. 抽出樣本的過程稱為「 抽樣 」。. (1) 統計不是預言家,必須從「 足夠多 」的資料中. 才有可能尋求出研究對象全體的通則。. (2) 統計資料必須客觀而周延,否則所得結果必有偏差,. 而導致錯誤的統計推論。. 本段結束. 2. 資料調查:. (1) 普查: 對所要研究的某種現象作「 全面性 」的調查。. 例如:人口普查、工商普查。.
E N D
一、抽樣方法 1. 統計的意義: 統計是針對一些不確定的現象中尋求有關全體的通則, 而非個別事件發生的結果。 研究對象的全體稱為「母群體」; 從母群體抽出一部分稱為「樣本(隨機樣本)」; 抽出樣本的過程稱為「抽樣」。 (1)統計不是預言家,必須從「足夠多」的資料中 才有可能尋求出研究對象全體的通則。 (2)統計資料必須客觀而周延,否則所得結果必有偏差, 而導致錯誤的統計推論。 本段結束
2. 資料調查: (1) 普查:對所要研究的某種現象作「全面性」的調查。 例如:人口普查、工商普查。 優點:所得資料完整可靠。 缺點:費時、費力、不經濟。 (2) 抽查:對所要研究的某種現象作「部分性」的調查。 例如:民意調查。 優點:省時、省力、省錢。 缺點:抽樣的好壞會影響結論的正確性,其代表性較低。 本段結束
3. 抽樣的方法: (1) 簡單隨機抽樣:不摻入人為因素,且母群體中每一個體 被抽中機會均等。 利用替代母群體:將母群體的每一個體編號或用籤取代之, 再用抽籤方式抽出樣本。 利用隨機號碼表:將母群體的每一個體編號, 再從隨機號碼表(由電腦產生)抽取號碼。 優點:客觀、簡單。 缺點:因隨機而缺少安定性;若是大規模之調查則費時費力。 (2) 系統抽樣:先將個體編號或排列,經由隨機抽取第一個樣本, 以後每隔一定時間或距離選一調查樣本。 優點:執行易、效率高。 缺點:有週期性或循環性之母群體不宜採用。 To be continued (3) 分層抽樣 (4) 部落抽樣
(3) 分層抽樣:按某種標準將母群體分成若干組,每組稱為一層, 同一層差異小而不同層差異大,然後從每層中按特定比例, 隨機抽查若干個體作樣本。 優點:不同層差異大而同層差異小故具代表性。 缺點:某些特殊母群體歸類困難。 (4) 部落抽樣:按某種標準將母群體分成若干組,每組稱為一部落, 各部落差異小,然後從這些部落中, 隨機抽查若干部落做全面性的調查。 優點:較具經濟性。 本段結束 缺點:較不一般化。
4. 範例:某班 20 位學生成績如下: 隨機號碼表 利用上表從第 2 列、第 5 行開始,由左而右使用隨機抽樣法, 選取 5 位同學,求其平均分數。 解:所抽為:88,03,04,78,41,57,56,26,16,03, 13,39,46,66,12。 = 78分。 Let’s do an exercise !
馬上練習:有一群體有九位成員,其身高分別為馬上練習:有一群體有九位成員,其身高分別為 < 91學測 > 160, 163, 166, 170, 172, 174, 176, 178, 180(單位:公分) 此九人的平均身高為 171 公分。今隨機抽樣 3 人, 則抽到 3 人的平均身高等於母體平均身高的機率為________﹒ 解:身高的離均差分別為:11,8,5,1,1,3,5,7,9。 三人平均等於母群體平均有三組: (8,3,5) , (8,1,7) , (8,1,9) #
5. 範例:某班有 50 位同學,其中男生有 30 位,女生 20 位。 某次導師要抽 5 位同學留下打掃環境, 依性別按人數比例做分層抽樣, 求班上男同學張志明被抽中的機率? <89數乙> 解:男:女= 3:2 抽出男生 3 位,女生 2 位。 張小明與另 2 位男生,女生 2 位。 Let’s do an exercise !
馬上練習:某班有 30 位同學,其中男生有 20 位,女生有 10 位, 其中小忠、小柔兩人是男女朋友,今要抽 6 位同學打掃環境, (1) 若採隨機抽樣,求小忠、小柔都被抽中的機率。 (2) 若依性別按人數作分層抽樣,求小忠、小柔都被抽中的機率。 解: 6×5 抽出男生 4位,女生 2位。 (2) 男:女= 2:1 #
6. 範例:某班 20 位學生成績如下: 隨機號碼表 To be continued 詳解 (1)
(1) 利用上表從第 3 列、第 4 列開始,分別作為取出樣本之同學 座號的十位數與個位數,由左而右使用隨機抽樣法, 選取 5 位同學,求其平均分數。 67,59,96,75,26,05,…,16,…,02, 解:(1) 所抽為: 64,03,…,17。 = 69.2分。 To be continued 詳解 (2)
(2) 利用系統抽樣法,以第 (1) 小題的第二位作為系統法之第一位, 並將 20 位同學視為圓形狀,選取 5 位同學,求其平均分數。 之後每位差 4 號, 解:(2) 系統法第一位為16, 故所抽五位為:16,20,04,08,12。 = 66分。 To be continued 詳解 (3)
(3) 將全班同學成績X,分成二層,第一層:X70,第二層:X<70, 按比例選取 5 位同學(依第 3 列為十位數,第 4 列為個位數), 求其平均分數。 解:(3) X 70者如右: X < 70者如下: 隨機號碼表(第3列,第4列) 所抽為:…,05,…,16,…,02,64,03,…,17,…,14。 = 65 分。 Let’s do an exercise !
馬上練習:所謂國人稅前所得,是指納稅義務人在納稅前之個人所得,馬上練習:所謂國人稅前所得,是指納稅義務人在納稅前之個人所得, 以下簡稱所得。依照某國 1997 年的官方資料,依每人所得高低 將人數等分為 5 組,最高 20% 的人總所得占全體總所得的 44.6%, 而最低 20% 的人的總所得占全體總所得的 3.6%,所有資料 如下圖所示。所得差距倍數是指最高 20% 的個人平均所得 與最低 20% 的個人平均所得的比值。請選出正確的選項。 <101數乙> (1) 此項資料顯示所得差距倍數超過 13 倍 To be continued 詳 解 (2) 最高 30% 的人的總所得超過全體總所得的 55% (3) 最少有 60% 的人,其個人所得低於的總所得超過全體總所得的 55% (4) 最低 20% 的人的平均所得為全體平均所得的 3.6%
(1) 此項資料顯示所得差距倍數超過 13 倍 (2) 最高 30% 的人的總所得超過全體總所得的 55% (3) 最少有 60% 的人,其個人所得低於的總所得超過全體總所得的 55% (4) 最低 20% 的人的平均所得為全體平均所得的 3.6% <101數乙> 解: (1) 錯誤。 < 13 = 14 14 + 44.6 (2) 正確。 = 58.6 To be continued 詳解 (3) (4)
(3) 最少有 60% 的人,其個人所得低於的總所得超過全體總所得的 55% (4) 最低 20% 的人的平均所得為全體平均所得的 3.6% <101數乙> 解: = 1, = 0.18; = 0.445 = 1.4; = 2.23。 (3) 錯誤。 50%的人低於全體平均 = 1 = 0.18; (4) 錯誤。 故選 (2)。 #
二、常態分配 1. 常態分布的意義: 如果次數分配圖,呈現中間較高,且左右對稱的鐘型時, 我們就稱這組資料呈現近似常態分配。 許多資料的分布都近似於常態分布, 如身高、體重的分布。 To be continued 68 95 99.7規則
常態分配有一個特性,它們都遵循 68 95 99.7規則, 約有 68%的資料值落在距平均數1個標準差範圍內, 約有 95%的資料值落在距平均數2個標準差範圍內, 約有 99.7%的資料值落在距平均數3個標準差範圍內, 如下圖所示。 68%的資料 95%的資料 99.7%的資料 3 2 +2 +3 + To be continued 區間表示法
令平均數為 ,標準差為 ,則 約有 68%的資料值,在區間[ , +] 內, 約有 95%的資料值,在區間[ 2 , +2]內, 約有 99.7%的資料值,在區間[ 3 , +3] 內。 68%的資料 95%的資料 99.7%的資料 3 2 +2 +3 + To be continued 注 意
注意: (1)常態分布曲線中的平均數就是 其機率質量函數分布的期望值。 (2) 常態分布曲線是對稱的, 故平均數與中位數都落在 曲線的中間位置, 即尖峰所在。 +2 +3 + 2 3 (3) 常態分布的平均數、中位數 與眾數全都相同。 (4) 常態分布曲線的函數為 其中 ,分別為母群體的平均數和標準差, 且 e = 2.71828…稱為納皮爾常數。 本段結束
2. 範例:若某校 1000 位學生的數學段考成績平均分數是 65.24 分, 樣本標準差是 5.24 分,而且已知成績分布呈現常態分配, 試問全校約有多少人數學成績低於 60 分﹖ < 91學測 > (1) 約 80人 (2) 約 160人 (3) 約 240人 (4) 約 320人 (5) 約 400人 解:約 68%的資料值,在區間 [ 65.24 5.24 , 65.24 + 5.24 ] 內, 即 [ 60 , 70.48 ] 內。 60分以下及 70.48分以上,約共佔 32%, 60分以下及 70.48分以上,約各佔 16%, 不及格有 100016% = 160名。 68%的資料 95%的資料 故選 (2)。 # +2 + 2 65.24 54.76 60 70.48 75.72
馬上練習:國一學生 30 萬人,智商測驗的結果是 「平均數 100,標準差 15」的常態分布。 若以智商 130 以上做為甄選國一學生為資優生的門檻, 則根據這次測驗的結果判斷下列選項中的敘述,哪些是正確的? (1) 約有 5% 的國一學生通過資優生甄選門檻 (2) 約有 15 萬名國一學生的智商在 100 以上 (3) 超過 20 萬名國一學生智商介於 85 至 115 之間 (4) 隨機抽出 1000 名國一學生﹐可期望有 25 名資優生 (5) 如果某偏遠學校只有 14 名的國一學生,那麼該校不會有資優生。 <98數乙> (1) ( 100% 95% ) 2 = 2.5% 。 解: (2) 30 × 0.5 = 15 。(平均數100以上 ) (3) 30 × 0.68 = 20.4 。( [ , +] ) 68%的資料 (4) 1000 × 2.5% = 25 。 95%的資料 (5) 不一定, 數量夠多才有常態分布。 2 + +2 故選(2)(3)(4)。 # 130 100 115 70 85
3. 範例:下圖為 100 婦女體重的直方圖,(圖中百分比為各體重區間的 相對次數)其中各區間不包含左端點而包含右端點。 該 100 名婦女平均體重為 55 公斤,標準差為 12.5 公斤。 曲線 N代表一常態分布,其平均數與標準差與樣本值相同。 在此樣本中,若定義「體重過重」的標準為體重超過樣本平均數 2 個標準差以上。下列敘述那些正確? 33% (1) 曲線 N 中,在 55 公斤以上 相 對 次 數 < 95學測 > 24% 所佔的比例約為 50%。 20% N (2) 曲線 N 中,在 80 公斤以上 12% 所佔的比例約為 2.5%。 (3) 該樣本中,體重的中位數大於 55 公斤。 6% 5% (4) 該樣本中,體重的第一四分位數 大於 45 公斤。 30 35 40 45 50 55 60 65 70 75 808590 95 100 體重(公斤) (5) 該樣本中,「體重過重」的比例 To be continued 詳 解 大於或等於 5% 。
33% 該 100 名婦女平均體重為 55 公斤, 標準差為 12.5 公斤。曲線 N代表一 24% 常態分布,其平均數與標準差與樣本值 20% N 相同。樣本中,「體重過重」為體重 < 95學測 > 相 對 次 數 超過樣本平均數 2 個標準差以上。 12% (1) 曲線 N 中,在 55 公斤以上 6% 5% 所佔的比例約為 50%。 (2) 曲線 N 中,在 80 公斤以上 30 35 40 45 50 55 60 65 70 75 808590 95 100 所佔的比例約為 2.5%。 體重(公斤) 解:(1) 常態分布平均數 55 以上佔 50% N 55 以上約佔 50% 。 (2) 常態分布約有 95%的資料值, 68% 95% 在區間 [ 2 , + 2] 內, +2 + 2 [ 55 212.5 , 55 + 212.5] 42.5 80 30 55 77.5 [ 30 , 80 ] 80以上佔約佔 2.5%。 To be continued (3)(4)(5)
該 100 名婦女平均體重為 55 公斤, 33% 標準差為 12.5 公斤。曲線 N代表一 24% 常態分布,其平均數與標準差與樣本值 20% N 相同。樣本中,「體重過重」為體重 < 95學測 > 相 對 次 數 超過樣本平均數 2 個標準差以上。 12% (3) 該樣本中,體重的中位數大於 55 公斤。 6% (4) 該樣本中,體重的第一四分位數 5% 大於 45 公斤。 (5) 該樣本中,「體重過重」的比例 30 35 40 45 50 55 60 65 70 75 808590 95 100 體重(公斤) 大於或等於 5% 。 Me < 55。 解:(3) 樣本中,(20% + 33%) > 50% Me在 45 ~ 55這組 Q1 > 45。 Q1在 45 ~ 55這組 (4) 樣本中,20% < 25% < 50% 過重(80以上)的比例 5%。 (5) 樣本中,85 ~ 95佔 5% 故正確為 (1) (2) (4) (5)。 #
4. 標準化:設隨機變數 X 的平均數為 ,標準差為, 的平均數為0,標準差為 1, X + +2 +3 2 3 1 3 2 Z 2 0 1 3 證明: = 0。 = 1。 本段結束 注意:
5. 標準常態分配的機率表: 特性:(1) P( z Z 0 ) = P( 0 Z z )。 (2) P( Z 0 ) = P( Z 0 ) = 0.5。 (3) 若 為一定值,則 P(Z=) = 0。 例如:(1) P(0Z2) = 0.4772。 X + +2 +3 2 3 1 3 2 Z 2 0 1 (2) P(Z 2) = 1 P(Z 2) 3 = 1 [ P(Z 0) + P(0 Z 2)] = 1 ( 0.5 + 0.4772 ) = 0.0228。 本段結束
三、二項分布與常態分布 1. 二項分布: 設一個伯努利試驗成功的機率為 p,失敗的機率為 q, 其中 p+ q= 1。 重複此試驗 n次的機率分布為參數是 (n , p)的二項分布, 設隨機變數 X表示成功的次數,則: To be continued (2)
設隨機變數 X表示成功的次數,則: 本段結束 注意:
2. 範例:擲一硬幣 100 次,設隨機變數 X 表示出現正面的次數, Y 表示出現正面的比率, 求:(1) X 的期望值與標準差。 (2) Y 的期望值與標準差。 解:擲一硬幣 1次得正面的機率 = 50, =5。 Let’s do an exercise !
馬上練習:一袋中有 5 個球,其中有 2 個紅球, 從袋中每次取一球,取後放回,連取 24 次, 設隨機變數 X 表示取出紅球的球數,Y 表示取出紅球的比率, 求:(1) X的期望值與標準差。 (2) Y的期望值與標準差。 解:取出紅球的機率 =9.6, =2.4。 #
知 n變大時,Y的標準差隨著變小, 3. 標準化: 其機率分布就愈集中。 如下圖,當 p = 0.5。當 n夠大時, Y接近母體平均數的機率很大,這就是大數法則。 To be continued 標 準 化 中央極限定理模擬實驗網址: http://www.math.nsysu.edu.tw/StatDemo/CentralLimitTheorem/CentralLimit.html
我們再將上述的 Y標準化, 得下圖。 我們發現 Y標準化後與標準常態分佈非常相近, 本段結束 圖中的組線是標準常態曲線 N(0 , 1)。
4. 中央極限定理: 在參數是 (n , p)的二項分布中,當試驗的次數 n足夠大時, 成功比率經標準化後的機率分布會近似於標準常態分布 ( 即平均數是 0,標準差是 1的常態分布 )。 例:擲一硬幣 100次,設隨機變數 Y表示出現正面的比率, 則 Y的分布及其標準化如下圖。 Y的分布與常態分布 非常相近 Y標準化後與標準常態分布 非常相近 本段結束
範例:擲一硬幣 100 次,設隨機變數 Y 表示出現正面的比率, 則:(1) 求 Y 的期望值與標準差。 (2) 利用標準常態分布,求約 95% 的 Y 所在區間。 解:擲一硬幣 1 次得正面的機率 (2) 利用常態分布 68 95 99.7規則, 約有 95%的 Y在區間 [ 2 , + 2] 內, = [ 0.4 , 0.6 ]。 Let’s do an exercise !
馬上練習:一袋中有 5 個球,其中有 2 個紅球,從袋中每次取一球, 取後放回,連取 24 次,設隨機變數 Y 表示取出紅球的比率, (1) 求 Y 的期望值與標準差。 (2) 利用標準常態分布,求約 95% 的 Y 所在區間。 解:取出紅球的機率 (2) 利用常態分布 68 95 99.7規則, 約有 95%的 Y在區間 [ 2 , + 2] 內, = [ 0.2 , 0.6 ]。 #
四、信賴區間與信心水準 1. 95% 的信賴區間: 在一個大的母體中,設成員具某特質的比率為 p, 若從母體中隨機抽取 n個樣本( n必須夠大), 由中央極限定理, (1) 當 n夠大時, 68%的資料 95%的資料 99.7%的資料 p p p+ p+3 p2 p+2 p3 To be continued (2) (3)
(2) 一般我們並不知道真正的 p 值, 68% 當樣本數n夠大時, 95% 99.7% p p p+3 p2 p+2 p+ p3 本段結束
2. 範例:某高中對全校學生家長調查「夜間輔導贊成的支持度」, 回收有效問卷共 400 張,其中贊成者 320 張, 求此次調查的 95% 信賴區間。 解: = [ 0.76 , 0.84 ]。 注意: 所求為 [0.7608 , 0.8392]。 (2) 使用標準常態分配機率表可得 P(1.96 Z 1.96) = 0.95。 Let’s do an exercise !
馬上練習:某報政府推動的「民生方案」做滿意度調查,馬上練習:某報政府推動的「民生方案」做滿意度調查, 成功訪問了 1600 位公民,其中有 1024 位表示不滿意, 求此次調查的 95% 信賴區間。 解: = [ 0.636 , 0.664 ]。 #
3. 信賴區間模擬實驗: 利用隨機號碼表,每位同學模擬丟一枚均勻的硬幣 20次。 (1) 以同學的身份證最後兩位數為 ab, (奇數為正面,偶數為反面) 從亂數表第a 列第b 行開始由左到右取 20 個數 (若 a = 0,則從第10 列;b = 0,則從第10 行 ),完成下表: 亂數表 9 0 2 7 6 9 8 8 8 0 反 正 反 正 反 反 反 反 正 反 4 2 8 4 9 1 4 6 3 3 正 反 反 正 反 反 正 反 反 反 (2) 由上表求出現正面比例 =__________。 查表 (3) 利用附表查出 95% 的信賴區間為___________, 是 本段結束 是否包含母體比例 0.5:_______。 % 占全班比例的_____。 (4) 全班同學中,信賴區間包含 0.5 者____人,
4. 信賴區間與信心水準: (1) 「p的 95%信賴區間」也稱為「95%信心水準下 p 的信賴區間」。 (2)「95%的信心水準」是說:如果我們抽樣多次, 每次都會得到一個信賴區間 這麼多個區間中,約有 95%的區間會涵蓋真正 p值。 To be continued (4)
稱為 95%信心水準下的抽樣誤差。 例:某有效問卷共 400 張,其中贊成者 320 張, 95%信心水準的最大誤差為 正負誤差為 4個百分點。 本段結束
5. 範例:某報對市長施政滿意度進行調查,結果為: 「成功訪問 1000 位已成年市民,滿意度為四成三, 在 95% 信心水準下,抽樣誤差為正負 3.1 個百分點。」 求此次調查的信賴區間。 且誤差為 3.1% = 0.031。 解: = [ 0.399 , 0.461 ]。 Let’s do an exercise ! 注意:
馬上練習:某報對交通滿意度進行調查,結果為:馬上練習:某報對交通滿意度進行調查,結果為: 「成功訪問 1200 位有駕照市民,滿意度為二成三, 在 95% 信心水準下,抽樣誤差為正負 2.4 個百分點。」 求此次調查的信賴區間。 解: 且誤差為 2.4% =0.024。 = [ 0.206 , 0.254 ] 。 #
6. 範例:某彩卷宣稱中獎率為 36%,若想檢驗此說法是否屬實, 在 95% 信心水準及抽樣誤差為 3.84 個百分點的條件下, 應隨機採多少張樣本? 且誤差為 0.0384 解: = 0.0384。 故所求 n為 625 張。 Let’s do an exercise !
馬上練習:某公司調查發現: 「約有 64% 的人過去一年中曾買過樂透彩卷, 且有 95% 的信心認為其誤差在正負3.2% 個百分點之內」。 求樣本中有多少人曾買過樂透彩卷? 且誤差為0.032。 解: = 0.032。 故所求 90064% = 576人。 #
7. 範例:抽樣調查學生的購物情形,在 95% 信心水準, 約有 72% ~ 76% 的學生曾有過網路購物, 求此次抽樣的人數是多少? 解:由 72% ~ 76% 知: 故所求 n 為 1924 人。 Let’s do an exercise !
馬上練習:抽樣調查接過詐騙電話的情形,在 95% 信心水準, 約有 70% ~ 76% 的人曾接過詐騙電話, 求樣本中有多少人曾接過詐騙電話? 解:由 70% ~ 76% 知: 所求 87673% = 639 人。 = 876 #
8. 範例:希望滿足95% 信心水準下,且誤差不超過 3%, 至少要抽取多少個樣本 ? 解: = 1111.…… 。 只要抽取樣本數 n 大於等於 1112時,即可滿足要求。 注意:此由上可知,一般常見的民調,總是取大約 1000 多人。 Let’s do an exercise !
馬上練習:希望滿足 95% 信心水準下,且誤差不超過 2%, 至少要抽取多少個樣本 ? 解: = 2500。 故至少要抽取 2500個樣本。 #