1 / 66

統計設計與分析

統計設計與分析. 詳細大綱. 1. 調查設計 調查設計的基礎 優點與容易犯的錯誤 系統偏誤 訪問偏誤 拒答偏誤 隨機偏誤. 統計問題. 如何設計並引導一個實驗 ? 哈佛學生中抽煙的比例為何 ? 如何檢驗這些結果 ? 哈佛比起全國的學生 , 抽煙比例是高或低 ?. 詳細大綱. 2. 假設檢定 基本方法 有多大的機率 , 我觀察的是錯的 ? 若機率很低 , 則得到兩個數目不同的結論 . 檢定的類型 檢定已知的事實 ( 例 , 已經知道全國性抽煙的比例 ).

alma-jordan
Télécharger la présentation

統計設計與分析

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 統計設計與分析

  2. 詳細大綱 • 1. 調查設計 • 調查設計的基礎 • 優點與容易犯的錯誤 • 系統偏誤 • 訪問偏誤 • 拒答偏誤 • 隨機偏誤

  3. 統計問題 • 如何設計並引導一個實驗? • 哈佛學生中抽煙的比例為何? • 如何檢驗這些結果? • 哈佛比起全國的學生, 抽煙比例是高或低?

  4. 詳細大綱 • 2. 假設檢定 • 基本方法 • 有多大的機率, 我觀察的是錯的? • 若機率很低, 則得到兩個數目不同的結論. • 檢定的類型 • 檢定已知的事實 (例, 已經知道全國性抽煙的比例). • 檢定未知, 預估計的事實(例, 我不知道全國抽煙的比例, 但我想推估它). • 樣本數與假設檢定

  5. 設計實驗—感興趣的問題 • 哈佛學生中有多少比例抽煙?

  6. 可能的解答方式 • 查看哈佛附近商店菸品銷量 • 所有的菸品都只能在那兒買嗎? • 只有學生會去那裡買嗎? • 店家會告訴我們實情嗎? • 觀察學生 • 去上學的途中? • 在餐廳? • 派對上? • 太困難且魯莽

  7. 可能的解答方式 • 問學生 • 問所有的學生? • 耗時, 花錢, 且很困難 • 問一部分學生? • 這是我採行的方法 –調查我學生的成員, 以及他們的室友與朋友

  8. 可能的解答方式 • 方法:以我的學生與他們的朋友來推估整體 我的學生抽煙的比例 哈佛學生抽煙的比例

  9. 調查方法—優良 • 1. 有適當的樣本 • 2. 相當不花成本

  10. 調查方法:問題(I) • 1. 抽樣偏誤 –經濟學抽煙的比例或高或低於哈佛學生抽煙的比例 • 多半是經濟系學生 • 多半是比較愛表現學生 • 2. 不正確的揭露 –他們可能不講實話 • 或者抽煙者選擇不填答問卷 • 如何測試 –問全體的哈佛學生

  11. 調查方法:問題(II) • 3. 無回應 –可能有人並不參與其中 • 與他們的回答有關 • 4. 隨機性問題 –財政學的樣本, 本來就與政大學生抽煙的比例不同

  12. 調查結果 • 41 份回答 • 這個班大約有57人, 我相信大多數的人有朋友, • 所以, 顯示相當大的比例並沒有回答. • 無法判斷回答的正確性

  13. 答案 • 我的學生中, 自我報告的抽煙比例為17% • 我的學生中, 感覺其他人整體抽煙的比例為25%

  14. 為何自我報告與其他人的觀察結果不同? • 學生覺得其他人應該是過得更多采多姿 • 哈佛學生認為他們的同學在過去一個月中, 有抽過菸的比例應高於2/3, 但事實上僅有15.6%. 哈佛認為他們的同儕中, 過去一個月裡有抽大麻的比例為52.4%, 但事實上是12.2%.

  15. 為何不同? • 也有可能是揭露的偏誤 • 或者樣本數太小

  16. 如何做得更好? • 從哈佛學生中隨機選取樣本 • 調查更多學生 (或許) • 使填答的人更確信他們的回答是匿名的 • 付錢給願意填答的人 • 答案給與權數

  17. 假設檢定 • 問題: Harvard學生抽煙比例較全美大學生高或低?

  18. 假設檢定 • 使用調查資料:1993 學生調查. • Conducted by Henry Wechsler at the School of Public Health. • 關心飲酒問題,但同時問抽煙. • 有 17,000 樣本.

  19. 調查結果比較

  20. 調查結果比較 • 有可能我的學生抽煙比例超過Harvard 平均. • 有可能調查學生抽煙比例低過全美學生平均. • 假使我訪問所有Harvard學生,所有大學生,我會知道答案,但不太可能。

  21. 假設檢定的基礎 • 哈佛學生的抽煙率和與全美學生是否相當? • 這是假設檢定的核心。 • 這個推論僅是考慮抽樣上的誤差,不包括其他誤差(亂回答或未回答)。

  22. 機率的重要性 • 拿全美學生的樣本 • 每一百人為一組 • 計算每組的抽煙率 • 將抽煙率畫圖

  23. 機率的重要性 • 看起來哈佛學生較低,但我不確定。 • 多有可能?*** • 我對的機率有多高?

  24. 定義可能與不可能 • 什麼時候我們會說這些數字是「不同」? • 一般答案:這些平均數 「不同」 如果它出現的可能性低於 5% 的時間.

  25. 答案 • 在我們的例子中,兩個平均數很沒有這麼「不同」. • 這兩個平均數不同,但沒這麼不同(出現機率高過5%)。

  26. 答案 • 我們可以考慮另一個標準(如10%). • 如果我們較不嚴格,那有可能我們覺得相同時,實際上是不同。. • 5%表示僅有5%機率我們會錯。

  27. 一些術語 • 虛無假設(null hypothesis): • H0 (null hypothesis): Harvard學生和全美學生抽煙率相當. • 對立假設(alternative hypothesis): • HA (alternative hypothesis): Harvard學生和全美學生抽煙率不相當..

  28. 假設檢定 • 假設檢定包括 • 虛無假設 • Alternative Hypothesis • A statistical test • An answer • Implementing this is a bit more complex. That’s what I want to talk about next.

  29. 中央極限定理 • 這個類似是有根據的。這是統計學的一個重要定理: • 平均數的分配通常是趨近於常態分配, or 鐘狀. • 中間是母體的平均數.

  30. 然後呢? • 中央極限定理可以幫助我們計算: 如抽煙比率小於 <.14 (approximately) 為 2.5 % 或高於 <.14 >.30 (approximately) 為 2.5 %.

  31. 常態分配

  32. 臨界值 • X 和 –X 者兩個職稱為臨界值. 如果一個直超過臨界值,發生的機率低於5%. • 所以發生時,我們稱為拒絕虛無假設.

  33. 標準差 • 我們需要找 X. • 常態分配有些性質可幫助我們: • 常態分配是對稱的 • 要多遠才算遠? • 牽涉到標準差. • 一般叫做 ( "sigma" ). • 有公式可循.

  34. 標準差

  35. 標準差 • 在前述例子中,X 和 – X的距離差不多是兩個標準差.

  36. 標準誤

  37. 標準差 • Excel 會幫你計算標準差. • Tools Data Analysis Descriptive Statistics. • Choose Summary Statistics • 可以使用Excel 做簡單的假設檢定.

  38. 學生抽煙的資料—從Excel檢視

  39. 檢定顯著 • 根據標準差,自己簡單計算一下。 • 假使距離在兩個標準差以上,則稱為統計顯著.

  40. 檢定顯著 • 在這個例子中,the value is (.17 - .22 ) / .059 = -.85, 統計上不顯著. • 無法拒絕虛無假設。

  41. 檢定顯著 • 除了X和-X外,還有另一個方法:P-value • This probability is termed the p-value.

  42. P值

  43. 樣本數與假設檢定 • Our sample of 100 students gave a distribution that was very spread out. • The critical values X and –X were 14 percent and 30 percent. There is a lot of room there where we can’t reject the null hypothesis. • How might we lower that range? • Answer: sample more people.

  44. 常態分配 • Suppose I drew groups of more than 100, say 500. What would happen to the expected distribution of answers? • It would get tighter around the mean.

  45. 實際資料

More Related