1 / 33

第三章 檢視資料與敍述性統計

第三章 檢視資料與敍述性統計. 3-1  檢視資料 3-2  敘述性統計分析 (Descriptive Statistics). 3-1 檢視資料.   檢視資料是在統計分析之前 , 必需要作的事 , 目的是為了確保資料分析結果的正確性。   我們整理檢視資料時 , 常見又可以避免或處理的問題如下: 登錄錯誤 遺漏值 遺漏值的處理 偏離值 ( 是否要刪除 ) 檢定多變量分析的基本假設. 3-1-1 登錄錯誤.

Télécharger la présentation

第三章 檢視資料與敍述性統計

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第三章 檢視資料與敍述性統計 • 3-1 檢視資料 • 3-2 敘述性統計分析 • (Descriptive Statistics)

  2. 3-1 檢視資料 •   檢視資料是在統計分析之前, 必需要作的事, 目的是為了確保資料分析結果的正確性。 •   我們整理檢視資料時, 常見又可以避免或處理的問題如下: • 登錄錯誤 • 遺漏值 • 遺漏值的處理 • 偏離值(是否要刪除) • 檢定多變量分析的基本假設

  3. 3-1-1 登錄錯誤 •   登錄錯誤是很難避免的, 只要是有人工輸入的資料, 經常會發生登錄錯誤, 在筆者的經驗中, 不管是自行輸入或則找工讀生輸入資料, 都曾經發生過登錄錯誤, 例(1):輸入性別, 男性為1, 女性為2, 在登錄資料時, 很容易發生資料登錄為12和21, 例(2):輸入李克特(Linkert)5點量表, 非常不滿意為1到非常滿意為5, 在登錄資料時, 很容易發生資料登錄為11,12, 23, 34, 45…等等, 這時候應如何處理呢? 我們提供最簡單的方式便是利用數值統計中的次數,最小值(minimum)和最大值(maximum)來檢視資料一旦發現異常值, 則馬上可以回到資料集進行修正。

  4. 實務操作如下: • 1. 開啟範例檔 missing data.sav • 2. 按 Analyze  Descriptive Statistics  Frequencies • 3. 選取 Sex • 4. 按 >,將 Sex 選入Variable(s) • 5. 按 Statistics,選取 Range、Minimum、Maximum • 6. 按 Continue,回到 Frequencies視窗 • 7. 按 OK,出現報表結果,如下圖:

  5. 輸出報表結果如下: • 我們登錄性別是男性為1,女性為2,因此Minimum應為1,Maximum應為2,上表中的Maximum為11,顯然是有登錄錯誤,請回原始資料進行修正。

  6. 3-1-2 遺漏值 •   遺漏值一直也是在數量方法中, 很常碰到的問題, 一般在E-mail(word檔)和當面填寫問卷回收後, 都會發覺有漏填, 甚至是有大半都未填, 這些漏填的值, 可能對於結果都有著多多少少的影響, 甚至會將結果倒轉, 也就是從顯著影響變成不顯著, 或則是從不顯著變成了顯著的影響, 因此, 當遺漏值發生時, 對於遺漏值的處理, 我們就必須謹慎小心, 適當地去處理。

  7. 遺漏值的分析 •   遺漏值發生的原因有很多, 有可能是未登錄而產生遺漏值, 填答者拒絶回答(隱私的問題…), 或則是取樣不適當, 也就是找來的填答者, 根本不適合填答我們的問題, 這些都有可能導致於遺漏值的發生。當遺漏值發生時 • ,我們就需要做遺漏值的分析。 • 1. 開啟範例檔 missing data.sav,按Analyze  Missing Value Analysis • 2. 選取 Score,Cost • 3. 按 > , 將Score,Cost選入 Quantitative Variables,點選 Listwise、 • Pairwise、EM、Regression,再選取 Sex、Income、Location • 4. 按 >,將 Sex、Income、Location選入Categorical Variables • 5. 按 Descriptives, 選取 Univariate statistics、Percent mismatch、Sort • by missing value patterns、t tests with groups formed by indicator • variabels、 Crosstabulations of categorical and indicator variables • 6. 按Continue,回到 Missing Value Analysis 視窗 • 7. 按 Variables,使用預設 Use all quantitative variables • 8. 按 Cancel,回到Missing Value Analysis視窗 • 9. 按 EM,使用預設 Normal • 10. 按 Continue,回到Missing Value Analysis視窗 • 11. 按 Regression,使用預設Residuals • 12. 按 Continue,回到Missing Value Analysis視窗 • 13. 按 OK,出現報表結果

  8. 報表結果 • MVA (missing values analysis) 遺漏值分析 • Univariate Statistics • a Number of cases outside the range (Q1 - 1.5*IQR, Q3 + 1.5*IQR). • Missing Count遺漏值的數量 • Missing Percent遺漏值百分比

  9. 3-1-3 遺漏值的處理 •   一般處理遺漏值的方法有(1) 只採用填寫完整的資料 (2) 刪除樣本個數 (3) 插補法 三大類, 我們介紹如下: • 1. 只採用填寫完整的資料 • 2. 刪除樣本個數或變數 • 3. 插補法 (Imputation method) • 插補法適用於量化的變數(metric variables), 常用的方法有 (a) 使用所有資訊 (b) 估計取代遺漏的資料兩個方法。

  10. 實務操作如下: • 1. 開啟範例檔missing data.sav • 2. 按 Transform  Replace Missing Values • 3. 選取 Score • 4. 在Method選取 Series mean,按 >,將 Score選入 New Variable(s) •  ,變成 Score_1 • 5. 選取 Cost • 6. 按 >,將 Cost選入New Variable(s),變成 Cost_1,在Method選 • 取 Linear trend at point • 7. 按Change • 8. 按 OK,出現報表結果 • 9. 我們回到資料檔,會看到插補的數值,以新的變數 Score_1和 • Cost_1 儲存,如下圖:

  11.   在Score_1變數中,用Score變數的Series mean 平均數:例如 75.78,來代替遺漏值。在Cost_1變數中,用Cost 變數的線性迴歸所預測的數值:例如 9072.93來代替遺漏值。

  12. 3-1-4 偏離值Outlier •   偏離值指的是變數的觀察值明顯的與其它值有所有不同, 我們不能因此就判定偏離值的好與壞, 而是要依變數含的內容而定, 例如, 變數代表的是企業的年淨利, 若是有正的偏離值, 其所代表的是企業該年表現的很傑出, 賺了很多錢, 相反的, 調查物品的賣出價格時, 若是有多個偏離值, 其所代表的可能是售價有異常, 需要加以檢視, 以判定要保留或刪除, 以避免偏離值影響正常的研究結果。 •   偏離值發生的原因很多, 常見的有輸入或編碼錯誤, 異常的事件發生, 若是具有代表性, 則保留偏離值, 若是不具有代表性, 則刪除此偏離值, 異常事件發生的偏離值, 雖然本身是偏離值, 但若是與其它變數結合時, 其有相當的代表含意, 則我們仍然需要保留此偏離值。有關偏離值的量測,我們會在檢定多變量分析基本假設的實務操作中,一併實作。

  13. 3-1-5 檢定多變量分析的基本假設 •   在進行多變量分析之前, 我們須先確認收集而來的樣本, 必須符合多變量分析的基本假設, 有常態性(normality), 同質性(homoscedasticity) 也稱為變異數相等, 和線性(linearity), 若是變數和變量無法符合多變量分析的基本假設, 則可以透過資料的轉換, 以達到符合多變量分析的基本假設, 在一般的量化研究中, 若是資料未符合多變量分析的基本假設, 並且未經由資料的轉換而符合多變量分析的基本假設, 那麼使用多變量技術, 進行統計的假設檢定結果, 無法支持其結果無法支持結果的論述, 原因就在於其收集的資料, 根本就不適用於多變量分析, 而是需要其它量化技術的處理。

  14. 常態性的檢定 • 常態性的檢定有多種, 我們介紹常用的方式如下: • Histogram直方圖 • Stem-and-leaf根菜圖 • skewness偏度 • kurtosis峰度 • kolmogorov-Smirnov, K-S檢定 • Shapiro-wilk, S-W檢定

  15. Histogram 直方圖 • 直方圖是簡易的判定方式, 如下圖, 其呈現的分配, 如同常態分配的型態 •        中間較高, 兩邊較低

  16. Stem-and-leaf 根菜圖 • 根菜圖是另一種簡易的判別方式, 如下圖: • Stem是根, 也就是觀察的值, leaf是次數, 觀察值發生的次數, 看根葉圖時, 必須轉90度看, 也是如同常態分配的型態中間較高, 兩邊較低。

  17. Skewness 偏度 •   資料分佈的情形, 以偏度來看除了正常的常態分配外, 有可能是左偏或右偏的資料分配, 如下圖: •   資料的左偏和右偏的分佈, 有時難以判定時, 可以用偏度的統計值Z skewness來作統計檢定 • Z skewness =N是樣本數(Hair, 1998) • 我們需要的是Z值小於常態分配的臨界值, 例如, 在95%的信心水準下, 臨界值是1.96, 也就是說, z值介於1.96時, 接受為常態分配, 若是在99%的信心水準下, 臨界值是+2.58, 也就是說z值介於+2.58時, 接受常態分配。

  18. kurtosis 峰度 •   資料的分佈, 以峰度來看, 除了正常的常態分配外, 有可能是高狹峰態分佈和低闊峰態分佈, 如下圖: •   資料的高狹峰態分佈和低闊峰態分佈, 有時難以判定時, 可以用峰度的統計值 Z kurtosis來作統計檢定 • Z kurtosis = N是樣本數(Hair, 1998) •   我們需要的是Z值小於常態分配的臨界值, 例如, 在95%的信心水準下, 臨界值是+1.96, 也就是說, z值介於+1.96時, 接受為常態分配, 若是在99%的信心水準下, 臨界值是+2.58, 也就是說z值介於+2.58時, 接受常態分配。

  19. Kolmogorov-Smirnov 檢定和Shapiro-wilk檢定 • Kolmogorov-Smirnov 檢定和Shapiro-wilk 檢定是常態性檢定中, 最常用的2個方法, 因為這兩種檢定都提供了統計檢定的顯著水準, 若是達到顯著水準, 以95%的信心水準為例, Sig.p0.05, 則會拒絶虛無假設 –也就是拒絶了常態性, 我們想要的是”不顯著”, Sig.p>0.05, 代表的是符合常態分配。 • Homoscedasticity (同質性) • Homoscedasticity (同質性)也稱為變異數相等, 我們檢定變異數相等的目的是避免依變數只被部份的自變數所解釋, 特別是在ANOVA單變量變異數分析和MANOVA多變量變異數分析, 都需要作變異數相等的檢定, 一般最常用的方式如下: • 依變數為一個計量變數(metric)時, 適用Levene test, 來檢測單一變數是否平均分佈於不同組別。 • 依變數為兩個計量變數(metric)時, 適用Box’s M檢定, 來檢測變異矩陣或共變異矩陣的相等性。 •   對於Levene test和Box’s M檢定, 我們在ANOVA和MANOVA章節有實作和解說。

  20. Linearity 線性 •   多變量分析中, 另一個重要的基本假設就是Linearity 線性, 只要是基於線性結合的多項式關係而進行的多變量分析技術, 都需要符合線性的特性, 例如, 多元迴歸(Multiple regression), 邏輯迴歸(Logic regression)和結構方程式(SEM), 一般用來檢定變數是否為線性分佈的方法有散佈圖(scatter plots) 和簡易迴歸, 從散佈圖可以看出資料呈現的型態是否為線性, 從簡易迴歸可以看出非線性部份所呈現的殘差(residuals), 殘差會反應出依變數無法解釋的部份, 若是殘差過大, 已經影響到線性分佈時, 就需要透過資料的轉換作處理, 將非線性份佈的變數轉換成線性分佈, 我們整理資料的轉換方式如下: • 變數在偏度Skewness為平坦時, 適用倒數(例如:    ) • 變數在偏度Skewness左偏時, 適用開根號 • 變數在偏度Skewness右偏時, 適用倒數或log •   讀者可以視需要將資料轉換成常態分佈和線性的分佈

  21. 實務操作如下: • 1. 開啟範例檔normal data.sav • 2. 按 Analyze  Descriptive Statistics  Explore • 3. 選取 Score和Cost • 4. 按 > , 將Score和Cost選入Dependent List • 5. 按 Statistics,選取Descriptives 和Outliers • 6. 按 Continue,回到Explore視窗 • 7. 按 Plots,選 Factor levels together、Stem-and-leaf、Histogram、Normality plots • with tests • 8. 按 Continue,回到Explore視窗 • 9. 按OK,出現結果報表

  22. 報表輸出的結果如下: • Tests of Normality:常態性檢定 • * This is a lower bound of the true significance. • a Lilliefors Significance Correction • Score和Cost變數經由Kolmogorov-Smirnov和Shapiro-Wilk檢定,均 • 為不顯著,化表的是符合常態分配。

  23. 3-2 敘述性統計分析(Descriptive statistics) •   敘述性統計就是將收集到的資料,使用各種統計圖表及統計量的計算,清楚的呈現統計的結果。 • 範例:我們設計的研究問卷如下: •   本研究問卷共發出957份,回收有效問卷350份。根據問卷企業基本資料部份之填答內容,有公司使用之大型資訊系統、員工人數、資本額、營業額、ERP專案預算、公司產業類別等,經編碼輸入資料後,存檔成descriptive.sav 。

  24. 實務操作如下: • 1. 開啟範例檔 descriptive.sav • 2. 按 Analyze  Descriptive Statistics  Frequencies • 3. 在 Frequencies 視窗,選取所有變數 • 4. 按 >,將所有變數選入 Variable(s) • 5. 按 Statistics,選取 Std. deviation ,Variance,Range,Minimum,Maximum, • S.E.Mean • 6. 按 Continue,回到 Frequencies 視窗 • 7. 按 OK ,出現報表結果

  25. 敘述統計結果整理 • 回收樣本基本資料描述 •   本研究問卷共發出957份,回收372份,扣除填答不全與胡亂填答之無效問卷22份,有效問卷350份,有效回收率為36.57 %。根據問卷企業基本資料部份之填答內容,依公司使用之大型資訊系統、員工人數、資本額、營業額、ERP專案預算、公司產業類別等。 • 資本額 •   企業年資本額,如下表所示,以2億~10億(不含)佔最多,共152家(43.4%),其次為10億~50億(不含),佔樣本25.1%。2億以上之企業共佔79.7%。 •          樣本回收企業2004年資本額分佈情況

  26. 公司員工總人數 •   在公司員工總人數方面,如下表所示,以100~ 499人為最多,共有179家(51.1%),其次為100人以下,佔樣本16.6%,500~999人,佔樣本15.1%,1000~1999人為最少,共22家(6.3%)。 •           樣本回收總人數分佈情況表

  27. 營業額 •   營業額如下表所示,顯示企業年營業額以10億~20億(不含)最多,佔樣本27.1%,其次為10億以下佔樣本25.7%,20億~30億(不含)佔樣本12.0% 和 30億~50億(不含)佔樣本12.0%,100億以上佔樣本11.7%,50億~100億(不含)佔樣本11.4%。 •          樣本回收企業營業額分佈情況

  28.   我國ERP 專案建置的方式,主要可以分為專案統包與專業分工兩種類型。外商ERP軟體業者多採取「專業分工」的策略,透過企業管理顧問公司或國際級資訊大廠,以專業顧問服務與最佳典範經驗滿足大型企業流程再造的需求。而所謂「專案統包」指業者同時扮演專案建置與ERP軟體開發的角色。過去,由於台灣軟體市場規模太小(不及資訊硬體的十分之一)(資料來源:2003,周樹林),造成本土ERP業者多採取專案統包的建置策略,並強調軟體修改的彈性以滿足企業本土化特殊流程的需求,所以大部分的企業ERP系統屬於客制化的系統,故回收問卷回覆多以40.6%「其他」。 •   另外,企業對於ERP專案資本支出的要求謹慎,其中ERP專案預算低於一千萬高達63.4%,因為導入ERP金額多寡為台灣地區企業主之考慮建置ERP系統之關鍵因素之一,雖然SAP及Oracle擁有技術領先及軟體功能完整之優勢,但其高額的導入費用(SAP:一億以上及Oracle:1千萬~五千萬)也令台灣企業望之卻步。故回收樣本中,除了其他之外,有部分企業是優先以企業本身的資訊部門來自行開發相關軟體,有23.4%以「自行開發」為主。

  29. 企業採用ERP系統現況 •   在企業採用ERP系統方面,以「其他」所佔樣本比率最高為40.6%,其次為「自行開發」,佔樣本24.3%,SAP佔樣本8.9%,Oracle佔樣本10.0%和鼎新Tip-Top佔樣本16.3%。 • 除「其他」和「自行開發」以外,台灣企業電子化(e-Business)軟體市場在經過整合後,有呈現大者恆大的態勢,本研究調查ERP前三大的廠商SAP(8.9%)、Oracle(10.0%)與鼎新(16.3%)合計市佔率即高達35.2%。整體而言, 在各項應用軟體市場中, 除國外大廠SAP 及Oracle 等外,鼎新為目前國內最具規模之廠商。 • ERP系統採用現況

  30. ERP專案預算(包含軟硬體和系統開發) •   在專案預算方面,顯示企業大部分對於ERP導入的投資費用以1仟萬以下所佔比率最高為63.1%,其次為1仟萬~3仟萬(不含),佔樣本24.9%,3仟萬~5仟萬(不含)佔樣本3.4%,5仟萬~1億(不含)佔樣本3.7%,2億以上佔樣本2.6%,1億~2億(不含)佔樣本2.3%,如下表所示。 • ERP專案預算

  31. 企業產業別分佈情況 •   企業產業別分佈情況,如下表所示,在企業產業類別以電子及通訊器材為最多,共102家(29.1%),其次為消費性電子,佔樣本10.9%,在其次為電機機械與其他,皆佔樣本9.4%。 •            樣本回收企業產業別分佈情況

  32.   問卷回收後,針對填答「其他」的企業,再以電子郵件的方式詢問其行業別,對於仍無回函者,參考中華徵信所「2004年台灣地區TOP 5000」之行業別,對回收樣本中「其他」部分的資料進行分類,如下表所示。 •            樣本回收「其他」產業別分佈情況

More Related