800 likes | 979 Vues
測量的三個程序. (1)選擇可觀察的「個體或事物」(即「對象」 (2)以數字或符號代表事件的特性,即數值系統( numerical system) (3) 依據指派「規則」賦予觀察值一個符號或數字,此種「規則」就是操作型定義。. 測量程序範例. 參觀人員性別. 出席人員滿意程度. 實際觀察. 分派法則. 非常滿意 5 滿意 4 沒意見 3 不滿意 2 非常不滿意 1. 若為男性 M 若為女性 F. 符號或數字. (M , F). (1-5). 數值系統可分四大類 1.
E N D
測量的三個程序 • (1)選擇可觀察的「個體或事物」(即「對象」 • (2)以數字或符號代表事件的特性,即數值系統(numerical system) • (3)依據指派「規則」賦予觀察值一個符號或數字,此種「規則」就是操作型定義。 測量
測量程序範例 參觀人員性別 出席人員滿意程度 實際觀察 分派法則 非常滿意5 滿意4 沒意見3 不滿意2 非常不滿意1 若為男性M 若為女性F 符號或數字 (M,F) (1-5) 測量
數值系統可分四大類1 • 名目(nominal)資料:此種變數可做「分類」。沒有大小沒有距離。例如性別。 • 順序(ordinal)資料:此種變數可比大小及前後,但前後距離不等。只有大小沒有距離。例如5>4,但5-4≠1。例如,研究者常用Likert五點計分量表所得數據,可能是1~5分,亦可能是-2~+2分,這種資料屬於順序變數。 測量
數值系統可分四大類2 • 區間(interval)資料:具有前兩者的資料特性,且可以比較差距。前後距離相等,但沒有倍數關係,所以沒有絕對的0(有距離,但沒有絕對的零點)。例如5-4=1, 但4≠2×2。 • 例如,早上3點到6點經過的時間等於早上4點到7點,但早上6點不為早上3點倍數。 • 比例(ratio)資料:具有前三者的資料特性,且可以做倍數比較。有距離,有絕對的零點。例如,4=2×2。 測量
多變量分析之分類 測量
相依方法的分類 測量
獨立方法的分類 測量
測量誤差 • 指「真正差異」以外任何引起測量分數的差異。測量誤差(誤差分數)的來源有二大類: • 系統性誤差:它會對測量結果產生一致性、固定的影響。 • 隨機性誤差:主要是來自受訪者身心狀況(情緒、性格、動機…)、情境因素(噪音、太太在場、趕飛機、太熱…)、及測量試題(內容太長、太難…)的干擾影響。 測量
系統性誤差 • 系統性誤差(systematic errors)只要使用測量工具,它就可能會產生。系統性誤差對個案間及研究間的影響方式都是「固定」不變的。換言之,對相同情境受訪者或不同情境受訪者的同一位受訪者,均產生同樣的影響。例如:測量儀器偏誤,量表設計偏差… 測量
隨機性誤差 • 每一次以「不同」方式來影響測量工具的使用。 測量
案例 • 因吳淑珍女士先前批宋美齡女士,造成許多僑胞抵制。你認為吳女士此次海外訪問是否成功? • 小花說:「這次小考,我唸的老師都沒出…。」 • 老哥高中聯考時拉肚子,因此名落孫山。 測量
測量誤差之主要來源1 • 受測者誤差 • 因受測者本身特質(如隨和性)不同、當時個人的情緒好壞,都會導致測量結果的不同。例如:受測者之地位,社群,階級,生理因素,心理因素,不願表示負面意見… 測量
誤差之主要來源2 • 情境因素 • 訪談時任何外力的影響 • 施測者誤差 • 例如,訪談者的解釋、重述、語氣、態度和藹可親、肢體動作、草率的資料處理…等等。 • 量表的使用方式 • 是由訪問員代填,還是受訪者親自填答。 • 資料的分析處理之影響。 測量
誤差之主要來源3 • 測量工具誤差 • 測量工具內容:混淆(區別效度不佳)、語意不清(信度不佳)、編排不良(建構效度不佳)…等; • 測量項目不足,未能涵蓋所欲測量的特性(即內容效度不佳)、項目的篩選 • 有沒有引導作答的嫌疑…等等。 測量
測量工具的評量準則 • 效度(validity):該測量工具是否真能測量到我們欲衡量的特性。 • 信度(reliability):該測量工具所衡量的結果是否具有穩定性、一致性。 • 敏感度(sensitivity):事物起了變化,該測量工具是否能顯現出差異。 • 實用性(practicality):即考量該測量工具的經濟性、便利性、可解釋性。 測量
分類一 內部效度:指測量工具的設計能得出其所欲測量的特質 外部效度:指研究成果概化(generalization)的能力 英文成績 vs. 全民英檢 分類二 內容效度:指測量工具內容的適切性 推甄口試時,主考官要求唱一首歌 效標關聯效度:指測量工具的內容具有預測或估計的能力,而其有效程度則依據測量結果與效標的關聯程度而定 構念效度:指測量工具的內容,能推論或衡量一些抽象的概念或特質的能力 利用抱怨次數衡量顧客滿意度… 效度的分類1 測量
效度的分類2 • 分類三 • 測量效度:反應實現象的程度。 • 設計效度:指研究設計中,變數關係是否如預期的,不受外來的影響,可透過控制外生變數來提升該設計效度。 • 分析效度:進行統計分析後,所發現的結果是否如預期。 • 推論效度:即外部效度。 測量
內容效度 • 抽樣(sampling)效度:量表所包含的項目是否能代表母體構念的項目。內容效度的高低,端賴項目(item)取樣代表性之大小而定。 • 表面(face)效度:是指量表項目和形式上,給人的主觀印象,如果該量表從外表來看,似乎確實可適切地測量其欲測的特質或行為,便稱它具有表面效度。 測量
效標關聯效度1 • 又稱實用效度或實証效度,意指這種效度應建立在實証資料之上。效標關聯效度並不涉及構念的問題。依據效標不同,效標關聯效度可分為同時效標及預測效標。 • 「效標」是用來顯示測量工具所欲測量(或預測)的特質之獨立量數,以作為檢定效度的參考標準。 測量
效標關聯效度2 • 同時效標:是指測量工具與效標同時出現。例如,以「口袋中零用錢」(屬測量工具)衡量受訪者的「所得」(屬效標)高低,假如兩者相關很高,則「同時效度」高。又如:心理測驗,星座,血型,行為之人格分析… • 預測效標:指測量工具出現效標之前。例如,民意調查可正確預測選舉結果… 測量
構念(construct)效度 • 指「量表能測量理論上某概念或特質的程度」,即構念是否能真實反應實際狀況。 • 構念效度有二類:收歛(convergent)效度及區別(discriminant)效度 測量
收歛(convergent)效度 • 收歛效度是指用兩種不同衡量方式去衡量同一構面的內容時,其相關程度很高。如,若要衡量相同的東西(筆試、口試),則所得分數(結果)應相同(筆試與口試成績之相關要高) 測量
區別(discriminant)效度 • 區別效度是指測量工具中描述某一構念的項目與其他構念的相關性。 • 將不同的兩個概念進行量測,量測之過程不管是使用相同的方法或是不同的方法,若結果進行相關分析,而其相關程度很低,即代表兩個研究之概念量測之構面具有區別效度。 測量
構念效度之檢定方法 • 收歛效度及區別效度常用的「統計檢定」有三種方法:(1)相關分析、(2)因素分析」求量表各項目之因素結構矩陣,再由結構矩陣所表列之因素負荷量大小來判定建構效度好壞。(3) 「多特質多方法」(multi-traits multi-methods, MTMM)來檢定) 測量
效度之檢定順序 • 首先評估有那些項目可作為測量工具之理論基礎(內容效度) • 定義內容母體的項目,再從中抽取具有代表性樣本(構念效度) • 觀察資料回收後,評估測量工具與外在效標(標準測驗)之相關,以衡量該測量工具的經驗(預測)效度 測量
影響效度的因素 • 樣本性質:樣本多樣性、代表性愈高,測量工具效度就愈高。 • 測驗信度:若信度太低,則效度亦低 • 干擾(moderator)變數:它是指存在於測驗所欲測特質及其效標之外,但卻與兩者間具有某種相關程度的變數。例如,年齡層、性別、環境背景…等。 • 範例 • 台北市與高雄市之民眾對政黨偏好之差異. 測量
效度評估摘要 測量
信度1 • 信度(reliability)是指一個測量工具包含「變數誤差」的程度。 • 指測量結果是否具有一致性或穩定性的程度。 • 即在任何一次測量中,觀察值之間呈現之不一致、或是採用相同測量工具,然而對特定單位施測,每次所得結果都不一樣。 • 信度是指測量資料的可靠性,即一個測量工具在測量某持久性心理特質(態度)的「一致性」或「穩定性」 測量
σx2-σe2 σt2 信度= = σx2 σx2 σt2 :真實分數之變異 σe2 :測量誤差之變異 σx2 :觀測分數之變異 信度2 測量
案例 • 設計一問卷進行網路安全與線上交易行為之相關研究 • 資管系同學填得很高興;中文系同學看不懂多數專有名詞! • 某教授針對所授課程建立了100題測驗題庫,由於本學期教了兩班,故從中各抽出不同之25題給兩班考試,結果一班考得很好,另一班考得很差。 • 問題:您回家後---偶爾 有時 經常 ---看電視 測量
信度種類1 • 等值性(equivalence):又稱「複本法」,專門為檢定同一測驗中不同複本上分數的一致。 • (1)複本信度(alternate forms):不同研究者運用同一量表,對不同一批的樣本施測,結果的一致性。 • (2)折半係數(split-half):將同一量表中「項目內容相似」的問題折成兩半(單數題、偶數題) ,求這兩部份測驗總分之相關。 • 穩定性(stability):對同一批樣本,前後二期測兩次,若兩者的相關愈高,則表示該測驗的穩定係數愈高。 測量
信度種類2 • 一致性(consistency):旨在檢定某量表在各種不同層面的一致性。例如,量表單獨項目與總分是否一致性…等等。此種信度又可分成:折半信度、庫李信度、Cronbach’s α信度…等幾類 測量
信度的比較 測量
信度估計法之彙總 測量
一致性—折半信度(split-half reliability) • 將測驗折成兩個單元,受測者在各單元所得總分之Pearson相關係數,又稱「內部一致性係數」。 • 適合難度測驗(答對給1分,答錯給0分) 測量
∑pq k (1- ) KR20= k-1 S2 M(k-M) k (1- ) KR21= k-1 k(S2) 一致性—庫李信度(Kuder-Richardson reliability) • G. F. Kuder & M. W. Richardson, 1937) • 以測驗中所有內部試題為基礎。 • 適合難度測驗(答對給1分,答錯給0分) 測量
∑Si2 k (1- ) Cronbach’s α= k-1 S2 一致性— Cronbach’s α信度 • 又稱「內部一致性信度」 • 以測驗中所有內部試題為基礎。 • 適合測量人格特質態度…等。(可測量多重評分) k:測驗之題數 si2:每一試題之變異數 S2:整個測驗之變異數 測量
信度之一般水準 • 在實際應用上,Cronbach’s α值至少要大於0.5,最好能α>0.7(Nunnally, 1978) • 在行銷界有名的學術期刊論文中,有85%論文之量表α值大於0.5,有69%量表α值大於0.7 測量
SIR2 效度=信度- 效度≤信度 Sx2 信度與效度關係 • 「效度信度」 • 有效度一定有信度 • 但有信度不一有效度 • 無信度一定無效度。 SR2:相關變異數 St2=SR2+SIR2 SIR2:無相關變異數 測量
信度與效度的問題 • 最好的方法是使用學理上驗證過的工具。例如,在MIS調查研究中,可以採用Ives, Olson 及Baroudi(1983)或Bailey及Pearson(1983)之使用者滿意度(user satisfaction)測量 • 自己根據定義創造出來的衡量尺度、或整合、修改以前的工具,則必須有非常嚴謹的設計過程。前測與試測、信度與效度的檢定等工作可增加衡量尺度的說服力。 測量
實用性(practicality) • 經濟性 • 便利性:指執行時是否易於說明與瞭解. • 可解釋性 測量
提高量表解釋能力的關鍵因素(研究成果必須由第三者解釋時)提高量表解釋能力的關鍵因素(研究成果必須由第三者解釋時) • 本測驗的功能與測驗的程序說明。 • 對行政人員及監測人員的工作說明。 • 計分要點與計分說明。 • 選擇適當受測群體的準則。 • 有關信度的驗證。 • 各子項目相互影響的驗證。 • 本測驗結果與其他測驗結果的比較。 • 本測驗結果的使用指南。 測量
量表(scale)的設計 • 所謂「量表化」(scaling),它是一種測量的程序,旨在將衡量對象或欲衡量的特性(property)指派某些數值,以便將測量對象之特性數值化。 • 衡量「變數」可用單一問項來量 • 衡量「構念」則要用量表來量。量表是用一個以上的指標(indicant ,item, manifested)來測量某個體/事物的特性。 測量
量表分類之考慮因素1 • 目的 • 測量受測者本身的特質 • 測量受測者對一件事物或刺激的看法 • 填答的類型 • 類別量表(categorical scale) ,(評分量表,rating scale) • 比較量表(comparative scale) ,(排序量表,ranking scale) • 偏好的程度 • 有關個人偏好之量表 • 例如,生活型態量表 • 無關個人偏好之量表 • 例如,道德觀量表 測量
尺度的特性 層面的多寡 單一構面量表 多構面量表 量表建構的技術 主觀決斷方式 共識量表(consensus scale) 項目分析(item analysis) 累計量表(cumulative scale) 因素量表(factor scale) 量表分類之考慮因素2 測量
評分量表(rating scale)1 • 圖形式量表 受測者依據對問題的反應,在一條直線上選定一個點。 • 缺點 • 通常極端的負面敘述不會被勾選 • 「有時」與「通常」的定義模糊無法維持量表的一致性及穩定性。 • 讓受測者覺得他的反應被限制在兩端答案之間。 測量
此員工與其他同事相處的情形如何? 幾乎都會與同事有些衝突或爭執 通常會與同事有爭吵,其次數大於員工平均值 有時會與人發生衝突,但次數大約等於員工平均值 與其他人發生爭執的次數不多 幾乎不會與其他員工有衝突的情況發生 評分量表(rating scale)2 • 項目式量表:由一系列的描述句組成,受測者選擇最能反應他們情況的論述。 測量
評分量表(rating scale)3 • 項目式量表之評論 • 建立困難 • 陳述不一定可以真確地代表受測者 • 提供受測者較多訊息 • 使受測者能夠建立與研究者相同的參照架構,可增加量表的信度 測量
使用評分量表的問題1 • 假設受測者有能力且願意去做出恰當判斷 • 可能發生三種錯誤 • 極端效果或同情效應(leniency) • 例如:好好先生及刁難先生,評估者認知到有此偏誤,想要反向平衡. • 處理方式:在量表設計時預估控制,例如使用不對稱圖形式量表—(差-普通-好-很好-卓越) 測量
使用評分量表的問題2 • 趨中效應(central tendency) • 解決方式 • 調整描述詞語的強度 • 在圖形式量表加大詞語間的距離 • 使兩端的語意差別比中間來得小 • 使用較多點的量表 • 月暈效應(halo effect) :指人們對一般性的印象造成的誤差。例如,預期第一次考試得高分的同學,第二次也會表現得好。 • 解決方法:讓所有受測者每次僅對一項屬性或特質進行評估。 測量