1 / 39

Nonparametric Statistics

Nonparametric Statistics. บทนำ.

chet
Télécharger la présentation

Nonparametric Statistics

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Nonparametric Statistics

  2. บทนำ • ในบทนี้เรากล่าวถึงเทคนิคทางสถิติเมื่อข้อมูลเป็นแบบจัดอันดับ (Rank Data) ซึ่งข้อมูลเช่นนี้ไม่สามารถให้ค่าเฉลี่ย (Mean) เป็นตัวแทนข้อมูลได้ ดังนั้นกรณีที่ลักษณะของกลุ่มประชากรที่ไม่มี Parameter (Non parametric) โดยทดสอบว่ากลุ่มประชากร 2 กลุ่มอยู่ในตำแหน่งที่แตกต่างกันหรือไม่ เพื่อแทนที่การทดสอบว่าค่าเฉลี่ยของกลุ่มประชากรทั้งสองกลุ่มแตกต่างกันหรือไม่

  3. วิธี Nonparametric สามารถใช้แทนวิธี parametric ในข้อมูลเชิงปริมาณก็ได้ กรณีที่ประชากรมีการกระจายแบบไม่ปกติ • In nonparametric tests we hypothesize on the population locations (not necessarily their means). Two populations - same location Two populations - different locations

  4. การตั้งสมมติฐาน H0 : ประชากรทั้งสองกลุ่มอยู่ในพื้นที่เดียวกัน H1 : พื้นที่ประชากรกลุ่มที่ 1 แตกต่างจากประชากรกลุ่มที่ 2 H1 : พื้นที่ประชากรกลุ่มที่ 1 อยู่ทางขวาของประชากรกลุ่มที่ 2 H1: พื้นที่ประชากรกลุ่มที่ 1 อยู่ทางซ้ายของประชากรกลุ่มที่ 2

  5. 16.2 Wilcoxon Rank Sum Test for Independent Samples • คุณลักษณะของปัญหาจะเกี่ยวข้องกับสิ่งต่างๆต่อไปนี้ • วัตถุประสงค์ของปัญหาใช้เพื่อการเปรียบเทียบประชากรสองกลุ่ม • เป็นข้อมูลแบบจัดอันดับ หรือข้อมูลเชิงปริมาณที่มีการกระจายแบบไม่ปกติ • กลุ่มตัวอย่างเป็นอิสระต่อกัน

  6. ตัวอย่างที่ 1 • จากตัวอย่างที่แสดงข้างล่าง ที่ระดับนัยสำคัญ 5% กลุ่มประชากรกลุ่มที่ 1 จะอยู่ทางซ้ายของกลุ่มประชากรกลุ่มที่ 2 ใช่หรือไม่ • Sample 1: 22, 23, 20; Sample 2: 18, 27, 26; • สมมติฐานคือ:H0: The two population locations are the same. H1: The location of population 1 is to the left of the location of population 2.

  7. วิธีการทดสอบ ขั้นที่1 จัดอันอับตัวเลขทั้งหก เลขที่มีค่าน้อยที่สุดให้เป็นอันดับหนึ่ง มากที่สุดให้เป็นอันดับสุดท้าย กรณีที่ตัวเลขซ้ำกันให้จัดอันดับโดยใช้วิธีค่าเฉลี่ย เช่น 18,20,20,25 อันดับคือ 1, 2.5, 2.5, 4 ตามลำดับ

  8. ขั้นที่ 2 คำนวณผลรวมของอันดับในแต่ละตัวอย่าง ในกลุ่มที่ 1(T1) ผลรวมเท่ากับ 9 และกลุ่มที่ 2(T2) ผลรวมเท่ากับ 12 (ทั้งนี้ผลรวมในทั้งสองกลุ่มต้องเท่ากับค่าผลรวมของอันดับทั้งหก T1+T2=21) • สรุปกลุ่มที่ 1 มีผลรวมน้อยกว่ากลุ่มที่ 2 แต่ที่ระดับนัยสำคัญ 0.05 ไม่อาจสรุปได้ว่า กลุ่มที่ 1 น้อยกว่ากลุ่มที่ 2 • ที่เป็นเช่นนี้เพราะค่าความน่าจะเป็นที่ T1< 9 เท่ากับ 7/20 (0.35 หรือ 35%) ขณะที่ P(T< 6) = 0.05 ดังนั้นถ้าสมมติฐานเบื้องต้นถูกตั้งไว้ที่นัยสำคัญ 5%

  9. If the two populations have the same location (the null hypothesis is true), the value of the statistic T should not be too small. • If the T value is small, the null hypothesis should be rejected in favor of the alternative hypothesis. • Since P(T<6) = .05, and T = 9, there is insufficient evidence to argue that population 1 is located to the left of population 2, at 5% significance level.

  10. P(T <= 6) = .05 The distribution of T These are the possible ranks allocated to the observations of one sample of size 3, when two samples of size 3 are drawn. .15 2,3,4 2,3,5 2,4,5 3,4,5 .10 1,3,4 1,3,5 1,4,5 2,3,6 2,4,6 3,4,6 .05 1,2,3 1,2,4 1,2,5 1,2,6 2,5,6 3,5,6 4,5,6 1,3,6 1,4,6 1,5,6 T 6 7 8 9 10 11 12 13 14 15 T is the rank sum of a sample of size 3.

  11. n1(n1 + n2 + 1) 2 E(T) = Therefore, Z = T - E(T) sT • Wilcoxon rank sum test for sample sizes > 10 • The test statistic is approximately normally distributed with the following parameters:

  12. Example 2 (using Wilcoxon rank sum test with ranked data) • บริษัทยาแห่งหนึ่งมีแผนที่จะนำเสนอยาแก้ปวดตัวใหม่ (Pain killer) • เพื่อทดสอบประสิทธิผลของยาดังกล่าว บริษัทผู้ผลิตจึงได้ทดลองสุ่มเลือกกลุ่มคนที่มีอาการปวดมาจำนวน 30 คน โดยกำหนดให้ • มี 15 คนรับยาชนิดใหม่นี้ • อีก 15 คนให้รับยา aspirin • ผู้เข้าร่วมการทดสอบแต่ละคนจะต้องระบุว่า วลีตัวเลือกใดเป็นตัวแทนของประสิทธิผลของยาแต่ละตัวได้ดีที่สุด

  13. ข้อสรุปที่แสดงผลลัพธ์ของการทดลองด้วยยาทั้งสองข้อสรุปที่แสดงผลลัพธ์ของการทดลองด้วยยาทั้งสอง • Solution • วัตถุประสงค์เพื่อเปรียบเทียบประชากรสองกลุ่มที่มีข้อมูลแบบเรียงลำดับ • ตัวอย่างทั้งสองเป็นอิสระต่อกัน • ลักษณะนี้เหมาะที่จะใช้ Wilcoxon rank sum test

  14. The hypotheses H0: ขอบเขตพื้นที่ของกลุ่มประชากร 1 และ 2 เหมือนกัน H1: ขอบเขตพื้นที่ของกลุ่มที่ 1อยู่ทางขวามือของกลุ่มที่ 2 • Solving by hand • To reject the null hypothesis, we need to show that z is “large enough”. • First we rank the observations, then we run a z-test, with rejection region of Z > Za.

  15. To standardize the test statistic we need: E(T) = n1(n1+n2+1)/2= (15)(31)/2=232.5 ตัวเลขที่ได้หมายถึงค่าระดับความพึงพอใจในประสิทธิผลของยา ซึ่งเป็นช้อมูลที่ได้จากการการทดสอบผลการใช้ยาจากกลุ่มตัวอย่างแต่ละคน • Ranking the raw data มีข้อมูลจำนวน 3 ตัวที่มีค่าเท่ากับ 1 ดังนั้นอันดับของทั้งสามซึ่งควรจะเป็นอันดับ 1,2,3แต่เมื่อมีค่าเท่ากันจึงต้องหาค่าเฉลี่ย จึงมีค่า เท่ากับ 2 (rank =2) ที่ 5% significance level, ยาชนิดใหม่จึงมีประสิทธิภาพดีกว่ายา แอสไพริน ที่ระดับค่านัยสำคัญ 0.05(5% ) z=1.645. ดังนั้นจึงมีหลักฐานเพียงพอต่อการปฏิเสธสมมติฐานหลักและเลือกสมมติฐานทางเลือก T2=188.5 Sum of ranks: T1=276.5

  16. P-value<0.05 ปฏิเสธสมมติฐาน H0

  17. Example 3 (Using Wilcoxon rank sum test with quantitative data) • ผู้จัดการฝ่ายบุคคลของบริษัทแห่งหนึ่งต้องการเปรียบเทียบระยะเวลาการทำงาน (ก่อนที่จะลาออก) ของพนักงานที่จบการศึกษาด้านบริหารธุรกิจ กับที่ไม่จบบริหารธุรกิจ • ตัวอย่างที่ทำการจัดเก็บแบ่งเป็นสองกลุ่ม กลุ่มที่หนึ่งเป็นพนักงานที่จบบริหารธุรกิจ 25 คน และกลุ่มที่สองคือจบสาขาอื่นๆอีก 20 คน • ข้อมูลคือเวลาที่อยู่กับบริษัทถูกจดบันทึกไว้ใน XM16-03

  18. Non Business graduates Business graduates ที่นัยสำคัญ 0.05 จะสรุปได้หรือไม่ว่ามีความแตกต่างด้านเวลา การทำงานระหว่างพนักงานที่จบบริหารฯกับพนักงานที่จบใน สาขาอื่นๆ • Solution • The problem objective is to compare two populations of quantitative data. • The samples are independent. • Checking the population samples, we can observe the nonnormality of the variables

  19. 1 2 3

  20. ผลลัพธ์ • P-value = 0.0105 < 0.05 • ปฏิเสธ Null hypothesis • ดังนั้นพนักงานที่จบบริหารฯ กับจบจากคณะอื่นมีผลต่อระยะเวลาการทำงานในองค์กรนี้ อย่างไรก็ดีผลลัพธ์ที่ได้ไม่อาจบ่งบอกข้อสรุปว่าเป็นเพราะเหตุใด

  21. 2.1 The Sign Test • This test is employed in the following situations. • The problem objective is to compare two populations. • The data areranked. • The experimental design is matched pairs. • Test statistic. • We recordthe sign of all the matched-pair-differences. • The number of positive signs is the test statistic. • The number of positive signs is binomially distributed.

  22. 2.Sign Test and Wilcoxon Signed Rank Sum Test for Matched Pairs • เทคนิคที่นำเสนอไปก่อนหน้าคือการเปรียบเทียบระหว่างกลุ่มประชากรสองกลุ่ม ที่เป็นอิสระต่อกัน สำหรับเครื่องมือที่จะนำเสนอต่อไปนี้จะเป็นการทดสอบสมมติฐานเปรียบเทียบระหว่างกลุ่มประชากรสองกลุ่มไม่เป็นอิสระต่อกัน โดยจะมีคุณลักษณะดังนี้ • มีวัตถุประสงค์เพื่อเปรียบเทียบกลุ่มประชากรสองกลุ่ม • ข้อมูลต้องเป็นแบบ Rank หรือ เป็นข้อมูลเชิงปริมาณที่มีการกระจายแบบไม่ปกติเท่านั้น • ตัวอย่างจะมีความเกี่ยวข้องกันระหว่างกลุ่มประชากรสองกลุ่มในลักษณะของการจับคู่กัน (Matched Pairs)

  23. Example 4 • ในการทดสอบว่าระหว่างรถยนต์ยุโรป กับรถอเมริกา แบบไหนสะดวกสบายมากกว่ากัน โดยใช้ผู้ทดสอบจำนวน 25 คนมาทดสอบรถที่ผลิตจากทั้งสองทวีป • ภายหลังการทดสอบแต่ละคนต้องให้คะแนนเป็นระดับความพึงพอใจในรถทั้งสองรุ่นที่ตนได้ทดสอบ โดยมีระดับความพึงพอใจตั้งแต่ 1 (ride is very uncomfortable) ถึง5 (ride is very comfortable). • Notice: The data are ranked. • สิ่งที่ผู้ทดสอบอยากทราบคือ รถยุโรปสะดวกสบายกว่ารถอเมริกาจริงหรือไม่ • XM16-04

  24. The results were: Solution The hypotheses are: H0: The two population locations are the same. H1: The European cars population is located to the right of the American car population Normal? Not all the data are shown. There were 18 positives, 5 negatives, and 2 zeros. X = 18, n = 23. Z = [x-np]/[np(1-p)].5 = [18-.5(23)]/[.5[23}.5] =2.71 The rejection region is z > za With a = .05 z.05 = 1.645. Conclusion: Reject the null hypothesis. There is sufficient evidence to infer that the European car is perceived as more comfortable than the American car. Do these data allow us to conclude at 5% significance level that the European car is perceived to be more comfortable?

  25. Using the computer: Tools > Data Analysis Plus > Sign Test สรุป จากการทดสอบความพึงพอใจของผู้ขับพบว่า รถยุโรปสะดวกสบายกว่ารถอเมริกาจริง

  26. 2.2 Wilcoxon Signed Rank Sum Test for Matched Pairs • เทคนิคนี้จะถูกใช้เมื่อ • วัตถุประสงค์เพื่อเปรียบเทียบกลุ่มประชากรสองกลุ่ม • ข้อมูลเป็นข้อมูลเชิงปริมาณที่มีการกระจายแบบไม่ปกติ • ตัวอย่างเป็นแบบmatched pairs. • The test statistic • Build a T statistic based on the sum of differences between paired observations. • When n <=30, reject H0 if T>TU or T<TL. • When n > 30, T is approximately normally distributed. Use a Z-test.

  27. Example 5 • เพื่อทดลองแก้ปัญหาลดเวลาการเดินทางมาทำงานของพนักงาน บริษัทได้ทดลองใช้นโยบาย flextime โดยให้พนักงานเลือกเวลามาทำงานได้เอง(หลีกเลี่ยงช่วงเวลาลดติด) การทดสอบได้เลือกทดลองใช้นโยบายนี้ในวันพุธ โดยให้พนักงานจำนวน 32 คนเดินทางมาทำงานตามเวลาเข้างานปกติ เปรียบเทียบกับเวลาเข้างานที่แต่ละคนได้เลือกเองตามนโยบายflextime • ทำการจดบันทึกเวลาที่ใช้ในการเดินทางในแต่ละแบบ เพื่อทดสอบว่าระยะเวลาที่ใช้ในแต่ละแบบเหมือนหรือแตกต่างกัน • The hypotheses test are • The two population locations are the same. • The two population locations are different. The rejection region: |z| > za/2

  28. ผลลัพธ์ P-value > 0.05 ยอมรับสมมติฐานที่ว่าทั้งสองวิธีใช้เวลาเดินทางมาทำงานเท่ากัน

  29. 16.4 Kruskal-Wallis Test • คุณลักษณะของปัญหาที่เหมาะกับเครื่องมือนี้คือ • เพื่อเปรียบเทียบกลุ่มประชากรตั้งแต่สองกลุ่มหรือมากกว่า • เป็นข้อมูลแบบเรียงลำดับหรือข้อมูลเชิงปริมาณที่มีการกระจายไม่ปกติ • ข้อมูลแต่ละกลุ่มเป็นอิสระต่อกัน • The hypotheses are • The location of all the k populations are the same. • At least two population locations differ.

  30. Example 6 The Kruskal-Wallis test • ผู้จัดการร้านอาหารฟาสต์ฟู๊ดแห่งหนึ่งมีการทำแบบสอบถามเพื่อการประเมินความพึงพอใจในหัวข้อต่างๆ หนึ่งในนั้นคือเรื่องความรวดเร็วในการให้บริการ ทั้งนี้ผู้จัดการอยากทราบว่าในทั้งสามกะ (เปิด 24 hr) ความพึงพอใจด้านความรวดเร็วของการให้บริการที่ลูกค้าประเมินเหมือนหรือต่างกันหรือไม่ ผู้จัดการจึงสุ่มเอาผลจากแบบสอบถามที่ให้ลูกค้าตอบจากแต่ละกะมาอย่างละ 10 ชุด และหยิบเอาผลคะแนนที่ได้จากความพึงพอใจด้านความรวดเร็วมาเปรียบเทียบ (ระดับคะแนนคือ 4,3,2,1 ตามลำดับ) XM16-06 เราสามารถสรุปได้หรือไม่ว่าไม่มีความแตกต่าง ของระดับความพึงพอใจต่อประเด็นความรวด เร็วของการให้บริการในทั้งสามกะ at 5% significance level?

  31. Result: P-value = 0.2665 >0.05 แสดงว่าไม่มีหลักฐานเพียงพอที่จะระบุถึงความแตกต่างของความพึงพอใจในด้านความรวดเร็วของการให้บริการในทั้งสามกะ

  32. แบบฝึกหัด 1 • Certain drugs differ in their side effects depending on the gender of the patient. In a study to determine whether men or women suffer more serious side effects when taking a powerful penicillin substitute, 50 men and 50 women were given the drug. Each was asked to evaluate the level of stomach upset on a 4-point scale, where 4= extremely upset, 3= somewhat upset, 2= not too upset, 1= not upset at all. The results are stored in file XR16-09 with column 1= female’s evaluation and column2= male’s eveluation.Can we conclude at the 5% sig. level that men and women experience different levels of stomach upset from the drug?

  33. แบบฝึกหัด2 XR16-22 • ในภาวะขาดแคลนพลังงานหน่วยงานภาครัฐพยายามหาวิธีการเพื่อให้ผู้บริโภคตระหนักในปัญหานี้ด้วยการออกแคมเปญการประชาสัมพันธ์ออกมา ทั้งนี้เพื่อให้การประชาสัมพันธ์มีประสิทธิภาพ ภาครัฐฯได้จัดทำแบบสำรวจขึ้นมาเพื่อสอบถามว่าโดยทั่วไปประชาชนกังวลกับปัญหาการขาดแคลนน้ำมันหรือขาดแคลนไฟฟ้ามากกว่ากัน โดยจัดทำแบบสอบถาม 4 ทางเลือกคือ 1= ไม่กังวล, 2= กังวลเล็กน้อย, 3= ค่อนข้างกังวล, 4= กังวลมาก โดยสอบถามตัวอย่าง 150 คนเพื่อให้ใส่ระดับความกังวลในปัญหาขาดแคลนน้ำมันกับปัญหาขาดแคลนไฟฟ้า โดยกำหนดให้ column1= ผู้ตอบ column2= กังวลในปัญหาการขาดแคลนน้ำมัน column3= กังวลการขาดไฟฟ้า • ที่นัยสำคัญ 5% สามารถสรุปได้หรือไม่ว่าผู้ตอบกังวลเรื่องขาดแคลนน้ำมันมากกว่าขาดแคลนไฟฟ้า

  34. แบบฝึกหัด 3 XR16-25 • นักการตลาดต้องการทดสอบว่า ตราสินค้ามีผลต่อความรู้สึกในรสชาติของไอศครีมหรือไม่? เขาทดลองนำเอาไอศกรีมชนิดเดียวกันมาใส่ในถ้วยไอศกรีม 2 ถ้วย ถ้วยแรกระบุว่าเป็นไอศกรีมชื่อดังจากยุโรป ที่มีกรรมวิธีการผลิตอันซับซ้อน ส่วนถ้วยสองระบุว่าเป็นไอศกรีมป่าตัน ราคาถูก จากนั้นสุ่มเลือกนักชิมมาทดลอง กำหนดให้ระดับคะแนนที่ให้นักชิม60 คนระบุเป็น 10 ขั้น (1-10) (poor  excellent) • (Column1= respondent, Column2= ติมยุโรป, Column3= ติมป่าตัน • ที่ 10% sig. ผู้ชิมชอบไอศครีมยุโรปมากกว่าไอศครีมป่าตันจริงหรือไม่

  35. แบบฝึกหัดที่ 4 (XR16-36) อาจารย์สถิติท่านหนึ่งพยายามค้นหาความแตกต่างของผลลัพธ์ในวิธีการสอนวิชาสถิติ3 แบบให้กับนักศึกษา CAMT ต่าง sectionกัน โดยวิธีที่1 : lecture วิธีที่2: Case method วิธีที่3 : Computer software เมื่อถึงปลายภาคได้ทำแบบประเมินผลให้นักศึกษาตอบ โดยเป็นแบบสอบถาม 7 อันดับ (1-7) (Poor Excellent) แล้วสุ่มเลือกมา sectionละ 25 คน (section 1,2,3 = column1,2,3) จากข้อมูลสามารถสรุปได้หรือไม่ว่า นักศึกษามีความพอใจในวิธีการสอนอย่างน้อย 2 วิธีแตกต่างกัน (at 5% sig)

More Related