การวิเคราะห์กลุ่ม ( Cluster Analysis )

การวิเคราะห์กลุ่ม (Cluster Analysis) โดย นางสาวจิตรลดา ทองอันตัง นายสุขสมพร อโนไท

1.ความหมายของ Cluster Analysis • เป็นเทคนิคที่ใช้จำแนกหรือจัด Case (หมายถึง คน สัตว์ สิ่งของ หรือ องค์กร ฯลฯ) หรือจัดตัวแปรออกเป็นกลุ่มย่อย ๆ ตั้งแต่ 2 กลุ่มขึ้นไป Case ที่อยู่ในกลุ่มเดียวกันจะมีลักษณะที่เหมือนกันหรือคล้ายกัน ส่วน Case ที่อยู่ต่างกลุ่มกันจะมีลักษณะที่แตกต่างกัน - ตัวแปรอยู่ในกลุ่มเดียวกันมีความสัมพันธ์กันมากกว่าตัวแปรที่อยู่ต่างกลุ่มกัน ตัวแปรที่อยู่ต่างกลุ่มกันมีความสัมพันธ์กันน้อยหรือไม่มีความสัมพันธ์กันเลย

Inter-cluster distances are maximized Intra-cluster distances are minimized Cluster Analysis จัดกลุ่มโดยพยายามให้สิ่งที่อยู่ในกลุ่มเดียวกันมีความคล้ายคลึงกันมากที่สุด (Minimize Intra-Cluster Distances) และพยายามให้แต่ละกลุ่มมีความแตกต่างกันมากที่สุด (Maximize Inter-Cluster Distances)

Cluster Analysis • การวิเคราะห์เพื่อศึกษาว่าบุคคล (Cases) หรือสิ่งต่างๆ (Objects) จะสามารถนำมาจัดกลุ่มกันตามความเหมือน (Similarity) หรือความแตกต่าง (Dissimilarity or Distance) ของตัวแปร (Variables) ได้กี่กลุ่ม อย่างไรบ้าง • บุคคลหรือสิ่งที่มีความคล้ายคลึงกันในตัวแปรที่นำมาวิเคราะห์จะถูกจัดอยู่ในกลุ่ม (Cluster) เดียวกัน ส่วนบุคคลหรือสิ่งที่แตกต่างกันในตัวแปรจะถูกจัดอยู่คนละกลุ่มกัน

2.ข้อสมมติหรือเงื่อนไขเทคนิดการวิเคราะห์กลุ่ม2.ข้อสมมติหรือเงื่อนไขเทคนิดการวิเคราะห์กลุ่ม • ไม่ทราบจำนวนกลุ่มมาก่อนว่ามีกี่กลุ่ม • ไม่ทราบมาก่อนว่าหน่วยไหนหรือคนใดจะอยู่กลุ่มใด • หน่วยหรือคนใดคนหนึ่งจะต้องอยู่กลุ่มใดกลุ่มหนึ่งเพียงกลุ่มเดียว • ตัวแปรที่ใช้ในการแบ่งกลุ่มมีมากกว่า 1 ตัว และตัวแปรอาจเป็นตัวแปรตัวแปรที่มีค่าได้เพียง 2 ค่า หรือเป็นตัวแปรเชิงคุณภาพ หรือตัวแปรเป็นปริมาณ

3. วัตถุประสงค์ของ Cluster Analysis เพื่อจัดกลุ่ม Case ซึ่งจะเป็นประโยชน์ในงานด้านต่าง ๆ เช่นการตลาด การแพทย์ การปกครอง ฯลฯ ดังตัวอย่างต่อไปนี้

ตัวอย่างที่ 1 ใช้ศึกษาพฤติกรรมการบริโภคของกลุ่มผู้บริโภคที่อยู่ต่างกลุ่มกัน ซึ่งจะทำให้สามารถวางกลยุทธ์ทางการตลาดได้อย่างมีประสิทธิภาพมากขื้น การที่จะสามารถแยกกลุ่มผู้บริโภคเป็นกลุ่มย่อยได้ จะต้องพิจารณาถึงตัวแปรที่ใช้ในการแบ่งกลุ่มผู้บิริโภค ที่จะทำให้ผู้ที่อยู่ต่างกลุ่มกันมีพฤติกรรมการบริโภคที่แตกต่างกัน ตัวแปรดั่งกล่าวอาจประกอบด้วย อาชีพ อายุ รายได้ เป็นต้น

ตัวอย่างที่ 2 การเปรียบเทียบรถยนต์ยี่ห้อต่างๆ โดยที่ 1 Case คือรถยนต์ 1 ยี่ห้อซึ่งพิจารณาจากตัวแปร เช่น ความถี่ในการซ่อม ลูกสูบ ระบบแบรก ค่าใช้จ่ายต่อกิโลเมตรราคาเป็นต้น

ข้อสังเกต จากตัวอย่างที่ 1 ข้างต้น จะพบว่าการเลือกตัวแปรเพื่อนำมาใช้จัดกลุ่ม Case มีความสำคัญมาก เพราะถ้าผู้วิจัยเลือกตัวแปรที่ไม่ได้ทำ Case แตกต่างกันแล้ว จะทำให้ไม่สามารถจัดกลุ่มได้ถูกต้อง การเลือกจะต้องพิจารณาว่าตัวแปรใดบ้างที่มีอิทธิพลทำให้เกิดความแตกต่าง นอกจากนั้น การจัดกลุ่มตัวแปรทำให้ทราบว่าตัวแปรใดบ้างที่มีความสัมพันธ์กันการเปลี่ยนแปลงของตัวแปรบางตัวย่อมมีผลกระทบต่อตัวแปรอื่น ๆ ที่มีความสัมพันธ์กับตัวแปรดังกล่าว

4.การวัดความคล้าย (Similarity Measure) ดังที่ได้กล่าวมาแล้วถึงหลักเกณฑ์ของเทคนิค Cluster ว่าจะใช้ในการจัด Case ที่คล้ายกันไว้ในกลุ่มเดียวกัน หรือจัดกลุ่มตัวแปรที่สัมพันธ์กันไว้ในกลุ่มเดียวกัน นั่นคือ จะมีความวัดคล้ายกันของ Case ที่ละคู่ ในกรณีที่เป็นการจัดกลุ่ม Case ส่วนการจัดกลุ่มตัวแปร การวัดความคล้ายจะเป็นการวัดความคล้ายของตัวแปรแต่ละคู่ คือการหาค่าสัมประสิทธิ์สหสัมพันธ์ เมื่อต้องการจัดกลุ่ม Case

4.1 การวัดค่าความต่าง ของหน่วย 2 หน่วย เช่น คน 2 คน หรือ 2 องค์กร เป็นการหาระยะห่าง ระหว่าง 2 หน่วย เช่นการศึกษา ความต่างของคน 2 คน (นาย ก และ นาย ข) ในด้านรายได้รายจ่าย ถ้านาย ก และนาย ข มีความต่างกันน้อย หรือระยะห่างต่างกันน้อย หรือถ้าระยะห่าง ก และ ข มีรายได้ไกล้ศูนย์ แสดงว่า ก และ ข อยู่ใกล้กัน หรือค้ายกัน จึ่งควรให้นาย ก และ นาย ข อยู่ในกลุ่มเดียวกัน แต่ถ้านาย ก และ นาย จ มีความต่างกันมากหรืออยู่ห่างกันมากจึ่งมีรยะห่างมาก ก็จะจัดให้นาย ก และนาย จ อยู่คนละลุ่ม

ระยะห่างยุดลิดกำลังสอง (Euclidean Distance)

ตัวอย่าง 3 การศึกษาความแตกต่างของอายุและรายได้ของนายสาวจอย และนางสาวพลอยได้ข้อมูลดังนี้ ข้อมูลดิบ • การวัดความต่างของนางสาวจอย และนางสาวพลอย ในที่นี้จะใช้ระยะห่างยุคลิดกำลังสอง ระยะห่าง==400+90,000=90,400

ค่าเบี่ยงเบนมาตรฐาน

ค่ามาตฐานของข้อมูล

ระยะห่างของจอย และพลอย = ซึ่งเป็นผลจากอายุและรายได้เท่ากัน คือร้อยละ 50 ดังนั้นก่อนใช้เทคนิคการวิเคราะกลุ่มควรปรับหรือจำกัดหน่วยของตัวแปรที่แตกต่างกันออกไป ดังในตัวอย่างนี้ปรับให้เป็นค่ามาตรฐานที่ไม่มีหน่วย

4.3 การคำนวณระยะห่างและความคล้ายของข้อมูลที่มีค่าได้เพียงสองค่า (Binary data) การวัดความคล้ายและความต่างของ 2 หน่วย หรือ 2 คนจะต้องสร้างตารางขนาด 2  2 เพื่อศึกษาความคล้าย หรือความต่าง การสร้างความคล้ายหรือความต่างของนาย วิน และ กัน พิจรณาดังนี้ ตัวอย่าง 4 การวัดความสามารถด้านภาษา ถ้าพูดภาษาอังกฤได้จะได้หมายเลข 1 ถ้าพูดไม่ได้หมายเลข 0 ตัวอย่าง เช่นถ้ามีตัวแปร 4 ตัว (X1, X2 , X3 , X4)

จากตารางจะพบว่า วิน และ กัน คล้ายกันใน X2 และ X3 แต่ต่างกัน X1 และ X4

เช่น X A1=

ในรูปทั่วไปกรณีที่มีตัวแปร p (X1, X2 ,… Xp) ตารางความถี่เพื่อเปรียบเทียบความคล้าย และความต่างของที่ i และ j จะเป็น

4.4 การวัดความต่าง 1. ระยะห่างยุคลิดกำลังสอง (Square Euclidean Distance) 2. ระยะห่างยุคลิด (Euclidean Distance)

4.5 การวัดความคล้าย • Simple Matching เป็นการให้หนักเท่ากันกับลักษณะที่เหมือนกัน

ตัวอย่าง 5 จากการตอบถามความคิดเห็นด้วยคำถาม 6 คำถามต่อสามีภรรยา 1 คู่โดยคำถามเป็นดั่งนี้

นำข้อมูลมาสร้างตารางความถี่จำแนก 2 ทาง

5. ประเภทของเทคนิค Cluster Analysis เทคนิค Cluster Analysis แบ่งเป็นหลายประเภทหรือเทคนิคย่อย โดยเทคนิดที่ใช้กันมากมี 2 เทคนิค คือ • Hierarchical Cluster Analysis • K-Means Cluster Analysis

5.1 เทคนิค Hierarchical Cluster Analysis เป็นเทคนิคที่ใช้กันมากในการแบ่งกลุ่ม Case หรือแบ่งกลุ่มตัวแปรโดยมีเงื่อนไขดังต่อไปนี้ 1. ในกรณีที่ใช้การแบ่ง Case นั้น จำนวน Case ไม่ต้องมากนัก (จำนวน Case ควรต่ำกว่า 200 ถ้าตั้ง 200 ขื้นไปใช้ K-Means Cluster ) และจำนวนตัวแปรไม่ต้องมากเช่นกัน 2. ไม่จำเป้นต้องทราบจำนวนกลุ่มาก่อน 3. ไม่จำเป็นต้องทราบว่าตัวแปรใด หรือ Case ใดอยู่กลุ่มใดมาก่อน

6. การวิเคราะห์กลุ่มแบบขั้นตอน (Hierarchical Cluster Aalysis) การวิเคราะห์กลุ่มแบบขั้นตอน (Hierarchical Cluster Aalysis) เป็นการทำการแบ่งกลุ่มแบบเป็นขั้นตอน และเมื่อนำหน่วยหนึ่งไว้ในกลุ่มใดหนึ่งแล้ว จะไม่มีการย้ายหน่วยนั้นไปไว้กลุ่มอื่น ๆ อีก เช่น จัดให้นายวิชัย อยู่กลุ่มที่ 3 ก็จะไม่มีการย้ายนายวิชัยไปอยู่กลุ่มอื่น ๆ ในขณะที่วิธีการวิเคราะห์กลุ่มแบบไม่เป็นขั้นตอน ถ้าจัดแล้วอาจมีการย้ายกลุ่มได้ เช่น เดิมในตอนแรก จัดนายวิชัยในกลุ่มที่ 3 ภายหลังอาจจะย้ายนายวชัยไปกลุ่มที่ 1หรือ 2 (กรณีที่มี 3 กลุ่ม)

6.1 เทคนิค Hierarchical Cluster Analysis แบ่งเป็น 2 เทคนิคย่อยคือ 1. Agglomerative Hierarchical Cluster Analysis 2. Divisive Hierarchical Cluster Analysis สำหรับโปรแกรมสำเร็จรูปทั่วไป จะใช้เทคนิค Agglomerative Hierarchical Cluster Analysis

6.1.1 Agglomerative HierarchicalCluster Analysis เริ่มต้นจะสมมติว่ามี n กลุ่มย่อย สิ่งของ หรือ item ที่มีระยะสั้นที่สุด หรือคล้ายกันมากที่สุดจะรวมเข้าด้วยกันเป็นกลุ่มก่อน จึงเหลือ n-1 กลุ่มย่อย จากนั้นหาระยะทางหรือความคล้ายจาก n – 1 กลุ่มย่อยใหม่ แล้วดูว่ากลุ่มย่อยใดมีระยะทางสั้นที่สุด หรือคล้ายกันมากที่สุดก็รวมกลุ่มย่อยนั้นเข้าด้วยกัน ทำเช่นนี้ต่อ ๆ ไป ในท้ายที่สุดแล้วจะมีเพียง 1 กลุ่มซึ่งประกอบด้วยสิ่งของ n สิ่ง

ข้อจำกัดของวิธี Agglomerative Hierarchical Cluster Analysis เนื่องจากวิธี Agglomerative Hierarchical Cluster Analysis จะเริ่มต้นให้จำนวน case = จำนวน cluster เช่น มี n case = มี n cluster แล้วค่อย ๆ ลดจำนวน cluster ทีละ 1 โดยรวมกลุ่ม 2 cluster ที่คล้ายกันมากที่สุด หรือต่างกันน้อยที่สุดเข้าด้วยกัน จึงค่อยๆ ลดจำนวน cluster ครั้งละ 1 ดังนั้น ถ้ามี n มาก เช่น n = 1,000 คน จะต้องทำการรวมกลุ่ม 999 ครั้งโดยเริ่มจากมี 1,000 cluster แล้วลดเหลือ 999 cluster , 998 cluster เป็นเช่นนี้ไปเรื่อย ๆ จนเหลือ 1 cluster ซึ่งจะทำให้เสียเวลามาก ดังนั้นโดยทั่วไปถ้ามีจำนวน case มากว่า 200 case จึงไม่นิยมใช้เทคนิค Hierarchical Cluster

ใน Agglomerative Hierarchical Cluster Analysis จะมีวิธีที่เรียกว่า Linkage method ที่เป็นที่รู้จักกันโดยทั่วไปมี 3 วิธีคือ 1.single linkage (หรือเรียกว่า nearest neighbor) 2. complete linkage (หรือ furthest neighbor) 3.average linkage (หรือ average distance) แนวคิดทั้ง 3 วิธีอธิบายด้วยรูปดังนี้

ชนิดของข้อมูลหรือตัวแปรที่สามารถใช้ชนิดของข้อมูลหรือตัวแปรที่สามารถใช้ เทคนิค Hierarchical Cluster ได้ มี 3 ประเภท คือ 1. ข้อมูลเป็นสเกลอันตรภาค (Interval scale) หรือสเกล อัตราส่วน (Ratio scale) 2. ข้อมูลที่อยู่ในรูปความถี่ (Count Data) 3. ข้อมูลอยู่ในรูป Binary นั่นคือ มีได้ 2 ค่า คือ 0 กับ 1 หรือ คุณภาพ

กรณีที่วัดความคล้ายด้วยระยะห่างกรณีที่วัดความคล้ายด้วยระยะห่าง ถ้าระยะห่างระหว่าง Case คู่ใดต่ำ แสดงว่า Case คู่นั้นอยู่ใกล้กัน หรือมีความคล้ายกัน ควรจะจัดให้อยู่ในกลุ่ม หรือ Cluster เดียวกันสำหรับวิธีการคำนวณจะขึ้นอยู่กับชนิดของข้อมูลทั้ง 3 ชนิดข้างต้น (Interval scale , Count Data , Binary )

กรณีที่วัดความคล้ายด้วยของ Case ถ้าค่าความคล้ายของ Case คู่ใดมีค่ามากแสดงว่า Case คู่นั้นคล้ายกันมาก จึงควรจัดให้อยู่ในกลุ่มเดียวกัน การคำนวณค่าความคล้ายจะแตกต่างกัน ถ้าชนิดของข้อมูลแตกต่างกัน

กรณีที่วัดความคล้ายของตัวแปรด้วยค่าสัมประสิทธิ์สหสัมพันธ์กรณีที่วัดความคล้ายของตัวแปรด้วยค่าสัมประสิทธิ์สหสัมพันธ์ ถ้าตัวแปรคู่ใด มีค่าสัมประสิทธิ์สหสัมพันธ์มาก แสดงว่าคู่นั้นสัมพันธ์กันมากควรจัดไว้ในกลุ่มเดียวกัน

หลักเกณฑ์ในการรวมกลุ่มหลักเกณฑ์ในการรวมกลุ่ม 1. Between – groups Linkage หรือเรียกว่าวิธี Average Linkage Between Groups หรือเรียกกว่า UPGMA (Unweightede Pair-Group Method Using Arithmetic Average)

วิธีนี้จะคำนวณหาระยะห่างเฉลี่ยของทุกคู่ของ Case โดยที่ Case หนึ่งอยู่ใน Cluster ที่ i ส่วนอีก Case หนึ่งอยู่ใน Cluster ที่ j ถ้า Cluster ที่ i มีระยะห่างเฉลี่ยจาก Cluster ที่ j สั้นกว่าระยะห่างจาก Cluster อื่นจะนำ Cluster ที่ i และ j รวมกันเป็น Cluster เดียวกัน

2. Within-group Linkage Technique วิธีนี้จะรวม Cluster เข้าด้วยกัน ถ้าระยะห่างเฉลี่ยระหว่างทุก Case ใน Cluster นั้น ๆ มีค่าน้อยที่สุด

3. Nearest Neighbor หรือเรียกว่า Single Linkage • วิธีนี้จะรวม Cluster 2 Cluster เข้าด้วยกันโดยพิจารณาจากระยะห่างที่สั้นที่สุดโดยที่ dik เป็นระยะห่างที่สั้นที่สุดระหว่าง Cluster i และ k ในรูปจะรวม Cluster i และ j เข้าด้วยกันเพราะ dij < dik

4. Furthest Neighbor Technique หรือเรียกว่า Complete Linkage วิธีนี้จะรวม Cluster 2 Cluster เข้าด้วยกันโดยพิจารณาจากระยะห่างที่ยาวที่สุด dik = ระยะห่างที่ยาวที่สุดของ Cluster ที่ i และ k dij = ระยะห่างที่ยาวที่สุดของ Cluste ที่ i และ j ในที่นี้ dij < dik จึงรวม Cluster ที่ i และ j เข้าเป็น Cluster เดียวกัน

5. Centroid Clustering • วิธีการนี้จะคำนวณหาระยะห่างระหว่าง Centroid ของ Cluster ทีละคู่ ในที่นี้จะเรียกค่าเฉลี่ย หรือค่ากลางของแต่ละ Cluster ว่า Centroid ของ Cluster เนื่องจากการจัดกลุ่มCase จะพิจารณาจากตัวแปรหลาย ๆ ตัวพร้อม ๆ กัน จึงเรียกค่ากลางหรือค่าเฉลี่ยว่า Centroid ถ้าระยะห่างระหว่าง Centroid ของ Cluster คู่ใดต่ำจะรวม Cluster คู่นั้นเข้าเป็น Cluster เดียวกัน

6. Median Clustering วิธีนี้จะรวม Cluster 2 Cluster เข้าด้วยกัน โดยให้แต่ละ Cluster สำคัญเท่ากัน (ให้น้ำหนักเท่ากัน) ในขณะที่วิธีของ Centroid Clustering จะให้ความสำคัญแก่ Cluster มีขนาดใหญ่มากกว่า Cluster ที่มีขนาดเล็ก (ให้น้ำหนักไม่เท่ากัน) Median Clustering จะใช้ค่า Median เป็นค่ากลางของ Centroid ถ้าระยะห่าง ระหว่างค่า Median ของ Clustering จะใช้ค่า Median เป็นค่ากลางของ Centroid ถ้าระยะห่าง ระหว่างค่า Median ของ Cluster คู่ใดต่ำจะรวม Cluster คู่นั้นเข้าด้วยกัน

7. Ward’s Method วิธีนี้จะพิจารณาจากค่า Sum of the squared within-cluster distance โดยจะรวม Cluster ที่ทำให้ค่า Sum of square within-cluster distance เพิ่มขึ้นน้อยที่สุด โดยค่า Square within-cluster distance คือค่า Square Euclidean distance ของแต่ละ Case กับ Cluster Mean

8. การพิจารณาเลือกจำนวนกลุ่มที่เหมาะสม • ผลลัพธ์ของเทคนิค Cluster ไม่ได้ให้ค่าสถิติ หรือผลการ ทดสอบสมมติฐานเพื่อให้ตัดสินใจหาจำนวนกลุ่มที่เหมาะสม ต้องพิจารณาความเหมาะสมเอง โดยอาจใช้ระยะห่างหรือความคล้ายโดยใช้ 1) การใช้ Dendogram สำหรับ Dendogram ถ้ากำหนดระยะห่างระหว่างกลุ่ม เป็นหน่วยที่แตกต่างกันไปก็จะได้จำนวน Cluster ที่แตกต่างกันไป คือยิ่งระห่างยิ่งมาก จำนวน Cluster ก็จะเพิ่มขึ้น 2)Multidimension Scaling 3) Discriminant

6.1.2 Divisive Hierarchical Cluster Analysis คือ กลุ่มที่ประกอบด้วยสิ่งของ หรือ item จำนวน n สิ่ง แบ่งออกเป็น 2 กลุ่มชนิดที่สิ่งของในกลุ่มมีระยะทางไกลที่สุด ขั้นต่อไปก็จะมี 3 กลุ่มย่อย ทำเช่นนี้ต่อ ๆ ไป จะเห็นว่าในท้ายที่สุดแล้วจะมี n กลุ่มย่อยซึ่งแต่ละกลุ่มย่อยประกอบด้วยสิ่งของ 1 สิ่ง

9.การวิเคราะห์กลุ่มแบบไม่เป็นขั้นตอน (Nonhierarchical Cluster Analysis หรือบางครั้งเรียกว่า K – Means Cluster Analysis ) • คือ ต้องกำหนดเองว่าจะต้องแบ่งเป็นกี่กลุ่ม เช่น k กลุ่ม จึงเรียกวิธีนี้ว่า K-Means Clustering สรุปได้ดังนี้

ขั้นตอนการจัดกลุ่มดังนี้ขั้นตอนการจัดกลุ่มดังนี้ 1. จัดสิ่งของออกเป็น K กลุ่ม คร่าว ๆ ก่อน 2. หา Centroid (ในที่นี้คือค่าเฉลี่ย) ของแต่ละกลุ่ม เราจะจัดสิ่งของลงในกลุ่มที่อยู่ใกล้ Centroid มากที่สุด ในกรณีที่กลุ่มที่จัดได้ในข้อ 1. ไม่เป็นไปตามนี้ เราต้องกลับไปเริ่มที่ข้อ 1. ใหม่ 3. กลับไปทำข้อ 2.

9.1 หลักการของเทคนิค K-Means Clustering เป็นเทคนิคการจำแนก Case ออกเป็นกลุ่มย่อย จะใช้เมื่อมีจำนวน Case มาก โดยจะต้องกำหนดจำนวนกลุ่ม หรือจำนวน Cluster ที่ต้องการ เช่นกำหนดให้มี k กลุ่ม เทคนิค K-Means จะมีการทำงานหลาย ๆ รอบ (Iteration) โดยในแต่ละรอบจะมีการรวม Cases ให้ไปอยู่ในกลุ่มใดกลุ่มหนึ่ง โดยเลือกกลุ่มที่ Case นั้นมีระยะห่างจากค่ากลางของกลุ่มน้อยที่สุด แล้วคำนวณค่ากลางของกลุ่มใหม่ จะทำเช่นนี้จนกระทั่งค่ากลางของกลุ่มไม่เปลี่ยนแปลง หรือครบจำนวนรอบที่กำหนดไว้

การวิเคราะห์กลุ่ม ( Cluster Analysis )