210 likes | 483 Vues
Analiză Cluster. Gruparea cazurilor sau a variabilelor. Când utilizăm această metoda ?. Avem un set de date şi vrem să ştim cum anume se grupează cazurile sau variabilele
E N D
Analiză Cluster Gruparea cazurilor sau a variabilelor
Când utilizăm această metoda? • Avem un set de date şi vrem să ştim cum anume se grupează cazurile sau variabilele • de ex. vrem sa ştim cum anume se grupează oraşele Romaniei în funcţie de cateva variabile demografice (mortalitate infantilă, natalitate, speranţa de viată la naştere) • de ex. vrem să ştim ce variabile demografice au valori asemănătoare pentru cazurile cu care lucăm
Specificul acestei metode • Dorim să detectăm clasele “NATURALE”în care itemii sau variabilele se plasează nu să creem noi o ordine în structura datelor • Clasele nu sunt date din punct de vedere statistic, precum se întâmplă în alte metode (de ex. analiza discriminantă), ci trebuie descoperite
Tipuri de analiză cluster • Metode non-ierarhice • cea mai cunoscută metoda de acest fel este k-means(metoda celor k-medii): se porneşte de la k valori (de obicei aleatoare) şi în functie de ele se construiesc clusterele • Metode ierarhice • aglomerative: se porneşte de la n clase (câte cazuri avem) şi se ajunge la o clasă care le cuprinde pe toate celălate anterioare ei • divizive: se porneşte de la o clasă şi se ajunge la n clase (câte cazuri avem) cuprinse în clasa de pornire
2. Selectarea perechii de itemi care este cea mai apropiată şi unirea lor într-o clasă 1. Calcularea distanţelor între itemi 4 (2 din nou). Selectarea perechii de itemi care este cea mai apropiată şi unirea lor într-o clasă 3. Recalcularea distantelor faţă de celelte clase, itemi Algoritm ierarhic aglomerativ
Algoritm ierarhic aglomerativ • 1. Calcularea distanţelor între itemi • 2. Selectarea perechii de itemi care este cea mai apropiată şi unirea acelei perechii într-o clasă • 3. Recalcularea distantelor faţă de celelte clase, itemi • 4. Se reia punctul (2.) până când se obţine o singură clasă (cluster)
Distanţa Euclidiană X X X1 Y Y Y2 Y2 X1 X1 Y2 Distanţa Manhatan Y2 X1 Calcularea distantelorpartea I • Calcularea distanţelor între itemi se poate face în mai multe moduri: • Euclidienă ( (xi-yi)2)1/2 • Manhatan lxi-yil • Chebyshev maxi lxi-yil • Minkovsky ( lxi-yilp)1/p • Putere ( lxi-yilp)1/r
cazul 2 variabila 2 var 2 var 1 cazul 1 variabila 1 Sau putem reprezenta variabi-lele ca vectori în spaţiul trasat de cazuri ca şi coordonate Putem reprezenta cazurile ca puncte în spaţiul trasat de variabile ca şi coordonate Calcularea distantelor partea II • Când calculăm distanţe între variabile folosim în general: • Corelaţia Pearson • Corelaţia între vectori Nota: aceste distanţe se pot folosi si pentru gruparea cazurilor
(ai - bi)2 Calcularea distantelor Matricea de disimilaritate partea IV • Matricea de disimilaritate este matricea distanţelor între cazuri (variabile). Este o matrice simetrică • Pentru ex.de mai sus, distanţa euclidiană între cazul 1 şi 2 este calculată astfel: Distanta2 (1,2) = 644.6521 + 45.2929 + 23.8144 + 25.5025 + 38.5641 + 1156 + 525.3264 + 0.0841 = 2459.237 Distanta(1,2) = 49.59069
Nearest neighbor sau Single linkage: 3 3 1 1 1 1 2 2 d31 2 2 • Furtest neighbor sau Complete linkage: d12 Calcularea distanţelor faţă de un cluster partea I • După unirea a doi itemi apropiaţi şi formarea unui cluster nou se pune problema recalculării distanţelor dintre noul cluster şi ceilalţi clusteri (itemi). În acest sens avem mai multe metode:
Average linkage between groups (d11+ d12+ d21+ d22+ d31+ d32)/6 • Average linkage whithin groups 2 2 1 1 1 1 2 2 3 3 (d11+ d12+ d21+ d22+ d31+ d32 + d`12+ d`13+ d`32 +d``12)/10 • Centroid 2 1 1 dm1m2, unde m1, m2 sunt mediile clusterilor 2 m1 3 m2 Calcularea distanţelor faţă de un cluster partea II
Calcularea distanţelor faţă de un cluster partea III • Ward’s Method • urmăreşte minimizareaPIERDERII DE INFORMAŢIE: suma pătratelor abaterilor fiecărui item din cluster de la media,eroarea sumei pătratelor • ESPtotal= ESP1+ ESP2+ … + ESPk,1...k clusteri • la fiecare pas este luat în considerare fiecare pereche care ar putea fi unită într+un cluster, iar perechea care conduce la cele mai mici pierderi de informaţie este unificată
Gruparea cazurilor: dendograma • Grafic 1. Exporturile ţărilor CEFTA în CU (dendogramă) 1996-1998 • Distanţe rescalate de unire a clusterilor • 0 5 10 15 20 25 • +òòòòòòòòò+òòòòòòòòò+òòòòòòòòò+òòòòòòòòò+òòòòòòòòò+ • România òø • Slovenia òôòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø • Slovacia ò÷ó • Cehia òûòøó • Ungaria ò÷ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ • Polonia òòò÷ • Sursă: calculele autorului pe baza informaţilor disponibile la www.cfta.org. • Date: valoarea în mii de dolari a exportaturilor fiecărei ţări CEFTA în CU. • Metoda: analiză ierarhică cluster, metoda Ward, distanţe euclidiene pătrate. • Interpretare: distanţele la care se unesc două ţări sau grupuri de ţări indică similitudinea lor. • Soft utilizat: SPSS Inc, 2000.
Recalcularea distanţei între noul cluster format şi ceilalţi itemi se face prin metoda single linkage • d(35)1= min (d31, d51) = min (3, 11) = 3 • d(35)2= min (d32, d52) = min (7, 10) = 7 • d(35)4= min (d34, d54) = min (9, 8) = 8 Cea mai mică distanţă este între perechea (35) şi 1 • Distanţa între clusterul (351) şi ceilalţi itemi • d(351)2= min (d (35)2, d 12) = min (7, 9) = 7 • d(351)4= min (d (35)4, d 14) = min (8, 6) = 6 Cea mai mică distanţă este între perechea 2 şi 4 Un exemplu • Pornim de la o matrice de similaritate. Cea mai mică distanţă este între perechea 3 şi 5
6 5 4 3 2 1 0 Un exemplu continuare • Distanţa între clusterul (351) şi clusterul (24) • d(351)(24)= min (d (351)2, d (351)4 ) = min (7, 6) = 6 Dendograma arată programul de aglomerare a clusterilor: valoarea la care s-au unit clasele
6 5 4 3 2 1 Distanţa la care s-au unit clusterele 0 Câţi clusteri să păstrăm? • Nu există un criteriu statistic puternic, precum ar fi testele de semnificaţie, care sa ne indice cu o anumită probabilitate care este structura datelor. Totuşi pentru a decide câţi clusteri să pastrăm putem sa folosim următoarele strategii: • raţiuni teoretice • utilizarea şi a metodelor non-ierarhice • analize de varianţă • graficul aglomrarilor
Algoritm non-ierarhic • 1. Partiţionarea itemilor în k clase iniţiale • 2. Unifică itemul cu clusterul a cărui centroid (medie) este cel mai aproape • 3. Recalculează centroidul • atât pentru clusterul care a înglobat itemul • cât si pentru clusterul care l-a pierdut • 4. Reia pasul 2 şi 3 până nu mai au loc modificări