1 / 18

Analiză Cluster

Analiză Cluster. Gruparea cazurilor sau a variabilelor. Când utilizăm această metoda ?. Avem un set de date şi vrem să ştim cum anume se grupează cazurile sau variabilele

tayten
Télécharger la présentation

Analiză Cluster

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Analiză Cluster Gruparea cazurilor sau a variabilelor

  2. Când utilizăm această metoda? • Avem un set de date şi vrem să ştim cum anume se grupează cazurile sau variabilele • de ex. vrem sa ştim cum anume se grupează oraşele Romaniei în funcţie de cateva variabile demografice (mortalitate infantilă, natalitate, speranţa de viată la naştere) • de ex. vrem să ştim ce variabile demografice au valori asemănătoare pentru cazurile cu care lucăm

  3. Specificul acestei metode • Dorim să detectăm clasele “NATURALE”în care itemii sau variabilele se plasează nu să creem noi o ordine în structura datelor • Clasele nu sunt date din punct de vedere statistic, precum se întâmplă în alte metode (de ex. analiza discriminantă), ci trebuie descoperite

  4. Tipuri de analiză cluster • Metode non-ierarhice • cea mai cunoscută metoda de acest fel este k-means(metoda celor k-medii): se porneşte de la k valori (de obicei aleatoare) şi în functie de ele se construiesc clusterele • Metode ierarhice • aglomerative: se porneşte de la n clase (câte cazuri avem) şi se ajunge la o clasă care le cuprinde pe toate celălate anterioare ei • divizive: se porneşte de la o clasă şi se ajunge la n clase (câte cazuri avem) cuprinse în clasa de pornire

  5. 2. Selectarea perechii de itemi care este cea mai apropiată şi unirea lor într-o clasă 1. Calcularea distanţelor între itemi 4 (2 din nou). Selectarea perechii de itemi care este cea mai apropiată şi unirea lor într-o clasă 3. Recalcularea distantelor faţă de celelte clase, itemi Algoritm ierarhic aglomerativ

  6. Algoritm ierarhic aglomerativ • 1. Calcularea distanţelor între itemi • 2. Selectarea perechii de itemi care este cea mai apropiată şi unirea acelei perechii într-o clasă • 3. Recalcularea distantelor faţă de celelte clase, itemi • 4. Se reia punctul (2.) până când se obţine o singură clasă (cluster)

  7. Distanţa Euclidiană X X X1 Y Y Y2 Y2 X1 X1 Y2 Distanţa Manhatan Y2 X1 Calcularea distantelorpartea I • Calcularea distanţelor între itemi se poate face în mai multe moduri: • Euclidienă ( (xi-yi)2)1/2 • Manhatan  lxi-yil • Chebyshev maxi lxi-yil • Minkovsky ( lxi-yilp)1/p • Putere ( lxi-yilp)1/r

  8. cazul 2 variabila 2 var 2 var 1 cazul 1 variabila 1 Sau putem reprezenta variabi-lele ca vectori în spaţiul trasat de cazuri ca şi coordonate Putem reprezenta cazurile ca puncte în spaţiul trasat de variabile ca şi coordonate Calcularea distantelor partea II • Când calculăm distanţe între variabile folosim în general: • Corelaţia Pearson • Corelaţia între vectori Nota: aceste distanţe se pot folosi si pentru gruparea cazurilor

  9. Calcularea distantelor un exemplupartea III

  10. (ai - bi)2 Calcularea distantelor Matricea de disimilaritate partea IV • Matricea de disimilaritate este matricea distanţelor între cazuri (variabile). Este o matrice simetrică • Pentru ex.de mai sus, distanţa euclidiană între cazul 1 şi 2 este calculată astfel: Distanta2 (1,2) = 644.6521 + 45.2929 + 23.8144 + 25.5025 + 38.5641 + 1156 + 525.3264 + 0.0841 = 2459.237 Distanta(1,2) = 49.59069

  11. Nearest neighbor sau Single linkage: 3 3 1 1 1 1 2 2 d31 2 2 • Furtest neighbor sau Complete linkage: d12 Calcularea distanţelor faţă de un cluster partea I • După unirea a doi itemi apropiaţi şi formarea unui cluster nou se pune problema recalculării distanţelor dintre noul cluster şi ceilalţi clusteri (itemi). În acest sens avem mai multe metode:

  12. Average linkage between groups (d11+ d12+ d21+ d22+ d31+ d32)/6 • Average linkage whithin groups 2 2 1 1 1 1 2 2 3 3 (d11+ d12+ d21+ d22+ d31+ d32 + d`12+ d`13+ d`32 +d``12)/10 • Centroid 2 1 1 dm1m2, unde m1, m2 sunt mediile clusterilor 2 m1 3 m2 Calcularea distanţelor faţă de un cluster partea II

  13. Calcularea distanţelor faţă de un cluster partea III • Ward’s Method • urmăreşte minimizareaPIERDERII DE INFORMAŢIE: suma pătratelor abaterilor fiecărui item din cluster de la media,eroarea sumei pătratelor • ESPtotal= ESP1+ ESP2+ … + ESPk,1...k clusteri • la fiecare pas este luat în considerare fiecare pereche care ar putea fi unită într+un cluster, iar perechea care conduce la cele mai mici pierderi de informaţie este unificată

  14. Gruparea cazurilor: dendograma • Grafic 1. Exporturile ţărilor CEFTA în CU (dendogramă) 1996-1998 • Distanţe rescalate de unire a clusterilor • 0 5 10 15 20 25 • +òòòòòòòòò+òòòòòòòòò+òòòòòòòòò+òòòòòòòòò+òòòòòòòòò+ • România òø • Slovenia òôòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø • Slovacia ò÷ó • Cehia òûòøó • Ungaria ò÷ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ • Polonia òòò÷ • Sursă: calculele autorului pe baza informaţilor disponibile la www.cfta.org. • Date: valoarea în mii de dolari a exportaturilor fiecărei ţări CEFTA în CU. • Metoda: analiză ierarhică cluster, metoda Ward, distanţe euclidiene pătrate. • Interpretare: distanţele la care se unesc două ţări sau grupuri de ţări indică similitudinea lor. • Soft utilizat: SPSS Inc, 2000.

  15. Recalcularea distanţei între noul cluster format şi ceilalţi itemi se face prin metoda single linkage • d(35)1= min (d31, d51) = min (3, 11) = 3 • d(35)2= min (d32, d52) = min (7, 10) = 7 • d(35)4= min (d34, d54) = min (9, 8) = 8 Cea mai mică distanţă este între perechea (35) şi 1 • Distanţa între clusterul (351) şi ceilalţi itemi • d(351)2= min (d (35)2, d 12) = min (7, 9) = 7 • d(351)4= min (d (35)4, d 14) = min (8, 6) = 6 Cea mai mică distanţă este între perechea 2 şi 4 Un exemplu • Pornim de la o matrice de similaritate. Cea mai mică distanţă este între perechea 3 şi 5

  16. 6 5 4 3 2 1 0 Un exemplu continuare • Distanţa între clusterul (351) şi clusterul (24) • d(351)(24)= min (d (351)2, d (351)4 ) = min (7, 6) = 6 Dendograma arată programul de aglomerare a clusterilor: valoarea la care s-au unit clasele

  17. 6 5 4 3 2 1 Distanţa la care s-au unit clusterele 0 Câţi clusteri să păstrăm? • Nu există un criteriu statistic puternic, precum ar fi testele de semnificaţie, care sa ne indice cu o anumită probabilitate care este structura datelor. Totuşi pentru a decide câţi clusteri să pastrăm putem sa folosim următoarele strategii: • raţiuni teoretice • utilizarea şi a metodelor non-ierarhice • analize de varianţă • graficul aglomrarilor

  18. Algoritm non-ierarhic • 1. Partiţionarea itemilor în k clase iniţiale • 2. Unifică itemul cu clusterul a cărui centroid (medie) este cel mai aproape • 3. Recalculează centroidul • atât pentru clusterul care a înglobat itemul • cât si pentru clusterul care l-a pierdut • 4. Reia pasul 2 şi 3 până nu mai au loc modificări

More Related