SPSS Tutorial

1. SPSS Tutorial �ngel M. Ramos Dom�nguez Curso de Doctorado An�lisis Conjunto

2. An�lisis Cluster Gu�a An�lisis Cluster Ejemplo de an�lisis cluster Trabajo sobre asignaci�n

3. An�lisis Cluster Es una clase de t�cnicas utilizadas para clasificar casos en grupos que son relativamente homog�neos dentro de si mismos y heterog�neos entre ellos, sobre la base de un conjunto definido de variables. Estos grupos se llaman Clusters o Conglomerados.

4. An�lisis Cluster e Investigaci�n de mercados Segmentaci�n de Mercados. Agrupamiento de consumidores de acuerdo a sus preferencias de atributos Comprender el comportamiento de los compradores. Los consumidores con similares comportamientos/caracter�sticas son agrupados juntos. Identificar oportunidades de nuevos productos. Los clusters de similares marcas/productos pueden ayudar a identificar competidores/oportunidades de mercado Reducci�n de los datos. En mapas de preferencias

5. Etapas de un An�lisis cluster Seleccionar una medida de distancia Seleccionar un algoritmo de agrupamiento Determinar el n�mero de clusters Validar el an�lisis

7. Definici�n de la distancia: La distancia Eucl�dea Dij distancia entre los casos i y j xki valor de la variable Xk para el caso j Problemas: Diferentes medidas = diferentes ponderaciones Correlaci�n entre variables (redundancia) Soluci�n: An�lisis de componentes principales

8. Procedimientos de Clustering Procedimientos jerarquicos Aglomerativo (comienza desde n clusters, hasta llegar a obtener 1 cluster) Divisivo (comienza desde 1 cluster, hasta obtener n cluster) Procedimientos no jerarquicos Cluster de K-medias

9. Agrupamiento aglomerativo

10. Agrupamiento aglomerativo M�todos de enlace Enlace simple (distancia m�nima) Enlace Completo (distancia m�xima) Enlace promedio M�todo de Ward Calcular la suma de las distancias al cuadrado dentro de los clusters Agregar clusters con incremento m�nimo en la suma de cuadrados total M�todo del centroide La distancia entre dos clusters se define como la distancia entre los centroides (medias de los cluster)

11. Cluster de K-medias El n�mero k de clusters es fijo Se proporciona un conjunto inicial de k �semillas� (centros de agregaci�n) K primeros elementos Otras semillas Dado un cierto umbral, todas unidades son asignadas a la m�s cercana semilla del grupo Se calculan nuevas semillas Volver a la etapa 3 hasta que no sea necesaria una reclasificaci�n Las unidades pueden ser reasingnadas en etapas sucesivas (partici�n �ptima)

12. M�todos jerarquicos vs no jerarquicos Agrupamiento jerarquico No hay decisi�n acerca del n�mero de clusters Existen problemas cuando los datos contienen un alto nivel de error Puede ser muy lento La decisi�n inicial influye mucho (una etapa �nica)

13. M�todo sugerido Primero ejecutar un m�todo jer�rquico para definir el n�mero de clusters Luego utilizar el procedimiento k-medias para formar los clusters

14. Definici�n del n�mero de clusters: regla del codazo (1)

15. Regla del codazo (2): El diagram scree

16. Validaci�n del an�lisis Impacto de las semillas iniciales / orden de los casos Impacto del m�todo seleccionado Considerar la relevancia del conjunto de variables elegido

17. SPSS Example

21. Open the dataset supermarkets.sav From your N: directory (if you saved it there last time Or download it from: http://www.rdg.ac.uk/~aes02mm/supermarket.sav http://www.rdg.ac.uk/~aes02mm/supermarket.sav Open it in SPSS

22. The supermarkets.sav dataset

23. Run Principal Components Analysis and save scores Select the variables to perform the analysis Set the rule to extract principal components Give instruction to save the principal components as new variables

24. Cluster analysis: basic steps Apply Ward�s methods on the principal components score Check the agglomeration schedule Decide the number of clusters Apply the k-means method

25. Analyse / Classify

26. Select the component scores

27. Select Ward�s algorithm

28. Output: Agglomeration schedule

29. Number of clusters

30. The scree diagram (Excel needed)

31. Number of clusters Number of cases 150 Step of �elbow� 144 __________________________________ Number of clusters 6

32. Now repeat the analysis Choose the k-means technique Set 6 as the number of clusters Save cluster number for each case Run the analysis

33. K-means

34. K-means dialog box

35. Save cluster membership

36. Final output

37. Cluster membership

38. Component meaning(tutorial week 5)

40. Cluster interpretation through mean component values Cluster 1 is very far from profile 1 (-1.34) and more similar to profile 2 (0.38) Cluster 2 is very far from profile 5 (-0.93) and not particularly similar to any profile Cluster 3 is extremely similar to profiles 3 and 5 and very far from profile 2 Cluster 4 is similar to profiles 2 and 4 Cluster 5 is very similar to profile 3 and very far from profile 4 Cluster 6 is very similar to profile 5 and very far from profile 3

41. Which cluster to target? Objective: target the organic consumer Which is the cluster that looks more �organic�? Compute the descriptive statistics on the original variables for that cluster

42. Representation of factors 1 and 4(and cluster membership)

SPSS Tutorial

SPSS Tutorial

Presentation Transcript

SPSS

SPSS Tutorial 2

SPSS

SPSS Tutorial

SPSS

SPSS Tutorial

SPSS

SPSS

SPSS

SPSS

SPSS

SPSS

SPSS

SPSS

SPSS

SPSS

spss