1 / 43

Análisis de conglomerados (Cluster analysis)

Análisis de conglomerados (Cluster analysis). Métodos de partición Dividir los datos en grupos disjuntos Métodos jerárquicos Construir una jerarquía de los datos y deducir de alli los grupos. K medias. Criterios. Mismo criterio con vectores. Justificación del criterio.

dafydd
Télécharger la présentation

Análisis de conglomerados (Cluster analysis)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Análisis de conglomerados(Cluster analysis)

  2. Métodos de partición Dividir los datos en grupos disjuntos • Métodos jerárquicos Construir una jerarquía de los datos y deducir de alli los grupos

  3. K medias

  4. Criterios

  5. Mismo criterio con vectores

  6. Justificación del criterio • La justificación es el análisis de la varianza. Para una variable escalar esto es la descomposición: VT=VNE+VE Y para vectores Minimizar la variabilidad internar es maximizar las diferencias entre grupos.

  7. Algoritmo de K medias

  8. Numero de grupos

  9. Problemas de estandarización

  10. Ejemplo Ruspini

  11. Problemas de k-medias • Muy sensible a datos atípicos (k-medias recortadas) • Distancias euclídeas. Mal para cluster esféricos • No determinar el número de grupos que debe obtenerse por algúna medida de ajuste.

  12. Algoritmos jerárquicos

  13. Aglomerativos

  14. vecino más proximo

  15. Vecino más alejado

  16. media

  17. centroide

  18. Método de Ward

  19. Dendogramas

  20. Ejemplo

  21. Problemas cluster jerárquico • Con muchos datos lento, cada vez n(n-1)/2 comparaciones. • Distancias euclideas pueden no ser apropiadas • Con muchos datos dificil de interpretar el dendograma

  22. Un nuevo enfoque para cluster (The SAR procedure, Peña and Tiao, 2003) Buscar para cada dato su discriminante. Definido por el punto que maximiza This is equivalent to And for large samples

  23. We can split the sample in this way and compute Some global statistic at each step as the SCDG To see if more splitting is needed

  24. Conglomerados por variables Distancias entre variables cuantitativas

  25. Distancias entre variables cuantitativas (2)

  26. Distancias entre variables cualitativas

  27. Similaridad entre atributos cualitativos

More Related