1 / 92

Fundamentos de Minería de Datos

Fundamentos de Minería de Datos. Clustering. Fernando Berzal fberzal@decsai.ugr.es http://elvex.ugr.es/idbis/dm/. Clustering. “Sinónimos” según el contexto… Clustering (IA) Aprendizaje no supervisado (IA) Clasificación (Estadística) Ordenación (Psicología) Segmentación (Marketing).

Télécharger la présentation

Fundamentos de Minería de Datos

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Fundamentos de Minería de Datos Clustering Fernando Berzalfberzal@decsai.ugr.eshttp://elvex.ugr.es/idbis/dm/

  2. Clustering “Sinónimos” según el contexto… • Clustering (IA) • Aprendizaje no supervisado (IA) • Clasificación (Estadística) • Ordenación (Psicología) • Segmentación (Marketing) • Introducción • Similitud • Métodos • K-Means • Jerárquicos • Densidad • Otros • Subspace clustering • Validación • Bibliografía

  3. Clustering • Objetivo Agrupar objetos similares entre sí que sean distintos a los objetos de otros agrupamientos [clusters]. • Aprendizaje no supervisadoNo existen clases predefinidas • Los resultados obtenidos dependerán de: • El algoritmo de agrupamiento seleccionado. • El conjunto de datos disponible • La medida de similitud utilizada para comparar objetos. • Introducción • Similitud • Métodos • K-Means • Jerárquicos • Densidad • Otros • Subspace clustering • Validación • Bibliografía

  4. Maximizar distanciainter-cluster Minimizar distanciaintra-cluster Clustering Encontrar agrupamientos de tal forma que los objetos de un grupo sean similares entre sí y diferentes de los objetos de otros grupos:

  5. Clustering Aplicaciones • Reconocimiento de formas. • Mapas temáticos (GIS) • Marketing: Segmentación de clientes • Clasificación de documentos • Análisis de web logs (patrones de acceso similares) • … Aplicaciones típicas en Data Mining: • Exploración de datos (segmentación & outliers) • Preprocesamiento (p.ej. reducción de datos)

  6. Clustering ¿Cuál es la forma natural de agrupar los personajes? Hombres vs. Mujeres

  7. Clustering ¿Cuál es la forma natural de agrupar los personajes? Simpsons vs. Empleados de la escuela de Springfield

  8. Clustering ¿Cuál es la forma natural de agrupar los personajes? ¡¡¡ El clustering es subjetivo !!!

  9. Medidas de similitud Peter Pedro 342.7 0.23 3

  10. Medidas de similitud Usualmente, se expresan en términos de distancias: d(i,j) > d(i,k) nos indica que el objeto i es más parecido a k que a j La definición de la métrica de similitud/distanciaserá distinta en función del tipo de dato yde la interpretación semántica que nosotros hagamos. En otras palabras, la similitud entre objetos es subjetiva.

  11. ¿Cuántos agrupamientos? ¿Seis? ¿Dos? ¿Cuatro? Medidas de similitud

  12. Medidas de similitud Atributos continuos Usualmente, se “estandarizan” a priori: • Desviación absoluta media: • z-score (medida estandarizada):

  13. Medidas de similitud Métricas de distancia Distancia de Minkowski • Distancia de Manhattan (r=1) / city block / taxicab • Distancia euclídea (r=2): • Distancia de Chebyshev (r) / dominio / chessboard

  14. Medidas de similitud Métricas de distancia Distancia de Minkowski • Distancia de Manhattan = 12 • Distancia Euclídea  8.5 • Distancia de Chebyshev = 6

  15. Medidas de similitud Métricas de distancia Distancia de Minkowski d(i,j) 0 • Propiedad reflexiva d(i,i)= 0 • Propiedad simétrica d(i,j)= d(j,i) • Desigualdad triangular d(i,j) d(i,k)+d(k,j)

  16. Medidas de similitud Métricas de distancia Distancia de Chebyshev • También conocidacomo distancia detablero de ajedrez(chessboard distance):Número demovimientosque el rey ha de hacerpara llegar de unacasilla a otra en untablero de ajedrez.

  17. Medidas de similitud Métricas de distancia Distancia de Mahalanobis • Considera lascorrelacionesentre variables. • No depende de laescala de medida.

  18. Medidas de similitud Métricas de distancia Distancia de edición = Distancia de Levenshtein Número de operaciones necesariopara transformar una cadena en otra. d(“data mining”, “data minino”) = 1 d(“efecto”, “defecto”) = 1 d(“poda”, “boda”) = 1 d(“night”,”natch”) = d(“natch”,”noche”) = 3 Aplicaciones: Correctores ortográficos, reconocimiento de voz, detección de plagios, análisis de ADN… Para datos binarios: Distancia de Hamming

  19. i j i j 4 Medidas de similitud Métricas de distancia Vecinos compartidos • “Mutual Neighbor Distance” donde NN(xi,xj) es el número de vecinode xj con respecto a xi

  20. Medidas de similitud Medidas de correlación Producto escalar • “Cosine similarity” • Coeficiente de Tanimoto

  21. Medidas de similitud Modelos basados en Teoría de Conjuntos Modelo de Tversky • Modelo de Restle • Intersección

  22. Medidas de similitud Modelos basados en Teoría de Conjuntos Modelo proporcional • Modelo de Gregson = Coeficiente de Jaccard • Distancia de Tanimoto

  23. Métodos de agrupamiento Requisitos del algoritmo “perfecto” • Escalabilidad • Manejo de distintos tipos de datos • Identificación de clusters con formas arbitrarias • Número mínimo de parámetros • Tolerancia frente a ruido y outliers • Independencia con respecto al orden de presentación de los patrones de entrenamiento • Posibilidad de trabajar en espacios con muchas dimensiones diferentes • Capacidad de incorporar restricciones especificadas por el usuario (“domain knowledge”) • Interpretabilidad / Usabilidad

  24. Métodos de agrupamiento Tipos de algoritmos de clustering • Agrupamiento por particiones k-Means, CLARANS • Clustering jerárquico BIRCH, ROCK, CHAMELEON • Métodos basados en densidad DBSCAN • …

  25. Datos agrupados Métodos de agrupamiento Clustering por particiones Datos originales

  26. Métodos de agrupamiento Clustering jerárquico Tradicional DENDOGRAMA No tradicional

  27. Métodos de agrupamiento Métodos basados en densidad • Un cluster en una región densa de puntos, separada por regiones poco densas de otras regiones densas. • Útiles cuando los clusters tienen formas irregulares, están entrelazados o hay ruido/outliers en los datos.

  28. k-Means Algoritmo de agrupamiento por particiones(MacQueen, 1967) • Número de clusters conocido (k) • Cada cluster tiene asociado un centroide (centro geométrico del cluster). • Los puntos se asignan al cluster cuyo centroide esté más cerca (utilizando cualquier métrica de distancia). • Iterativamente, se van actualizando los centroides en función de las asignaciones de puntos a clusters, hasta que los centroides dejen de cambiar. • Complejidad O(n*k*I*d)donde n es el número de datos, k el número de clusters,I el número de iteraciones y d el número de atributos

  29. k-Means

  30. k-Means

  31. k-Means

  32. k-Means

  33. Solución óptima Óptimo local k-Means Puntos originales

  34. k-Means Ejercicio Agrupar los 8 puntos de lafigura en 3 clusters usandoel algoritmo de las K medias. Centroides iniciales:A1, A7 y A8 Métricas de distancia: • Distancia euclídea • Distancia de Manhattan • Distancia de Chebyshev

  35. k-Means Ejercicio resuelto Distancia euclídea

  36. k-Means Ejercicio resuelto Distancia euclídea Primera iteración Segunda iteración

  37. k-Means Ejercicio resuelto Distancia euclídea Tercera iteración Configuración final

  38. k-Means DEMO: K-Means http://www.elet.polimi.it/upload/matteucc/Clustering/tutorial_html/AppletKM.html

  39. k-Means Ventaja • EficienciaO(n·k·I·d) vs. PAM O(I·k(n-k)2) CLARA O(ks2+k(n-k)) Desventajas • Termina en un óptimo local: El resultado depende de la selección inicial de centroides. • Necesidad de conocer el número de agrupamientos k • Incapacidad para detectar ruido / identificar outliers. • No resulta adecuado para detectar clusters no convexos • Si tenemos datos de tipo categórico, ¿cómo calculamos la media?

  40. k-Means Clusters dedistinto tamaño Clusters dedistinta densidad Clustersno convexos

  41. k-Means Variantes • GRASP [Greedy Randomized Adaptive Search Procedure] para evitar óptimos locales. • k-Modes (Huang’1998) utiliza modas en vez de medias (para poder trabajar con atributos de tipo categórico). • k-Medoids utiliza medianas en vez de medias para limitar la influencia de los outliers vg. PAM (Partitioning Around Medoids, 1987) CLARA (Clustering LARge Applications, 1990) CLARANS (CLARA + Randomized Search, 1994)

  42. k-Means DEMO: Fuzzy C-Means http://www.elet.polimi.it/upload/matteucc/Clustering/tutorial_html/AppletFCM.html

  43. Clustering jerárquico DENDROGRAMA: La similitud entre dos objetos viene dada por la “altura” del nodo común más cercano.

  44. Clustering jerárquico El DENDROGRAMA nos puede ayudar a determinar el número adecuado de agrupamientos (aunque normalmente no será tan fácil).

  45. Clustering jerárquico El DENDROGRAMAtambién nos puede servir para detectar outliers. Outlier

  46. 0 1 2 3 4 aglomerativo (AGNES)AGglomerative NESting a a b b a b c d e c c d e d d e e divisivo (DIANA)Divisive ANAlysis 3 2 1 0 4 Clustering jerárquico En lugar de establecer de antemano el número de clusters, tenemos que definir un criterio de parada

  47. Clustering jerárquico ¿Cómo medir la distancia entre clusters? • MINsingle-link • MAXcompletelinkage(diameter)

  48.  Clustering jerárquico ¿Cómo medir la distancia entre clusters? • Promedio • Centroidesp.ej. BIRCH

  49. Clustering jerárquico Ejercicio Utilizar un algoritmo aglomerativo de clustering jerárquico para agrupar los datos descritos por la siguiente matriz de distancias: Variantes: • Single-link (mínima distancia entre agrupamientos) • Complete-link (máxima distancia entre agrupamientos)

  50. Clustering jerárquico Ejercicio resuelto Single-link Complete-link

More Related