1 / 52

Árboles de decisión

Árboles de decisión. Tema 9 Parte teórica. Árboles de decisión. Conjunto de reglas representadas en forma de una estructura de árbol. Árboles de decisión. Son muy útiles cuando hay más de una manera para convertirse en miembro de una clase meta

nerina
Télécharger la présentation

Árboles de decisión

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Árboles de decisión Tema 9 Parte teórica Minería de datos Dr. Francisco J. Mata

  2. Árboles de decisión • Conjunto de reglas representadas en forma de una estructura de árbol Minería de datos Dr. Francisco J. Mata

  3. Árboles de decisión • Son muy útiles cuando hay más de una manera para convertirse en miembro de una clase meta • Modelo para encontrar tarjeta habientes rentables puede identificar tres tipos de clientes: • Tarjeta habientes que mantienen saldos altos • Tarjeta habientes que compran mucho • Tarjeta habientes que ocasionalmente hacen compras grandes y pagan sus balances a tiempo • Cada uno de estos representa un paso diferente a través del árbol. Minería de datos Dr. Francisco J. Mata

  4. El paso a través del árbol de decisión explica la clasificación Árboles de decisión Envía hijos a escuela pública Minería de datos Dr. Francisco J. Mata

  5. Árboles de decisión • Cada hoja contiene información sobre el número de observaciones que caen en ella y la proporción para cada clase • La clase más densa se selecciona como la clasificación para el nodo Minería de datos Dr. Francisco J. Mata

  6. Árboles de decisión • Se utilizan para • Asignar “scores” a los datos • Explorar datos • Hacer clasificaciones y predicciones • Comprender que variables son más importantes Minería de datos Dr. Francisco J. Mata

  7. Árboles de decisión y “scoring” • Se puede asignar un “score” a los datos de acuerdo a la hoja a la que fueron clasificados Minería de datos Dr. Francisco J. Mata

  8. Árboles de decisión y “scoring” Minería de datos Dr. Francisco J. Mata

  9. Árboles de decisión y “scoring” • Problemas • Usualmente hay muy pocas hojas por lo que hay pocos valores de “scoring” Minería de datos Dr. Francisco J. Mata

  10. Árboles de decisión y exploración • Árboles de decisión son útiles para explorar un conjunto de datos y entender cómo ciertas variables (“input”) inciden sobre otra (“target”) Minería de datos Dr. Francisco J. Mata

  11. Árboles de decisión y exploración Penetración de un producto en ciudades Ciudades producto no está bien Ciudades producto está bien Minería de datos Dr. Francisco J. Mata

  12. Árboles de decisión y clasificaciones/predicciones • Aplicación más común Minería de datos Dr. Francisco J. Mata

  13. Árboles de decisión y clasificaciones/predicciones Predecir clientes que pondrían órdenes si se les envía catálogo de Navidad, basado en aquellos que pusieron órdenes el año pasado Minería de datos Dr. Francisco J. Mata

  14. Árboles de decisión y variables más importantes • Ayuda a eliminar variables para otros modelos, por ejemplo regresión Minería de datos Dr. Francisco J. Mata

  15. Árboles de decisión y variables más importantes Minería de datos Dr. Francisco J. Mata

  16. Proceso para crear un árbol de decisión • Se utiliza un conjunto de datos de entrenamiento (“training”) para crear el árbol • Se utiliza un conjunto de datos de validación para reducir la complejidad del árbol y generalizarlo (proceso de poda o “pruning”) • Eliminar el problema del “overfitting” Minería de datos Dr. Francisco J. Mata

  17. Proceso para crear un árbol de decisión • Tres conjuntos de datos obtenidos de particionar el conjunto de datos original • Entrenamiento: 40% • Validación: 30% • Prueba: 30% Minería de datos Dr. Francisco J. Mata

  18. Algoritmos más comunes para árboles de decisión • CART (“classification and regression trees”) • C4.5 • CHAID (“chi square automatic induction”) • Varían en • Medida de pureza utilizada para los grupos • Forma de poda Minería de datos Dr. Francisco J. Mata

  19. Creación de árboles de decisión • Proceso recursivo • Se inicia con todos los datos del conjunto de adiestramiento en la raíz • Para cada variable “input” se decide la mejor forma para separar los valores de la variable “target” • Se selecciona la variable “input” y criterio de mejor separación mediante ésta para los valores de la variable “target” • Se divide el nodo en cuestión en dos o más hijos de acuerdo con aquella variable que “mejor divide” la variable “target” • Se repite proceso con los otros nodos hasta que no sea posible más divisiones Minería de datos Dr. Francisco J. Mata

  20. Divisiones Minería de datos Dr. Francisco J. Mata

  21. Divisiones • Medida para evaluar la calidad de una división en un árbol de decisión se denomina pureza Minería de datos Dr. Francisco J. Mata

  22. Medidas de pureza • Depende de la variable “target” no de las variables “input” • Variable “target” categórica • Gini (diversidad de población) • Entropía (ganancia de información) • Radio de ganancia de información • Prueba chi cuadrado • Variable “target” intervalo o radio • Reducción en varianza • Prueba F Minería de datos Dr. Francisco J. Mata

  23. Pureza • Índice de Gini • Utilizado en las ciencias sociales y la economía • Probabilidad de que dos cosas escogidas al azar de una población sean la misma • Una población pura tiene un índice de Gini de 1 • Si hay dos grupos igualmente representados en una población el índice de Gini es 0.5 • El índice de Gini es la suma de los cuadrados de las proporciones de las poblaciones • p12+ p22 • El objetivo es maximizar el índice de Gini Minería de datos Dr. Francisco J. Mata

  24. Gini Minería de datos Dr. Francisco J. Mata

  25. Gini Minería de datos Dr. Francisco J. Mata

  26. Gini Minería de datos Dr. Francisco J. Mata

  27. Pureza • Entropía • Utilizada en la teoría de la información para medir la cantidad de información almacenada en un número de bits • Una población pura tiene una entropía de 0 • Si existen dos grupos igualmente representados la entropía es 1 • Cálculo de entropía • -(p1 log p1 +p2 log p2) • El objetivo es minimizar entropía Minería de datos Dr. Francisco J. Mata

  28. Entropía Minería de datos Dr. Francisco J. Mata

  29. Entropía Minería de datos Dr. Francisco J. Mata

  30. Entropía Minería de datos Dr. Francisco J. Mata

  31. Gini versus entropía • Entropía tiene preferencia por grupos más pequeños y puros • Gini tiene preferencia por grupos similares en tamaño Minería de datos Dr. Francisco J. Mata

  32. Pureza • Chi cuadrado • Prueba importante en estadística para medir la probabilidad de que la frecuencia observada de una muestra sea debida sólo a la variación de la muestra • Es relativa a la proporción en la población original (nodo padre) • Si las proporciones en los hijos son las mismas que en el padre entonces el valor de chi cuadrado es 0 • Si los hijos son puros, el valor de chi cuadrado es alto • Para una población dividida 50%-50%, el valor es igual al tamaño de la población Minería de datos Dr. Francisco J. Mata

  33. Pureza • Chi cuadrado • Cálculo para el chi cuadrado para cada hijo: • (observado (c1) – esperado (c1))2 / esperado (c1) + (observado (c2) –esperado (c2))2/ esperado (c2) • ci número de instancias de clase i en el hijo • obsevado (ci ): número de instancias observadas de clase i en el hijo • esperado (ci ): número de instancias esperadas de clase i en el hijo • tamaño del hijo multiplicado por la proporción de la clase en el padre • El objetivo es maximizar chi cuadrado Minería de datos Dr. Francisco J. Mata

  34. Chi cuadrado Minería de datos Dr. Francisco J. Mata

  35. Chi cuadrado Coinciden en este caso Minería de datos Dr. Francisco J. Mata

  36. Algoritmos y pureza • CART: Gini • C4.5: entropía • CHAID: chi cuadrado Minería de datos Dr. Francisco J. Mata

  37. Valores perdidos • Tratamiento • Ignorar registros con valores perdidos (puede introducir sesgo) • Tratar los valores perdidos como legítimos y asignarlos a un nodo del árbol Minería de datos Dr. Francisco J. Mata

  38. Error en un árbol de decisión • Para una hoja: • 1-probabilidad de clase dominante para la hoja • Para un árbol: • Suma ponderada de error de hoja i multiplicada por probabilidad de que un registro pertenezca a esta hoja Minería de datos Dr. Francisco J. Mata

  39. Poda de árboles de decisión • Incrementa la estabilidad del modelo al reducir su complejidad Minería de datos Dr. Francisco J. Mata

  40. Poda Minería de datos Dr. Francisco J. Mata

  41. Poda • Con el conjunto de entrenamiento, cada división del árbol reduce el error • Pero al aumentar el número de hojas, éstas contienen menos registros o tuples y se reduce la posibilidad de que la distribución de resultados en una hoja sea similar de un conjunto de datos a otros (“overfitting”) • Los datos de prueba son utilizados para encontrar el punto donde la complejidad adicional empieza a dañar en lugar de ayudar Minería de datos Dr. Francisco J. Mata

  42. Poda Minería de datos Dr. Francisco J. Mata

  43. Algoritmo típico de poda • Identificar sub-árboles candidatos para poda • Tasa de error ajustada: • AE(T) = E(T) + α leaf_count (T) • Se inicia considerando todos los subárboles que contienen la raíz • α se incrementa • Si AE(Ti) <= E(T completo), Ti es un árbol candidato para conservar y aquellas ramas que no pertenecen a él son podadas • El proceso se repite de nuevo para los subárboles en Ti Minería de datos Dr. Francisco J. Mata

  44. Poda • Varía de acuerdo con los diferentes algoritmos • CART • C4.5 • CHAID Minería de datos Dr. Francisco J. Mata

  45. Resultados clasificación Minería de datos Dr. Francisco J. Mata

  46. Resultados clasificación Error clasificar solicitud como buena siendo mala: 140/453= 31% Error clasificar solicitud como mala siendo buena: 122/1931= 6% Error de mala clasificación: (140+122)/2384=11% Minería de datos Dr. Francisco J. Mata

  47. Resultados clasificación Minería de datos Dr. Francisco J. Mata

  48. Resultados clasificación Minería de datos Dr. Francisco J. Mata

  49. Resultados de clasificación Variable Adiestramiento Validación respuesta 1=malo 0=bueno Minería de datos Dr. Francisco J. Mata

  50. Resultado clasificación Regla: IF 492238.5 <= VALUE AND DEBTINC < 45.43897 THEN NODE : 5 N : 12 1 : 83.3% 0 : 16.7% Interpretación: Minería de datos Dr. Francisco J. Mata

More Related