1 / 50

Introducción Regla discriminante lineal de Fisher Versión poblacional Versión muestral

6. ANÁLISIS DISCRIMINANTE. Introducción Regla discriminante lineal de Fisher Versión poblacional Versión muestral El problema general de clasificación para dos poblaciones Probabilidad a priori Costes de clasificación Coste esperado por mala clasificación

adler
Télécharger la présentation

Introducción Regla discriminante lineal de Fisher Versión poblacional Versión muestral

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 6. ANÁLISIS DISCRIMINANTE • Introducción • Regla discriminante lineal de Fisher • Versión poblacional • Versión muestral • El problema general de clasificación para dos poblaciones • Probabilidad a priori • Costes de clasificación • Coste esperado por mala clasificación • Regiones óptimas 1

  2. 6. ANÁLISIS DISCRIMINANTE • Clasificación para dos poblaciones normales • Versión poblacional • Versión muestral • Clasificación general para g poblaciones • Costes de clasificación • Coste esperado por mala clasificación • Regiones óptimas 2

  3. 6. ANÁLISIS DISCRIMINANTE • Clasificación para g poblaciones normales • Score cuadrático de clasificación • Versión muestral • Clasificación para g poblaciones normales con matrices de covarianzas iguales • Score lineal de clasificación • Versión muestral 3

  4. Introducción Supervisada: Análisis discriminante Clasificación No supervisada: Análisis de conglo- merados (clustering) El análisis discriminante es una técnica de clasificación para asignar nuevas observaciones a grupos ya conocidos. 4 ANÁLISIS DISCRIMINANTE

  5. Regla discriminante lineal de Fisher Sea la variable y dos poblaciones y Sean y Se busca una combinación lineal de la forma que sea óptima para clasificar una observación en alguna de las dos poblaciones. 5 ANÁLISIS DISCRIMINANTE

  6. Regla discriminante lineal de Fisher Se tiene que 6 ANÁLISIS DISCRIMINANTE

  7. Regla discriminante lineal de Fisher Hay que buscar l que optimice la separación entre las dos poblaciones: se maximiza la separación entre las medias: 7 ANÁLISIS DISCRIMINANTE

  8. Regla discriminante lineal de Fisher Si se maximiza sin restricciones, el máximo puede no ser finito: se maximiza dividiendo por la varianza La solución que se obtiene es: Nota: es común. Función discriminante lineal de Fisher 8 ANÁLISIS DISCRIMINANTE

  9. π2 Y (mejor recta) 2 π1 Proyección de 2 1 Proyección de 1 Regla discriminante lineal de Fisher En el caso en que , se tiene: l1y l2determinan la recta 9 ANÁLISIS DISCRIMINANTE

  10. 2 Y=l’X Y2 1 x0 m l’x0 Y1 Regla discriminante lineal de Fisher El punto medio es: • Dada una nueva observación x0: • Asignar x0 a π1 si • Asignar x0 a π2si 10 ANÁLISIS DISCRIMINANTE

  11. Regla discriminante lineal de Fisher Proposición 11 ANÁLISIS DISCRIMINANTE

  12. Regla discriminante lineal de Fisher: Versión muestral Dadas dos poblaciones y , se tienen las siguientes matrices de datos: y sean Nota: no es necesario n1=n2 12 ANÁLISIS DISCRIMINANTE

  13. Regla discriminante lineal de Fisher: Versión muestral La regla lineal es: Función discriminante lineal muestral de Fisher que es óptima para clasificar entre las dos poblaciones. El punto medio es: 13 ANÁLISIS DISCRIMINANTE

  14. Regla discriminante lineal de Fisher: Versión muestral Y=l’X Y2 x0 m l’x0 Y1 • Dada una nueva observación x0 , la regla de clasificación • sería: • Asignar x0 a π1 si • Asignar x0a π2si 14 ANÁLISIS DISCRIMINANTE

  15. Clasificación Ejemplo Calcular la función de discriminación lineal. Clasificar la observación 15 ANÁLISIS DISCRIMINANTE

  16. El problema general de clasificación para dos poblaciones Dada la variable y dos poblaciones y siendo f1 la función de densidad de y f2 la función de densidad de 16 ANÁLISIS DISCRIMINANTE

  17. En f2 f1 R1 R2 El problema general de clasificación para dos poblaciones El problema es separar el espacio muestral  en dos regiones R1 y R2 disjuntas tales que: 17 ANÁLISIS DISCRIMINANTE

  18. El problema general de clasificación para dos poblaciones • Probabilidad de clasificar en si viene de • Probabilidad de clasificar en si viene de • Probabilidad de clasificar en si viene de • Probabilidad de clasificar en si viene de 18 ANÁLISIS DISCRIMINANTE

  19. El problema general de clasificación para dos poblaciones • p1 : probabilidad de que venga de • p2 : probabilidad de que venga de • P(clasificar correctamente en ) = • P(clasificar incorrectamente en ) = • P(clasificar correctamente en ) = • P(clasificar incorrectamente en ) = 19 ANÁLISIS DISCRIMINANTE

  20. VIENE DE 0 C(1&2) CLASIFICAR EN C(2&1) 0 El problema general de clasificación para dos poblaciones El objetivo es encontrar la mejor regla de clasificación, que proporcionará las regiones que minimicen el coste esperado por mala clasificación. 20 ANÁLISIS DISCRIMINANTE

  21. El problema general de clasificación para dos poblaciones El coste esperado por mala clasificación para dos regiones es: El objetivo es hallar dos regiones que minimicen el CEMC. 21 ANÁLISIS DISCRIMINANTE

  22. El problema general de clasificación para dos poblaciones Teorema Las regiones R1 y R2 que minimizan el coste esperado por mala clasificación son: 22 ANÁLISIS DISCRIMINANTE

  23. El problema general de clasificación para dos poblaciones Corolario p1 = p2 C(1&2) = C(2&1) 23 ANÁLISIS DISCRIMINANTE

  24. El problema general de clasificación para dos poblaciones • p1= p2y C(1&2) = C(2&1) 24 ANÁLISIS DISCRIMINANTE

  25. Clasificación para dos poblaciones normales En este caso se conoce la función de densidad para Dada la variable y las dos poblaciones con , respectivamente, el objetivo es hallar las dos regiones R1 y R2que minimizan el CEMC. 25 ANÁLISIS DISCRIMINANTE

  26. Clasificación para dos poblaciones normales Teorema Las regiones R1 y R2 que minimizan el CEMC son: siendo 26 ANÁLISIS DISCRIMINANTE

  27. Clasificación para dos poblaciones normales Observación • Si la regla de clasificación es cuadrática. • Si se obtienen las regiones: 27 ANÁLISIS DISCRIMINANTE

  28. Clasificación para dos poblaciones normales Si se considera , entonces se llega a la regla discriminante lineal de Fisher. 28 ANÁLISIS DISCRIMINANTE

  29. Clasificación para dos poblaciones normales Versión muestral Dadas dos poblaciones y las matrices de datos Nota: no es necesario n1= n2 29 ANÁLISIS DISCRIMINANTE

  30. Clasificación para dos poblaciones normales: Versión muestral estimando y , se tiene: 30 ANÁLISIS DISCRIMINANTE

  31. Clasificación general para g poblaciones Sea la variable y las g poblaciones siendo sus respectivas funciones de densidad y las probabilidades a priori. 31 ANÁLISIS DISCRIMINANTE

  32. Clasificación general para g poblaciones El coste de clasificar en viniendo de es C(i&k), siendo C(i&i) = 0, Las g regiones en las se puede clasificar vienen dadas por: 32 ANÁLISIS DISCRIMINANTE

  33. Clasificación general para g poblaciones La probabilidad de clasificar en si viene de es La probabilidad de clasificar en si viene de es 33 ANÁLISIS DISCRIMINANTE

  34. VIENE DE 0 C(1&2) C(1&g) C(2&1) 0 C(2&g) CLASIFICAR EN C(g&1) C(g&2) 0 Clasificación general para g poblaciones El objetivo es encontrar la mejor regla de clasificación, que dará lugar a las regiones que hacen mínimo el coste por mala clasificación. 34 ANÁLISIS DISCRIMINANTE

  35. Clasificación general para g poblaciones El coste esperado por mala clasificación dado que la observación viene de es: En general, el coste esperado por mala clasificación es: 35 ANÁLISIS DISCRIMINANTE

  36. Clasificación general para g poblaciones El CEMC también se puede escribir como: 36 ANÁLISIS DISCRIMINANTE

  37. Clasificación general para g poblaciones Teorema El CEMC se minimiza asignando la observación x a la población para la cual Corolario Si todos los costes de clasificación son iguales, el CEMC se minimiza cuando es mínima, es decir, cuando se clasifica x en la población donde es máxima. 37 ANÁLISIS DISCRIMINANTE

  38. Clasificación general para g poblaciones La región de puntos que se clasifican en la población i es 38 ANÁLISIS DISCRIMINANTE

  39. Clasificación para g poblaciones normales En este caso se conoce la función de densidad para Dada la variable y las g poblaciones con respectivamente, el objetivo es hallar las g regiones R1,R2 ,...,Rg que minimizan el CEMC. 39 ANÁLISIS DISCRIMINANTE

  40. Clasificación para g poblaciones normales La función de densidad en el caso normal para las poblaciones es: Si los costes son iguales, hay que maximizar . 40 ANÁLISIS DISCRIMINANTE

  41. Clasificación para g poblaciones normales Se clasifica x en si , es decir, si: 41 ANÁLISIS DISCRIMINANTE

  42. Clasificación para g poblaciones normales Como las matrices de covarianzas son distintas, se tiene una expresión cuadrática: Score cuadrático de clasificación Se clasifica x en si Nota: Si no hay probabilidades a priori, log pi = 0. 42 ANÁLISIS DISCRIMINANTE

  43. Clasificación para g poblaciones normales Versión muestral Sea y sean g poblaciones conocidas . g matrices de datos, de tamaños n1, n2,...,ng, no necesariamente iguales: 43 ANÁLISIS DISCRIMINANTE

  44. Clasificación para g poblaciones normales Versión muestral Sean 44 ANÁLISIS DISCRIMINANTE

  45. Clasificación para g poblaciones normales Versión muestral La función de densidad estimada es: El score cuadrático de clasificación es: Se clasifica x en si , es decir, si 45 ANÁLISIS DISCRIMINANTE

  46. Clasificación para g poblaciones normales con matrices de covarianzas iguales Score lineal de clasificación • Nota: • si las matrices de covarianzas son: • Iguales: caso lineal • Distintas: caso cuadrático Sean Si todas las poblaciones tienen distribución normal, el score cuadrático sería: 46 ANÁLISIS DISCRIMINANTE

  47. Clasificación para g poblaciones normales con matrices de covarianzas iguales: Score lineal de clasificación Si desarrollando la forma cuadrática se llega al score lineal de clasificación. 47 ANÁLISIS DISCRIMINANTE

  48. Clasificación para g poblaciones normales con matrices de covarianzas iguales Score lineal de clasificación Para clasificar, hay que maximizar Score lineal de clasificación La regla de clasificación por tanto, es clasificar x en si 48 ANÁLISIS DISCRIMINANTE

  49. Clasificación para g poblaciones normales con matrices de covarianzas iguales Versión muestral Sea la variable y las g poblaciones con distribuciones estimadas respectivamente. Si se estima con Si=S, el score lineal de clasificación queda Score lineal muestral de clasificación 49 ANÁLISIS DISCRIMINANTE

  50. Clasificación para g poblaciones normales con matrices de covarianzas iguales Versión muestral La regla de clasificación es asignar x a si es el estimador de la media y S es el estimador de : 50 ANÁLISIS DISCRIMINANTE

More Related