Algoritmos de Minería

Algoritmos de Minería • “Las ideas sencillas, frecuentemente funcionan bien” • Un atributo hace todo (1-Rule) • Estructura lógica capturada en un árbol de decisión (ID3) • Todos los atributos contribuyen • Reglas independientes

Reglas de clasificación Antecedente  consecuente • Antecedente: precondiciones, son la serie de pruebas que se realizan sobre los atributos. • Consecuente: conclusión, da la clase o clases que aplican a las instancias cubiertas por la regla

Modelado Estadístico • Todos los atributos contribuyen • Los atributos se consideran: • Iguales en importancia • Independientes • Se toma en cuenta la frecuencia del par atributo-valor por clase • No realista, ¡pero funciona!

Modelado estadístico • Está basado en la regla de probabilidad condicional de Bayes • Si se tiene una hipótesis H, y una evidencia E entonces: • P[H|E] = P[E|H] P[H]/ P[E] • H : Play=Yes • E : Combinación de valores del nuevo día

Naive Bayes P[H|E] = P[E1|H] P[E2|H] P[E3|H] P[E4|H] P[H] P[E] • Los números encontrados se convierten en probabilidades normalizandolos de forma que sumen 1 P[H1|E] = P[E1|H] ... P[En|H] P[H] P[E|H1] +... +P[E|Hm]

Ejemplo

Frecuencias Probabilidades Observadas Probabilidad a Priori

Ejemplo

Ejemplo • Nuevo día Outlook Temp Humidity Windy play Sunny Cool High True ? Pos. Yes = 2/9 x 3/9 x 3/9 x 3/9 x 9/14 = 0.0053 Pos. No = 3/5 x 1/5 x 4/5 x 3/5 x 5/14 = 0.0206 Prob. Yes = 0.0053 = 20.5 % 0.0053 + 0.0206 Prob. No = 0.0206 = 79.5 % 0.0053 + 0.0206

Ejercicio Lentes de Contacto 3 instancias Eliminando

Ej 1) • Pos B = (2/4) (2/4) (4/4) (0)(4/21) = 0 • Pos D = (2/3) (1/3) (0) (0) (3/21) = 0 • Pos N = (3/14)(7/14)(6/14)(11/14)(14/21)= 0.024 Pr = 100% Ej 2) • Pos B = (2/4) (2/4) (0) (1)(4/21) = 0 • Pos D = (0) (2/3) (3/4) (1) (3/21) = 0 • Pos N = (5/14)(7/14)(8/14)(3/14)(14/21) = 0.0145 Pr=100% Ej 3) • Pos B = (0/14).... = 0 • Pos D = (1/3) (1/3) (0) .... = 0 • Pos N = (6/14)(7/14)(6/14)(3/14)(14/21)= 0.0131 Pr = 100%

Problemas • Valores de un atributo que no se presentan • La probabilidad de la clase dado que el atributo tiene el valor ausente sería cero causando que todo el término sea cero. • La corrección es agregar uno a cada valor y compensar. (Estimador de Laplace MF. P) 2/9, 3/9, 4/9 cambian por 3/12, 4/12, 5/12

Problemas • Valores Faltantes • Nueva instancia: se omite • Conj. Entrenamiento: no cuenta • Atributos numéricos • Se supone que tienen una distribución de probabilidad “Normal” o “Gaussiana” • Se calcula la media x y la desviación estándar

Atributos Numéricos

Ejemplo

Outlook Temp Hum Windy Play Sunny 66 90 True ?

Ejemplo Pos. Yes = 2/9 x 0.034 x 0.0221 x 3/9 x 9/14 = 0.000036 Pos. No = 3/5 x 0.0279 x 0.038 x 3/5 x 5/14 = 0.000136 Prob. Yes = 0.000036 = 20.9 % 0.000036 + 0.000136 Prob. No = 0.000136 = 79.1 % 0.000036 + 0.000136

Inferencia de Reglas • Algoritmo de cobertura • Considerar cada clase buscando la forma de cubrir todas las instancias en la clase, y al mismo tiempo excluir a las instancias que no pertenecen a la clase. • Es llamado de cobertura porque en cada etapa se identifica una regla que “cubre” la mayoría de las instancias.

Método PRISM • Para cada clase se busca construir las reglas (agregando términos), que cubran todas las instancias de esa clase. • Al agregar un termino, suponga que la nueva regla cubre un total de t instancias, de las cuales p son ejemplos de la clase y t-p están en otras clases (errores de la regla). • Escoger el término que maximiza p/t

b a a b b a a a b y y b a a b a a b b a b b b b b b b a a b b b b x 1.2 Espacio de instancias x > 1.2 ? yes no Regla hasta el momento Y > 2.6 ? b Regla después de añadir un nuevo término yes no b a b b a a b b b a a b a 2.6 b b a b b b 1.2

Método PRISM Para cada clase C Inicializar E con el conjunto de instancias Mientras E contenga instancias de la clase C Crear la regla R: ? C Hasta que R sea perfecta (o  más atributos) haz: Para cada atributo A no mencionado en R, y valor v Considerar agregar A=v en el lado Izquierdo de R Seleccionar A y v que maximicen la precisión p/t (si existen iguales escoger el de mayor p) Agregar A=v a R Eliminar las instancias cubiertas por R de E

Ejemplo: Lentes Si ?  Hard • Ag = young2/8 0.25 = pre-presbyopic1/8 0.125 = presbyopic1/8 0.125 • SP = myope3/12 0.25 = hypermetrope1/12 0.083 • AS = no0/12 0 = yes4/12 0.333 • TP = reduced0/12 0 = normal4/12 0.333 Si (AS=Yes)  Hard

Si (AS = Yes) & ?  Hard • Ag = young2/4 0.5 = pre-presbyopic1/4 0. 25 = presbyopic1/4 0. 25 • SP = myope3/6 0.5 = hypermetrope1/6 0.016 • TP = reduced0/6 0 = normal4/6 0.66 Si (AS=Yes)&(TP=Normal)  Hard

Si (AS = Yes) &(TP=Normal) & ?  Hard • Ag = young2/2 1 = pre-presbyopic1/2 0.5 = presbyopic1/4 0.5 • SP = myope3/3 1 = hypermetrope1/3 0.33 Si (AS=Yes)&(TP=Normal)&(SP=Myope)  Hard

Reglas para RL=Hard • If (AS = Yes) & (TP = Normal) & (SP = Myope)  HARD • If (AG = Young) & (AS = Yes) & (TP = Normal)  HARD

Algoritmos de Minería

Algoritmos de Minería

Presentation Transcript

PESTS OF CITRUS

PRIMITIVAS DE SALIDA

Algoritmos de Búsqueda “Backtracking y Branch and Bound”

Teoria das Categorias em Computação

Cin – UFPE Danielle Nathália Gomes da Silva Anderson Paulo da Silva { dngs , aps3} @ cin.ufpe.br

PARTE I: ESTRUCTURAS DE DATOS Tema. Grafos

Fig. 41-1

ROTEAMENTO

Projeto de Testabilidade

Algoritmos y Estructuras de Da tos

Análise e Técnicas de Algoritmos

Tema 1

Introduction to Using MathML

Complexidade de algoritmos e Classificação (Ordenação) de dados

Técnicas de Reconstrução de Voz e a Melhoria da Qualidade em Comunicações VoIP

Canada's Labour Market: Jobs With A Future

Teoria das Categorias em Computação

Teo 2: Plataformas para programación paralela

Tema 9: Gestión de Procesos

Algoritmos y Estructuras de Datos III

DOOR