Métodos clasificación

Métodos clasificación

Regresión • Mínimoscuadradosminimizando la distancia entre dos grupos de variables • Dependientevsindependiente (s) • Múltiples variables

Regresión • Puedeserusadoparapredicción

Arboles de decisión

Arboles de decisión • Método usado en Data Mining • Arboles de regresión • Respuesta es continua • Arboles de clasificación • Respuesta es discreta • Hojas son clases finales • Ramas son reglas matemáticas de división (conjunciones)

Entropia • Impuridad en entropia • ObjetoesminumizaΔR

Coeficiente de GINI • Indice de impuridad de GINI • L(i,j) describe la perdida de

Comparacion de método GINI e Información

Ejemplotree.r #ejemplo de arbol de clasificación install.packages('rpart') library(rpart) progstat <- factor(stagec$pgstat, levels=0:1, labels=c("No", "Prog")) cfit <- rpart(progstat ~ age + eet + g2 + grade + gleason + ploidy, data=stagec, method='class') print(cfit) plot(cfit) text(cfit)

fit <- rpart(Kyphosis ~ Age + Number + Start, data = kyphosis) fit2 <- rpart(Kyphosis ~ Age + Number + Start, data = kyphosis, parms = list(prior = c(.65,.35), split = "information")) fit3 <- rpart(Kyphosis ~ Age + Number + Start, data = kyphosis, control = rpart.control(cp = 0.05)) par(mfrow = c(1,2), xpd = NA) # otherwise on some devices the text is clipped plot(fit) text(fit, use.n = TRUE) plot(fit2) text(fit2, use.n = TRUE)

Arboles de decisión • Variable está en valoresdiscretos y valorescontinuosasociados • Ej. Temperatura (grados) – temp (caliente, tibio,frio) • Funciones en valoresdiscretos (clasificación) • Disjuncionesdebenestarpresentes • Set de entrenamientopuedetenererrores • Set de entrenamientopuedetenerdatosfaltantes

Support vector machines • Desarrolladosparaclasificacionesbinarias • Yes/no • Busca el hiperplanooptimoqueseparalascategorias al maximizarlasdiferencias entre los puntos mas cercanos en diferentesclases

Support vector machines

Clasificacion de coberturas (modis)

Ejemplo en ejemplosvm.r install.packages('e1071') #el ejemplo se encuentra con ?svm library(e1071) data(iris) attach(iris) ## classification mode # default with factor response: model <- svm(Species ~ ., data = iris) # alternatively the traditional interface: x <- subset(iris, select = -Species) y <- Species model <- svm(x, y) print(model) summary(model)

pred<- predict(model, x) # (same as:) pred <- fitted(model) # Check accuracy: table(pred, y) # compute decision values and probabilities: pred <- predict(model, x, decision.values = TRUE) attr(pred, "decision.values")[1:4,] # visualize (classes by color, SV by crosses): plot(cmdscale(dist(iris[,-5])), col = as.integer(iris[,5]), pch = c("o","+")[1:150 %in% model$index + 1])

Métodos clasificación

Métodos clasificación

Presentation Transcript