160 likes | 263 Views
Métodos clasificación. Regresión. Mínimos cuadrados minimizando la distancia entre dos grupos de variables Dependiente vs independiente (s) Múltiples variables. Regresión. Puede ser usado para predicción. Arboles de decisión. Arboles de decisión. Método usado en Data Mining
E N D
Regresión • Mínimoscuadradosminimizando la distancia entre dos grupos de variables • Dependientevsindependiente (s) • Múltiples variables
Regresión • Puedeserusadoparapredicción
Arboles de decisión • Método usado en Data Mining • Arboles de regresión • Respuesta es continua • Arboles de clasificación • Respuesta es discreta • Hojas son clases finales • Ramas son reglas matemáticas de división (conjunciones)
Entropia • Impuridad en entropia • ObjetoesminumizaΔR
Coeficiente de GINI • Indice de impuridad de GINI • L(i,j) describe la perdida de
Ejemplotree.r #ejemplo de arbol de clasificación install.packages('rpart') library(rpart) progstat <- factor(stagec$pgstat, levels=0:1, labels=c("No", "Prog")) cfit <- rpart(progstat ~ age + eet + g2 + grade + gleason + ploidy, data=stagec, method='class') print(cfit) plot(cfit) text(cfit)
fit <- rpart(Kyphosis ~ Age + Number + Start, data = kyphosis) fit2 <- rpart(Kyphosis ~ Age + Number + Start, data = kyphosis, parms = list(prior = c(.65,.35), split = "information")) fit3 <- rpart(Kyphosis ~ Age + Number + Start, data = kyphosis, control = rpart.control(cp = 0.05)) par(mfrow = c(1,2), xpd = NA) # otherwise on some devices the text is clipped plot(fit) text(fit, use.n = TRUE) plot(fit2) text(fit2, use.n = TRUE)
Arboles de decisión • Variable está en valoresdiscretos y valorescontinuosasociados • Ej. Temperatura (grados) – temp (caliente, tibio,frio) • Funciones en valoresdiscretos (clasificación) • Disjuncionesdebenestarpresentes • Set de entrenamientopuedetenererrores • Set de entrenamientopuedetenerdatosfaltantes
Support vector machines • Desarrolladosparaclasificacionesbinarias • Yes/no • Busca el hiperplanooptimoqueseparalascategorias al maximizarlasdiferencias entre los puntos mas cercanos en diferentesclases
Ejemplo en ejemplosvm.r install.packages('e1071') #el ejemplo se encuentra con ?svm library(e1071) data(iris) attach(iris) ## classification mode # default with factor response: model <- svm(Species ~ ., data = iris) # alternatively the traditional interface: x <- subset(iris, select = -Species) y <- Species model <- svm(x, y) print(model) summary(model)
pred<- predict(model, x) # (same as:) pred <- fitted(model) # Check accuracy: table(pred, y) # compute decision values and probabilities: pred <- predict(model, x, decision.values = TRUE) attr(pred, "decision.values")[1:4,] # visualize (classes by color, SV by crosses): plot(cmdscale(dist(iris[,-5])), col = as.integer(iris[,5]), pch = c("o","+")[1:150 %in% model$index + 1])