130 likes | 279 Views
ELVIRA II -- Granada’03. TRABAJO REALIZADO POR EL GRUPO I.S.G. (UPV-EHU) Junio’02 Mayo’03. DESARROLLADORES. Rubén Armañanzas Rosa Blanco José Luis Flores Aritz Pérez Guzmán Santafé Javi García Castellano. ÁREAS DE DESARROLLO. Pre-procesamiento de datos
E N D
ELVIRA II -- Granada’03 TRABAJO REALIZADO POR EL GRUPO I.S.G. (UPV-EHU) Junio’02 Mayo’03
DESARROLLADORES • Rubén Armañanzas • Rosa Blanco • José Luis Flores • Aritz Pérez • Guzmán Santafé • Javi García Castellano
ÁREAS DE DESARROLLO • Pre-procesamiento de datos • Discretización (José Luis, Javi) • Medidas de filtrado para selección de variables en problemas supervisados (Rubén) • Clasificación supervisada (Rosa, Aritz, Javi) • Clasificación no-supervisada (Guzmán) • Interfaz gráfico (Rubén)
CLASES PRINCIPALES PRE-PROCESAMIENTO:DISCRETIZACIÓN learning/preprocessing/Discretization.java • 5 métodos de discretización: • Equalfrequency • Equalwidth • Unsupervised Monothetic Constrast • Sum Squared Differences • K-Means • Discretización Masiva vs. Discretización Local • *.dbc continuo *.dbc discretizado • Recogido en el interfaz de Elvira
CLASES PRINCIPALES PRE-PROCESAMIENTO:MEDIDAS DE FILTRADO learning/preprocessing/FilterMeasures.java • 5 medidas “filter” para la selección de variables en problemas supervisados, mediante la elaboración de un “ranking” • Información mutua, Entropía de Shannon, Kullback_Leibler (2), Matusita, Bhatacharyya • Posibilidad de proyectar a un nuevo fichero *.dbc: ‘d’ variables predictoras más relevantes + clase • Recogido en el interfaz de Elvira
CLASES PRINCIPALESCLASIFICACIÓN SUPERVISADA learning/classification/ClassifierValidator.java • Posibilidad de validar los clasificadores por: validación cruzada, entrenamiento + test, leave-one-out learning/classification/ConfusionMatrix.java • Posibilidad de obtener la matriz de mala-clasificación learning/classification/supervised/discrete/ Naive_Bayes.java learning/classification/supervised/discrete/ CMutInfTAN.java (Tree-Augmented Network, Friedman y col.’97) • Posibilidad de etiquetar-categorizar un fichero de casos con la clase predecida por un clasificador • La variable clase en la última posición del *.dbc
CLASES PRINCIPALESCLASIFICACIÓN NO-SUPERVISADA learning/classification/unsupervised/discrete/NBayesMLEM.java • Aprendizaje de un clasificador naive-Bayes no-supervisado por medio del algoritmo EM, log-verosimilitud como score, asumiendo la clase como variable latente • Mediante la subclase NBayesMLEMMStart.java se realiza un método de aprendizaje multi-start mediante el EM del naive-Bayes no-supervisado • La variable clase no existe en el *.dbc
CLASES PRINCIPALESINTERFAZ GRÁFICO gui/DataBaseMonitor.java gui/DataBaseMonitorWorker.java • Integra el tratamiento de datos realizado en el grupo • Hasta el momento en el interfaz: discretización y medidas de filtrado • Otras mejoras visuales: • Barra en movimiento durante la ejecución de tareas • Al cargar los datos para métodos de aprendizaje de RBs: aparición de los nombres de las variables e información acerca del número de casos y variables • Su funcionalidad en el interfaz aparece mediante la secuencia: Archivo Abrir fichero de casos • No interfiere ni reduce ninguna funcionalidad anterior del GUI
TRABAJO FUTURO (I) • Discretización nuevos métodos de búsqueda de la discretización óptima mediante EDAs • Imputación de valores perdidos EM • Nuevas medidas de filtrado supervisadas • Clasificación supervisada: • inducción de distintos tipos de clasificadores (estructuras) basados en modelos gráficos probabilísticos: naive-Bayes ............. redes Bayesianas • inducción de estructuras “multinet” • algoritmo TM (Edwards & Lauritzen’01) • variables continuas y discretas
TRABAJO FUTURO (II) • Clasificación no-supervisada: • inducción de distintos tipos de clasificadores (estructuras) basados en modelos gráficos probabilísticos: naive-Bayes .............. redes Bayesianas • “Exact model averaging with naive-Bayes” (Dash & Cooper’02) • algoritmo TM (Edwards & Lauritzen’01) • variables continuas y discretas • Interfaz gráfico: • incorporación de los métodos de clasificación implementados • visualización de varias utilidades clasificatorias: matriz de mala-clasificación, porcentaje de bien clasificados estimado...