310 likes | 401 Views
3.5. Líneas de Investigación Abiertas. Líneas de Investigación Abiertas. Resúmenes:
E N D
Líneas de Investigación Abiertas • Resúmenes: • S.K.Madria, S.S.Bhowmick, W.K.Ng, and E.P.Lim. Research issues in Web data mining. In Proceedings of Data Warehousing and Knowledge Discovery, First International Conference, DaWaK '99, pages 303-312, 1999 http://citeseer.nj.nec.com/madria99research.html • Padhraic Smyth. "Breaking Out of the Black-Box: Research Challenges in Data Mining", Workshop on Research Issues in Data Mining and Knowledge Discovery DMKD 2001 • Pedro Domingos and Geoff Hulten. "Catching Up with the Data: Research Issues in Mining Data Streams" Workshop on Research Issues in Data Mining and Knowledge Discovery DMKD 2001
Líneas de Investigación Abiertas • Resúmenes: • Ramakrishnan Srikant (IBM Almaden) "New Directions in Data Mining", Workshop on Research Issues in Data Mining and Knowledge Discovery DMKD 2002 • John F. Roddick "Data Warehousing and Data Mining: Are we working on the right things?" Advances in Database Technologies. Berlin, Springer-Verlag. Lecture Notes in Computer Science. 1552. Kambayashi, Y., Lee, D. K., Lim, E.-P., Masunaga, Y. and Mohania, M., Eds. 141-144
Líneas de Investigación Abiertas • Conferencias especializadas en Minería de Datos: • KDD – International Conference on Knowledge Discovery from Databases • IEEE ICDM – IEEE International Conference on Data Mining • IDA – Intelligent Data Analysis • PKDD – European Conference on Principles and Practice of Knowledge Discovery in Databases • DMKD - Workshop on Research Issues in Data Mining and Knowledge Discovery • DS – International Conference on Discovery Science • DWDM - International Workshop on Data Warehouse and Data Mining. • DaWaK - International Conference on Data Warehousing and Knowledege Discovery.
Líneas de Investigación Abiertas • Conferencias especializadas en Aprendizaje Automático: • ICML “International Conference on Machine Learning” • ECML “European Conference on Machine Learning” • MLDM – “Machine Learning and Data Mining in Pattern Recognition”
Lenguajes de Consulta Inductivos • Nuevos Lenguajes de Consulta: • El descubrimiento en bases de datos se ve como un proceso de consulta a una base de datos (Imielinski and Manilla 1996). La situación se parece al desarrollo de lenguajes de consulta en los sesenta y setenta. • Una consulta inductiva o de búsqueda de patrones debe permitir al usuario restringir la búsqueda inductiva en los siguientes aspectos (Han et al. 1999): • La parte de la base de datos a ser minada (también llamada la vista minable o vista relevante) (Ng et al. 1998). • El tipo de patrón/reglas a ser minado (también llamado restricciones del conocimiento). • Cuantificadores estadísticos: representatividad (support) %, precisión (confidence/accuracy) %. • Otras propiedades que el patrón debería cumplir (número y forma de las reglas, interés, novedad, etc.).
Lenguajes de Consulta Inductivos • Ejemplos de consultas que se desean: • ASOCIACIÓN • ¿Por qué (causa) la división de "serie para torpes" es tan provechosa? • ASOCIACIÓN + CLASIFICACIÓN • ¿Qué características comparten los clientes que no renovaron sus pólizas y en qué se diferencian de las que renovaron sus pólizas? • CLUSTERING: • Grupos de clientes que no pagaron su crédito. • Grupos de productos que han fallado el test de calidad. • CLUSTERING + PREDICCIÓN • Grupos de clientes que es probable que vayan a comprar un nuevo producto en el próximo año. • CLUSTERING + ASOCIACIÓN • Grupos de pacientes cuya muerte la causó combinaciones (cócteles) de fármacos.
Lenguajes de Consulta Inductivos La consultas no pueden ser en lenguaje natural... EJEMPLO: ¿Qué es exactamente lo que se busca?
Lenguajes de Consulta Inductivos • EJEMPLO (cont.): • Tipo de consulta: • SELECT CORRELATIONS ON NUMERICAL • FROM Persona • Respuesta: • Renta Familiar y Edad correlacionan (0.XX). • Hijos y Edad correlacionan (0.YY). • Renta Familiar e Hijos correlacionan (0.ZZ). • Tipo de consulta: • SELECT APPROX. ASSOCIATIONS ON (Obeso, Casado, Hijos > 0) • FROM Persona • Respuesta: • Casado e (Hijos > 0) están asociados (4 casos, 80%). • Obseso y casado están asociados (4 casos, 80%) • Se deben poder poner condiciones, p.ej.: • SUPPORT > 3, CONFIDENCE > 75% Correlaciones y Asociaciones
Lenguajes de Consulta Inductivos • EJEMPLO (cont.): • Tipo de consulta: • SELECT EXACT DEPENDENCY RULES ON (Obeso, Casado, Hijos > 0) • FROM Persona • Respuesta: (Hijos > 0) Casado (5 casos, 100%). • Casado Obeso (5 casos, 100%) • Tipo de consulta: • SELECT EXACT DEPENDENCY RULES ON * • FROM Persona • Respuesta: (DNI) ... • Ciudad ... • Tipo de consulta: • SELECT PROB. DEPENDENCY RULES ON * • FROM Persona • Respuesta: Casado Obeso (5 casos, 100%) • Se compara P(RHS/LHS) con P(RHS) para ver si tiene SUPPORT (significación). Reglas de Dependencias de Valor
Lenguajes de Consulta Inductivos EJEMPLO (cont.): Tipo de consulta: SELECT CLASSIFICATION RULES FOR (Hijos > 0) ON * FROM Persona Respuesta: Casado AND (Renta Familiar > 2.000.000) (Hijos > 0) También se deberían poder obtener reglas exactas, fuertes (sólo se permite un máx de errores) o probabilísticas. Clasificación
Lenguajes de Consulta Inductivos • EJEMPLO (cont.): • Tipo de consulta: • SELECT SEGMENTATION RULES ON * • FROM Persona • Respuesta: Three Classes • Class 1 if Casado AND (Renta Familiar > 2.000.000) • Class 2 if Casado AND (Renta Familiar <= 2.000.000) • Class 3 if ¬Casado • Tipo de consulta: • SELECT SEGMENTATION RULES FOR Renta Familiar ON * • FROM Persona • Respuesta: Two classes on Renta Familiar • Renta Familiar >= 2.000.000 if Casado • Renta Familiar < 2.000.000 if ¬Casado Segmentación
Lenguajes de Consulta Inductivos • EJEMPLO (cont.): • Patrón secuencial: • ¿Qué compras preceden a la compra de un microondas? • Respuesta: • Frigorífico con congelador de cuatro pisos (60%). • Predicciones: • ¿Volumen total de ventas estimado para el año 2000? • Regresión lineal sobre ventas 1995-1999 para predecir ventas 2000. • Tipo de consulta: • SELECT PRIMARY KEYS ON (Obeso, Casado, Hijos, Profesión) • FROM Persona • Respuesta: • (Profesión, Hijos) • (Hijos, Obeso, Casado) Tendencias temporales, Predicción Información del Esquema (descubrir claves primarias, R.I.).
Lenguajes de Consulta Inductivos EJEMPLO (cont.): Varias tablas: SELECT RULES FROM Persona, Casado Respuesta: Persona(X) AND Persona (Y) AND Casado(X,Y) Renta Familiar(X) = Renta Familiar(Y) Patrones más complicados Esta aproximación es restrictiva a los “modelos de consulta” que permita el lenguaje.
Lenguajes de Consulta Inductivos • Propuesta M-SQL (Imielinski et al. 1996) • Basada en modelos de consulta... • Ejemplo: • SELECT FROM MINE(T): R • WHERE R.Consequent = { (Age = *) } • R.Support > 1000 • R.Confidence > 0.65; • R es una variable de regla y se puede utilizar: • R.Consequent • R.Body (antecedente) • R.Support • R.Confidence.
Lenguajes de Consulta Inductivos • Propuesta DMQ (Data-Mining Query) language (Ng et al. 1998): • Utiliza la sintaxis del SQL para la vista minable • También basado en modelos de consulta. • EJEMPLO: • Esquema: • SALES(customer_name, item_name, transaction_id) • LIVES(customer_name, district, city) • ITEM(item_name, category, price) • TRANSACTION(transaction_id, day, month, day) • Consulta Inductiva (lenguaje natural): • “buscar las ventas de qué artículos baratos (con una suma de precios menor que $100) que puede motivar las ventas de qué artículos caros (con el precio mínimo de $500) de la misma categoría de los clientes de Vancouver en 1998”.
Lenguajes de Consulta Inductivos • Propuesta DMQ. EJEMPLO: • Ejemplo de Consulta Inductiva: • mine associations as • lives(C,_, “Vancouver”) and • sales+(C, ?[I], {S}) sales+(C, ?[J], {T}) • from sales • where S.year = 1998 and T.year = 1998 and I.category = J.category • group by C, I.category • having sum(I.price) < 100 and min(J.price) >= 500 • with min_support = 0.01 and min_confidence = 0.5 • Ejemplo de Respuesta: • lives(C,_, “Vancouver”) and • sales(C, “Census_CD”, _) and sales(C, “Ms/Office97”, _) • sales(C, “Ms/SQLServer”,_) [0.015, 0.68] +: operador regular (1 o más tuplas) ?[I] : utilizar clave ajena. I es la tupla instanciada. Es un patrón relacional. Support & Confidence.
Lenguajes de Consulta Inductivos • Propuesta “OLE DB for Data Mining” de Microsoft. • extensión del protocolo de acceso a BB.DD. OLE DB. • Implementa una extensión del SQL que trabaja con DMM( Data Mining Model) y permite: • 1. Crear el modelo • 2. Entrenar el modelo • 3. Realizar predicciones
Lenguajes de Consulta Inductivos Propuesta “OLE DB for Data Mining”: Ejemplo: CREACIÓN DEL MODELO (DMM): CREATE MINING MODEL CredikRisk ( [Customer ID] LONG KEY, [Profession] TEXT DISCRETE, [Income] TEXT DISCRETE, [Age] LONG CONTINUOUS, [Risk Level] TEXT DISCRETE PREDICT, ) USING [Microsoft Decision Tree] Esto crea un DMM vacío. Atributos de Entrada Atributo de Salida Tipo de Modelo
Lenguajes de Consulta Inductivos Propuesta “OLE DB for Data Mining”: Ejemplo: ENTRENAR EL MODELO: Se usa una sentencia INSERT INTO. A diferencia de insertar datos como en una tabla normal lo que hace es analizar los casos que le introduzcamos y construir el contenido del DMM. INSERT INTO [CreditRisk] ( [CustomerID],[Profession],[Income],[Age],[RiskLevel] ) OPENROWSET('[Provider='MSOLESQL','user','pwd', 'SELECT [CustomerID],[Profession], [Income],[Age],[Risk] FROM [Customers]' ) Obtención de los datos de entrenamiento a través de una consulta SQL por OLE SQL Vista Minable
Lenguajes de Consulta Inductivos Propuesta “OLE DB for Data Mining”: Ejemplo: USAR EL MODELO: El modelo se aplica a nuevos datos. La manera de hacerlo es similar a la concatenación de dos tablas relacionales, considerando el modelo como una tabla y los datos a predecir como otra tabla. El resultado es una nueva tabla con los datos que queramos (todos o sólo las predicciones). SELECT [CustomerID],[Income],[Age], CreditRisk.RiskLevel, PredictProbability(CreditRisk.RiskLevel) FROM CreditRisk PREDICTION JOIN Customers ON CreditRisk.Profession=Customers.Profession AND CreditRisk.Income=Customers.Income AND CreditRisk.Age=Customers.Age
Lenguajes de consulta inductivos para Web Usage Mining • También existen lenguajes de consulta para seleccionar patrones relativos a uso de páginas web: • P.ej. En el sistema WUM (Web Utilization Miner) (Berendt & Spiliopoulou 2000), basado también en un grafo de secuencias de visitas, se puede utilizar el lenguaje MINT para hacer consultas del estilo: • SELECT t • FROM NODE AS a b, • TEMPLATE a * b AS t • WHERE a.support > 7 • AND (b.support / a.support) >= 0.4 • AND b.url != “G.html” • Seleccionaría pares de páginas visitadas consecutivamente en la que la primera se ha visitado al menos 7 veces y de éstas, al menos el 40% han llegado a la segunda. Además la segunda no puede ser “G.html”.
Retos para la Minería de Datos • Escalabilidad: • esquemas de muestreo eficientes y suficientes. • procesamiento en memoria vs. en disco. • combinación de recursos entre tareas involucradas. • interfaces con los almacenes de datos. • uso de metadata para optimizar el acceso. • cuestiones cliente/servidor (dónde hacer el procesamiento). • aprovechamiento de paralelismo y de computación distribuida.
Retos para la Minería de Datos • Automatización: • Desarrollo de asistentes (wizards) y/o lenguajes de consulta: • para definir la tarea de minería, entradas, salidas, ... • seleccionar y utilizar el conocimiento previo. • Transformación de los datos y reducción de dimensionalidad. • Compromiso entre simplicidad y precisión de los modelos en pro de una mayor inteligibilidad.
Retos para la Minería de Datos • Otros Retos: • Tratamiento de datos cambiantes: necesidad de revisión y extensión de patrones (incrementalidad). • Minería de datos con tipos no-estándar (no numérico o no textual, p.ej. gráficos vectoriales, índices a ficheros, hiperenlaces), multimedia u orientados a objetos.
Tendencias • 80s y principios 90s: • OLAP y reporting: consultas predefinidas. El sistema OLAP como sistema para extraer informes, gráficas y confirmar hipótesis. Técnicas fundamentalmente estadísticas. • Se usa casi exclusivamente información interna a la organización. • Finales de los 90 • Data-Mining: descubrimiento de patrones. Técnicas de aprendizaje automático para generar patrones novedosos. • El Data-Warehouse incluye Información Interna fundamentalmente. • Principios de los 00 • Técnicas de “scoring” y simulación: descubrimiento y uso de modelos globales. Estimación a partir de variables de entrada de variables de salida (causa-efecto) utilizando simulación sobre el modelo aprendido. • El Data-Warehouse incluye Información Interna y Externa (parámetros de la economía, poblacionales, geográficos, etc.).
Software Gratuito • Software Disponible: • Librerías Genéricas: • MLC++ en C++. (Kohavi et al. 1994) (http://www.sgi.com/Technology/mlc/) • WEKA en Java. (http://www.cs.waikato.ac.nz/ml/weka) • Acompañado por el libro: “Data Mining: practical machine learning tools and techniques with Java implementations” Morgan Kaufmann • ML-Lisp en LISP (ftp://ftp.cs.utexas.edu/pub/mooney/ml-progs/) (http://mlwww.diee.unica.it/ML/gdl/mlsoftware.html) • Entorno DELVE: http://www.cs.utoronto.ca/~delve/index.html • Otros (data-mining): http://www.the-data-mine.com/bin/veiw/Software/WebIndex • Software Particular: • C4.5 (http://mlwww.diee.unica.it/ML/gdl/c4_5.html) • Progol (http://www-users.cs.york.ac.uk/~stephen/progol.html) • Golem (http://www-users.cs.york.ac.uk/~stephen/golem.html). • ILP systems (http://www-ai.ijs.si/~ilpnet2/systems/) • FLIP & SMILES (http://www.dsic.upv.es/~flip/)
Direcciones • Recursos Generales: • KDcentral (www.kdcentral.com) • The Data Mine (http://www.the-data-mine.com) • Knowledge Discovery Mine (http://www.kdnuggets.com) • Mailing list: • KDD-nuggets: moderada y con poco ruido: • Para suscribirse, enviar un mensaje a “kdd-request@gte.com” con “subscribe kdnuggets” en la primera línea del mensaje (el resto en blanco). • Revistas: • Data Mining and Knowledge Discovery. (http://www.digimine.com/usama/datamine) • Intelligent Data Analysis (http://www.elsevier.com/locate/ida) • Asociaciones: • ACM SIGKDD (y la revista “explorations”, • http://www.acm.org/sigkdd/explorations/instructions.htm)
Más Direcciones • Refrescadores de Estadística: • http://cne.gmu.edu/modules/dau/stat/index.html • http://www.statsoft.com/textbook/stathome.html • Otras fuentes sobre DM: • CRISP - DM, un consorcio industrial. • http://www.crisp-dm.org • DMG - The Data Mining Group, un consorcio mixto para crear estándares para intercambiar modelos predictivos. • http://www.dmg.org/ • Kurt Thearling's site: libros, artículos, tutoriales. • http://www3.shore.net/~kht/
Redes de Investigación • RED MIDAS: Red Española de Minería de Datos y Aprendizaje Automático. Coordinador: José Riquelme, Universidad de Sevilla. • http://www.lsi.us.es/~riquelme • KDNET: Red de Excelencia Europea en “Knowledge Discovery” • http://www.kdnet.org