1 / 31

3.5. Líneas de Investigación Abiertas

3.5. Líneas de Investigación Abiertas. Líneas de Investigación Abiertas. Resúmenes:

guy-jenkins
Download Presentation

3.5. Líneas de Investigación Abiertas

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 3.5. Líneas de Investigación Abiertas

  2. Líneas de Investigación Abiertas • Resúmenes: • S.K.Madria, S.S.Bhowmick, W.K.Ng, and E.P.Lim. Research issues in Web data mining. In Proceedings of Data Warehousing and Knowledge Discovery, First International Conference, DaWaK '99, pages 303-312, 1999 http://citeseer.nj.nec.com/madria99research.html • Padhraic Smyth. "Breaking Out of the Black-Box: Research Challenges in Data Mining", Workshop on Research Issues in Data Mining and Knowledge Discovery DMKD 2001 • Pedro Domingos and Geoff Hulten. "Catching Up with the Data: Research Issues in Mining Data Streams" Workshop on Research Issues in Data Mining and Knowledge Discovery DMKD 2001

  3. Líneas de Investigación Abiertas • Resúmenes: • Ramakrishnan Srikant (IBM Almaden) "New Directions in Data Mining", Workshop on Research Issues in Data Mining and Knowledge Discovery DMKD 2002 • John F. Roddick "Data Warehousing and Data Mining: Are we working on the right things?" Advances in Database Technologies. Berlin, Springer-Verlag. Lecture Notes in Computer Science. 1552. Kambayashi, Y., Lee, D. K., Lim, E.-P., Masunaga, Y. and Mohania, M., Eds. 141-144

  4. Líneas de Investigación Abiertas • Conferencias especializadas en Minería de Datos: • KDD – International Conference on Knowledge Discovery from Databases • IEEE ICDM – IEEE International Conference on Data Mining • IDA – Intelligent Data Analysis • PKDD – European Conference on Principles and Practice of Knowledge Discovery in Databases • DMKD - Workshop on Research Issues in Data Mining and Knowledge Discovery • DS – International Conference on Discovery Science • DWDM - International Workshop on Data Warehouse and Data Mining. • DaWaK - International Conference on Data Warehousing and Knowledege Discovery.

  5. Líneas de Investigación Abiertas • Conferencias especializadas en Aprendizaje Automático: • ICML “International Conference on Machine Learning” • ECML “European Conference on Machine Learning” • MLDM – “Machine Learning and Data Mining in Pattern Recognition”

  6. Lenguajes de Consulta Inductivos • Nuevos Lenguajes de Consulta: • El descubrimiento en bases de datos se ve como un proceso de consulta a una base de datos (Imielinski and Manilla 1996). La situación se parece al desarrollo de lenguajes de consulta en los sesenta y setenta. • Una consulta inductiva o de búsqueda de patrones debe permitir al usuario restringir la búsqueda inductiva en los siguientes aspectos (Han et al. 1999): • La parte de la base de datos a ser minada (también llamada la vista minable o vista relevante) (Ng et al. 1998). • El tipo de patrón/reglas a ser minado (también llamado restricciones del conocimiento). • Cuantificadores estadísticos: representatividad (support) %, precisión (confidence/accuracy) %. • Otras propiedades que el patrón debería cumplir (número y forma de las reglas, interés, novedad, etc.).

  7. Lenguajes de Consulta Inductivos • Ejemplos de consultas que se desean: • ASOCIACIÓN • ¿Por qué (causa) la división de "serie para torpes" es tan provechosa? • ASOCIACIÓN + CLASIFICACIÓN • ¿Qué características comparten los clientes que no renovaron sus pólizas y en qué se diferencian de las que renovaron sus pólizas? • CLUSTERING: • Grupos de clientes que no pagaron su crédito. • Grupos de productos que han fallado el test de calidad. • CLUSTERING + PREDICCIÓN • Grupos de clientes que es probable que vayan a comprar un nuevo producto en el próximo año. • CLUSTERING + ASOCIACIÓN • Grupos de pacientes cuya muerte la causó combinaciones (cócteles) de fármacos.

  8. Lenguajes de Consulta Inductivos La consultas no pueden ser en lenguaje natural... EJEMPLO: ¿Qué es exactamente lo que se busca?

  9. Lenguajes de Consulta Inductivos • EJEMPLO (cont.): • Tipo de consulta: • SELECT CORRELATIONS ON NUMERICAL • FROM Persona • Respuesta: • Renta Familiar y Edad correlacionan (0.XX). • Hijos y Edad correlacionan (0.YY). • Renta Familiar e Hijos correlacionan (0.ZZ). • Tipo de consulta: • SELECT APPROX. ASSOCIATIONS ON (Obeso, Casado, Hijos > 0) • FROM Persona • Respuesta: • Casado e (Hijos > 0) están asociados (4 casos, 80%). • Obseso y casado están asociados (4 casos, 80%) • Se deben poder poner condiciones, p.ej.: • SUPPORT > 3, CONFIDENCE > 75% Correlaciones y Asociaciones

  10. Lenguajes de Consulta Inductivos • EJEMPLO (cont.): • Tipo de consulta: • SELECT EXACT DEPENDENCY RULES ON (Obeso, Casado, Hijos > 0) • FROM Persona • Respuesta: (Hijos > 0)  Casado (5 casos, 100%). • Casado  Obeso (5 casos, 100%) • Tipo de consulta: • SELECT EXACT DEPENDENCY RULES ON * • FROM Persona • Respuesta: (DNI)  ... • Ciudad  ... • Tipo de consulta: • SELECT PROB. DEPENDENCY RULES ON * • FROM Persona • Respuesta: Casado  Obeso (5 casos, 100%) • Se compara P(RHS/LHS) con P(RHS) para ver si tiene SUPPORT (significación). Reglas de Dependencias de Valor

  11. Lenguajes de Consulta Inductivos EJEMPLO (cont.): Tipo de consulta: SELECT CLASSIFICATION RULES FOR (Hijos > 0) ON * FROM Persona Respuesta: Casado AND (Renta Familiar > 2.000.000)  (Hijos > 0) También se deberían poder obtener reglas exactas, fuertes (sólo se permite un máx de errores) o probabilísticas. Clasificación

  12. Lenguajes de Consulta Inductivos • EJEMPLO (cont.): • Tipo de consulta: • SELECT SEGMENTATION RULES ON * • FROM Persona • Respuesta: Three Classes • Class 1 if Casado AND (Renta Familiar > 2.000.000) • Class 2 if Casado AND (Renta Familiar <= 2.000.000) • Class 3 if ¬Casado • Tipo de consulta: • SELECT SEGMENTATION RULES FOR Renta Familiar ON * • FROM Persona • Respuesta: Two classes on Renta Familiar • Renta Familiar >= 2.000.000 if Casado • Renta Familiar < 2.000.000 if ¬Casado Segmentación

  13. Lenguajes de Consulta Inductivos • EJEMPLO (cont.): • Patrón secuencial: • ¿Qué compras preceden a la compra de un microondas? • Respuesta: • Frigorífico con congelador de cuatro pisos (60%). • Predicciones: • ¿Volumen total de ventas estimado para el año 2000? • Regresión lineal sobre ventas 1995-1999 para predecir ventas 2000. • Tipo de consulta: • SELECT PRIMARY KEYS ON (Obeso, Casado, Hijos, Profesión) • FROM Persona • Respuesta: • (Profesión, Hijos) • (Hijos, Obeso, Casado) Tendencias temporales, Predicción Información del Esquema (descubrir claves primarias, R.I.).

  14. Lenguajes de Consulta Inductivos EJEMPLO (cont.): Varias tablas: SELECT RULES FROM Persona, Casado Respuesta: Persona(X) AND Persona (Y) AND Casado(X,Y)  Renta Familiar(X) = Renta Familiar(Y) Patrones más complicados Esta aproximación es restrictiva a los “modelos de consulta” que permita el lenguaje.

  15. Lenguajes de Consulta Inductivos • Propuesta M-SQL (Imielinski et al. 1996) • Basada en modelos de consulta... • Ejemplo: • SELECT FROM MINE(T): R • WHERE R.Consequent = { (Age = *) } • R.Support > 1000 • R.Confidence > 0.65; • R es una variable de regla y se puede utilizar: • R.Consequent • R.Body (antecedente) • R.Support • R.Confidence.

  16. Lenguajes de Consulta Inductivos • Propuesta DMQ (Data-Mining Query) language (Ng et al. 1998): • Utiliza la sintaxis del SQL para la vista minable • También basado en modelos de consulta. • EJEMPLO: • Esquema: • SALES(customer_name, item_name, transaction_id) • LIVES(customer_name, district, city) • ITEM(item_name, category, price) • TRANSACTION(transaction_id, day, month, day) • Consulta Inductiva (lenguaje natural): • “buscar las ventas de qué artículos baratos (con una suma de precios menor que $100) que puede motivar las ventas de qué artículos caros (con el precio mínimo de $500) de la misma categoría de los clientes de Vancouver en 1998”.

  17. Lenguajes de Consulta Inductivos • Propuesta DMQ. EJEMPLO: • Ejemplo de Consulta Inductiva: • mine associations as • lives(C,_, “Vancouver”) and • sales+(C, ?[I], {S})  sales+(C, ?[J], {T}) • from sales • where S.year = 1998 and T.year = 1998 and I.category = J.category • group by C, I.category • having sum(I.price) < 100 and min(J.price) >= 500 • with min_support = 0.01 and min_confidence = 0.5 • Ejemplo de Respuesta: • lives(C,_, “Vancouver”) and • sales(C, “Census_CD”, _) and sales(C, “Ms/Office97”, _) •  sales(C, “Ms/SQLServer”,_) [0.015, 0.68] +: operador regular (1 o más tuplas) ?[I] : utilizar clave ajena. I es la tupla instanciada. Es un patrón relacional. Support & Confidence.

  18. Lenguajes de Consulta Inductivos • Propuesta “OLE DB for Data Mining” de Microsoft. • extensión del protocolo de acceso a BB.DD. OLE DB. • Implementa una extensión del SQL que trabaja con DMM( Data Mining Model) y permite: • 1. Crear el modelo • 2. Entrenar el modelo • 3. Realizar predicciones

  19. Lenguajes de Consulta Inductivos Propuesta “OLE DB for Data Mining”: Ejemplo: CREACIÓN DEL MODELO (DMM): CREATE MINING MODEL CredikRisk ( [Customer ID] LONG KEY, [Profession] TEXT DISCRETE, [Income] TEXT DISCRETE, [Age] LONG CONTINUOUS, [Risk Level] TEXT DISCRETE PREDICT, ) USING [Microsoft Decision Tree] Esto crea un DMM vacío. Atributos de Entrada Atributo de Salida Tipo de Modelo

  20. Lenguajes de Consulta Inductivos Propuesta “OLE DB for Data Mining”: Ejemplo: ENTRENAR EL MODELO: Se usa una sentencia INSERT INTO. A diferencia de insertar datos como en una tabla normal lo que hace es analizar los casos que le introduzcamos y construir el contenido del DMM. INSERT INTO [CreditRisk] ( [CustomerID],[Profession],[Income],[Age],[RiskLevel] ) OPENROWSET('[Provider='MSOLESQL','user','pwd', 'SELECT [CustomerID],[Profession], [Income],[Age],[Risk] FROM [Customers]' ) Obtención de los datos de entrenamiento a través de una consulta SQL por OLE SQL Vista Minable

  21. Lenguajes de Consulta Inductivos Propuesta “OLE DB for Data Mining”: Ejemplo: USAR EL MODELO: El modelo se aplica a nuevos datos. La manera de hacerlo es similar a la concatenación de dos tablas relacionales, considerando el modelo como una tabla y los datos a predecir como otra tabla. El resultado es una nueva tabla con los datos que queramos (todos o sólo las predicciones). SELECT [CustomerID],[Income],[Age], CreditRisk.RiskLevel, PredictProbability(CreditRisk.RiskLevel) FROM CreditRisk PREDICTION JOIN Customers ON CreditRisk.Profession=Customers.Profession AND CreditRisk.Income=Customers.Income AND CreditRisk.Age=Customers.Age

  22. Lenguajes de consulta inductivos para Web Usage Mining • También existen lenguajes de consulta para seleccionar patrones relativos a uso de páginas web: • P.ej. En el sistema WUM (Web Utilization Miner) (Berendt & Spiliopoulou 2000), basado también en un grafo de secuencias de visitas, se puede utilizar el lenguaje MINT para hacer consultas del estilo: • SELECT t • FROM NODE AS a b, • TEMPLATE a * b AS t • WHERE a.support > 7 • AND (b.support / a.support) >= 0.4 • AND b.url != “G.html” • Seleccionaría pares de páginas visitadas consecutivamente en la que la primera se ha visitado al menos 7 veces y de éstas, al menos el 40% han llegado a la segunda. Además la segunda no puede ser “G.html”.

  23. Retos para la Minería de Datos • Escalabilidad: • esquemas de muestreo eficientes y suficientes. • procesamiento en memoria vs. en disco. • combinación de recursos entre tareas involucradas. • interfaces con los almacenes de datos. • uso de metadata para optimizar el acceso. • cuestiones cliente/servidor (dónde hacer el procesamiento). • aprovechamiento de paralelismo y de computación distribuida.

  24. Retos para la Minería de Datos • Automatización: • Desarrollo de asistentes (wizards) y/o lenguajes de consulta: • para definir la tarea de minería, entradas, salidas, ... • seleccionar y utilizar el conocimiento previo. • Transformación de los datos y reducción de dimensionalidad. • Compromiso entre simplicidad y precisión de los modelos en pro de una mayor inteligibilidad.

  25. Retos para la Minería de Datos • Otros Retos: • Tratamiento de datos cambiantes: necesidad de revisión y extensión de patrones (incrementalidad). • Minería de datos con tipos no-estándar (no numérico o no textual, p.ej. gráficos vectoriales, índices a ficheros, hiperenlaces), multimedia u orientados a objetos.

  26. Tendencias • 80s y principios 90s: • OLAP y reporting: consultas predefinidas. El sistema OLAP como sistema para extraer informes, gráficas y confirmar hipótesis. Técnicas fundamentalmente estadísticas. • Se usa casi exclusivamente información interna a la organización. • Finales de los 90 • Data-Mining: descubrimiento de patrones. Técnicas de aprendizaje automático para generar patrones novedosos. • El Data-Warehouse incluye Información Interna fundamentalmente. • Principios de los 00 • Técnicas de “scoring” y simulación: descubrimiento y uso de modelos globales. Estimación a partir de variables de entrada de variables de salida (causa-efecto) utilizando simulación sobre el modelo aprendido. • El Data-Warehouse incluye Información Interna y Externa (parámetros de la economía, poblacionales, geográficos, etc.).

  27. Software Gratuito • Software Disponible: • Librerías Genéricas: • MLC++ en C++. (Kohavi et al. 1994) (http://www.sgi.com/Technology/mlc/) • WEKA en Java. (http://www.cs.waikato.ac.nz/ml/weka) • Acompañado por el libro: “Data Mining: practical machine learning tools and techniques with Java implementations” Morgan Kaufmann • ML-Lisp en LISP (ftp://ftp.cs.utexas.edu/pub/mooney/ml-progs/) (http://mlwww.diee.unica.it/ML/gdl/mlsoftware.html) • Entorno DELVE: http://www.cs.utoronto.ca/~delve/index.html • Otros (data-mining): http://www.the-data-mine.com/bin/veiw/Software/WebIndex • Software Particular: • C4.5 (http://mlwww.diee.unica.it/ML/gdl/c4_5.html) • Progol (http://www-users.cs.york.ac.uk/~stephen/progol.html) • Golem (http://www-users.cs.york.ac.uk/~stephen/golem.html). • ILP systems (http://www-ai.ijs.si/~ilpnet2/systems/) • FLIP & SMILES (http://www.dsic.upv.es/~flip/)

  28. Direcciones • Recursos Generales: • KDcentral (www.kdcentral.com) • The Data Mine (http://www.the-data-mine.com) • Knowledge Discovery Mine (http://www.kdnuggets.com) • Mailing list: • KDD-nuggets: moderada y con poco ruido: • Para suscribirse, enviar un mensaje a “kdd-request@gte.com” con “subscribe kdnuggets” en la primera línea del mensaje (el resto en blanco). • Revistas: • Data Mining and Knowledge Discovery. (http://www.digimine.com/usama/datamine) • Intelligent Data Analysis (http://www.elsevier.com/locate/ida) • Asociaciones: • ACM SIGKDD (y la revista “explorations”, • http://www.acm.org/sigkdd/explorations/instructions.htm)

  29. Más Direcciones • Refrescadores de Estadística: • http://cne.gmu.edu/modules/dau/stat/index.html • http://www.statsoft.com/textbook/stathome.html • Otras fuentes sobre DM: • CRISP - DM, un consorcio industrial. • http://www.crisp-dm.org • DMG - The Data Mining Group, un consorcio mixto para crear estándares para intercambiar modelos predictivos. • http://www.dmg.org/ • Kurt Thearling's site: libros, artículos, tutoriales. • http://www3.shore.net/~kht/

  30. Redes de Investigación • RED MIDAS: Red Española de Minería de Datos y Aprendizaje Automático. Coordinador: José Riquelme, Universidad de Sevilla. • http://www.lsi.us.es/~riquelme • KDNET: Red de Excelencia Europea en “Knowledge Discovery” • http://www.kdnet.org

  31. ...

More Related