140 likes | 266 Views
Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining. Chihuahua, 9-11 de octubre de 2003. José Hernández Orallo jorallo@dsic.upv.es. Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia. Objetivos Generales.
E N D
Análisis y Extracción de Conocimiento en Sistemas de Información:Datawarehouse y Datamining Chihuahua, 9-11 de octubre de 2003 José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia
Objetivos Generales El objetivo fundamental de este curso es: conocer el potencial, la problemática y la tecnología (DW+DM) de análisis y extracción de conocimiento sobre sistemas de información Se instancia en dos subobjetivos principales: conocer las técnicas de almacenes de datos y OLAP para facilitar el procesamiento analítico de apoyo a la toma de decisiones estratégicas. DW saber aplicar las técnicas de minería de datos apropiadas para problemas concretos de extracción de conocimiento. DM
Objetivos Específicos (1/4) • Reconocer el potencial y la problemática del análisis de sistemas de información para la toma de decisiones. • Conocer las ventajas y casos donde es aconsejable recopilar información interna y externa en un Almacén de Datos. • Conocer el modelo multidimensional de datos de los almacenes de datos y los operadores de refinamiento asociados: drill, roll, slice & dice, pivot. • Conocer la arquitectura y diferentes implementaciones (ROLAP, MOLAP) de Almacenes de Datos. • Reconocer pautas para el diseño y mantenimiento de ADs.
Objetivos Específicos (2/4) • Reconocer los beneficios de su uso sistemático de técnicas de extracción de conocimiento para la obtención de modelos y patrones predictivos o descriptivos. • Conocer las fases del Descubrimiento de Conocimiento de Bases de Datos y la importancia de las mismas en el éxito del proceso (en especial las de limpieza y selección de datos). • Conocer las distintas técnicas de aprendizaje automático y estadísticas utilizadas en minería de datos, su potencial, su coste computacional y sus limitaciones de representación y de inteligibilidad.
Objetivos Específicos (3/4) • Elegir, para un problema concreto, qué técnicas de minería de datos son más apropiadas. • Generar los modelos y patrones elegidos utilizando una herramienta o paquete de minería de datos. • Evaluar la calidad de un modelo, utilizando técnicas sencillas de evaluación (validación cruzada). • Utilizar métodos de combinación de técnicas (p.ej. voting) y de reiteración (p.ej. boosting). • Conocer la problemática especial de la minería sobre la web (documentos textuales e hipertextuales) y las técnicas más usuales.
Objetivos Específicos (4/4) Además, y especialmente dirigido a los asistentes del mundo académico: • Conocer los problemas abiertos en la investigación de almacenes de datos y minería de datos. • Conocer los congresos y foros más importantes, así como las redes, recursos, etc., relacionados con ambas disciplinas.
Temario (1 de 4) PARTE I: INTRODUCCIÓN (tiempo estimado: 1 hora) PARTE II: ALMACENES DE DATOS (tiempo estimado: 4 horas) PARTE III: MINERÍA DE DATOS (tiempo estimado: 7 horas) PRÁCTICAS SOBRE PARTE III: 8 horas.
Temario (2 de 4) 1.1. Finalidades y Evolución de los Sistemas de Información. 1.2. Herramientas para la Toma de Decisiones: diferencias e interrelación. 1.3. Almacenes de Datos, OLAP y Minería de Datos: definición e interrelación. Parte I: Introducción
Temario (3 de 4) • 2.1. Introducción a los almacenes de datos: motivación definición y características. • 2.2. Arquitectura de un sistema de almacén de datos. • 2.3. Explotación de un almacén de datos: herramientas OLAP. • 2.4. Sistemas ROLAP y MOLAP. • 2.5. Carga y Mantenimiento de un Almacén de Datos. • 2.6. Diseño de un almacén de datos. • 2.7. Líneas de investigación abiertas. Parte II: Almacenes de Datos
Temario (4 de 4) • 3.1. Introducción a la Minería de Datos (DM) • 3.1.1. Motivación • 3.1.2. Problemas tipo y aplicaciones • 3.1.3. Relación de DM con otras disciplinas • 3.2. El proceso de KDD • 3.2.1. Las Fases del KDD • 3.2.2. Tipología de Técnicas de Minería de Datos • 3.2.3. Sistemas Comerciales • 3.2.4. Visualización • 3.3. Técnicas de Minería de Datos • 3.3.1. El Problema de la Extracción Automática de Conocimiento. • 3.3.2. Evaluación de Hipótesis • 3.3.3. Técnicas no supervisadas y descriptivas. • 3.3.4. Técnicas supervisadas y predictivas. • 3.4. Web Mining • 3.4.1. Los Problemas de la Información No Estructurada. • 3.4.2. Extracción de Conocimiento a partir de Documentos HTML y texto. • 3.4.3. Extracción de Información semi-estructurada (XML). • 3.5. Líneas de Investigación Abiertas Parte III: Minería de Datos
Material y Organización • Material: • Transparencias y boletines. • Software: • SPSS Clementine 6.0 • Otra Documentación: • http://www.dsic.upv.es/~jorallo/cursoDWDM • Sesiones de 4 horas: • 2 exposición • 2 prácticas con Clementine
Bibliografía (1/3). Almacenes de Datos • Inmon, W.H. "Building the Data Warehouse", John Wiley, 1992 • Inmon, W.H. et al. "Managing the Data Warehouse", John Wiley, 1997 • Inmon, W.H. et al. "Data Warehouse Performance", John Wiley, 1999 • Kimball, R. "The Data Warehouse Toolkit", John Wiley, 1996 • Kimball, R et al. "The Data Warehouse Lifecycle Toolkit", John Wiley, 1998 • Giovinazzo, W. "Object-Oriented Data Warehouse Design", Prentice-Hall, 2000. • Jarke, M. et al. "Fundamentals of Data Warehouses", Springer, 2000.
Bibliografía (2/3). Minería de Datos • Berry M.J.A.; Linoff, G.S. “Mastering Data Mining” Wiley 2000. • Berthold, M.; Hand, D.J. (ed) “Intelligent Data Analysis. An Introduction” Springer 1999. (Nueva edición a aparecer en 2002). • Dunham, M.H. “Data Mining. Introductory and Advanced Topics” Prentice Hall, 2003. • Dzeroski, S.; Lavrac, N. “Relational Data Mining” Springer 2001. • Etzioni, O. “The World- Wide Web. Quagmire or Gold Mine” Communications of the ACM, November 1996, Vol. 39, nº 11, 1996. • Fayyad, U.M.; Piatetskiy-Shapiro, G.; Smith, P.; Ramasasmy, U. “Advances in Knowledge Discovery and Data Mining”, AAAI Press / MIT Press, 1996. • Fayyad, U.M.; Grinstein, G.; Wierse, A. “Information Visualization in Data Mining and Knowledge Discovery” Morgan Kaufmann, Harcourt Intl., 2001. • Han, J.; Kamber, M. “Data Mining: Concepts and Techniques” Morgan Kaufmann, 2001.
Bibliografía (3/3). Minería de Datos • Hand, D.J.; Mannila, H. and Smyth, P. “Principles of Data Mining”, The MIT Press, 2000. • Hernández, J.; Ramírez, MJ.; Ferri, C. “Introducción a la Minería de Datos” Pearson Prentice Hall, a aparecer2004. • Kosala, R.; Blockeel, H. “Web Mining Research: A Survey” ACM SIGKDD Explorations, Newsletter of the ACM SIG on Knowledge Discovery and Data Mining, June 2000, Vol. 2, nº1, pp. 1-15. • Mena, Jesus “Data Mining Your Website”, Digital Press, July 1999. • Mitchell, T.M. “Machine Learning” McGraw-Hill 1997. • Pyle, D. “Data Preparation for Data Mining” Morgan Kaufmann, Harcourt Intl., 1999. • Thuraisingham, B. “Data Mining. Technologies, Techniques, Tools, and Trends”, CRC Press, 1999. • Witten, I.H.; Frank, E. “Tools for Data Mining”, Morgan Kaufmann, 1999. • Wong, P. C. “Visual Data Mining”, Special Issue of IEEE Computer Graphics and Applications, Sep/ Oct 1999, pp. 20- 46.