1 / 14

Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining

Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining. Chihuahua, 9-11 de octubre de 2003. José Hernández Orallo jorallo@dsic.upv.es. Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia. Objetivos Generales.

burt
Download Presentation

Análisis y Extracción de Conocimiento en Sistemas de Información: Datawarehouse y Datamining

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Análisis y Extracción de Conocimiento en Sistemas de Información:Datawarehouse y Datamining Chihuahua, 9-11 de octubre de 2003 José Hernández Orallo jorallo@dsic.upv.es Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia

  2. Objetivos Generales El objetivo fundamental de este curso es: conocer el potencial, la problemática y la tecnología (DW+DM) de análisis y extracción de conocimiento sobre sistemas de información Se instancia en dos subobjetivos principales: conocer las técnicas de almacenes de datos y OLAP para facilitar el procesamiento analítico de apoyo a la toma de decisiones estratégicas. DW saber aplicar las técnicas de minería de datos apropiadas para problemas concretos de extracción de conocimiento. DM

  3. Objetivos Específicos (1/4) • Reconocer el potencial y la problemática del análisis de sistemas de información para la toma de decisiones. • Conocer las ventajas y casos donde es aconsejable recopilar información interna y externa en un Almacén de Datos. • Conocer el modelo multidimensional de datos de los almacenes de datos y los operadores de refinamiento asociados: drill, roll, slice & dice, pivot. • Conocer la arquitectura y diferentes implementaciones (ROLAP, MOLAP) de Almacenes de Datos. • Reconocer pautas para el diseño y mantenimiento de ADs.

  4. Objetivos Específicos (2/4) • Reconocer los beneficios de su uso sistemático de técnicas de extracción de conocimiento para la obtención de modelos y patrones predictivos o descriptivos. • Conocer las fases del Descubrimiento de Conocimiento de Bases de Datos y la importancia de las mismas en el éxito del proceso (en especial las de limpieza y selección de datos). • Conocer las distintas técnicas de aprendizaje automático y estadísticas utilizadas en minería de datos, su potencial, su coste computacional y sus limitaciones de representación y de inteligibilidad.

  5. Objetivos Específicos (3/4) • Elegir, para un problema concreto, qué técnicas de minería de datos son más apropiadas. • Generar los modelos y patrones elegidos utilizando una herramienta o paquete de minería de datos. • Evaluar la calidad de un modelo, utilizando técnicas sencillas de evaluación (validación cruzada). • Utilizar métodos de combinación de técnicas (p.ej. voting) y de reiteración (p.ej. boosting). • Conocer la problemática especial de la minería sobre la web (documentos textuales e hipertextuales) y las técnicas más usuales.

  6. Objetivos Específicos (4/4) Además, y especialmente dirigido a los asistentes del mundo académico: • Conocer los problemas abiertos en la investigación de almacenes de datos y minería de datos. • Conocer los congresos y foros más importantes, así como las redes, recursos, etc., relacionados con ambas disciplinas.

  7. Temario (1 de 4) PARTE I: INTRODUCCIÓN (tiempo estimado: 1 hora) PARTE II: ALMACENES DE DATOS (tiempo estimado: 4 horas) PARTE III: MINERÍA DE DATOS (tiempo estimado: 7 horas) PRÁCTICAS SOBRE PARTE III: 8 horas.

  8. Temario (2 de 4) 1.1. Finalidades y Evolución de los Sistemas de Información. 1.2. Herramientas para la Toma de Decisiones: diferencias e interrelación. 1.3. Almacenes de Datos, OLAP y Minería de Datos: definición e interrelación. Parte I: Introducción

  9. Temario (3 de 4) • 2.1. Introducción a los almacenes de datos: motivación definición y características. • 2.2. Arquitectura de un sistema de almacén de datos. • 2.3. Explotación de un almacén de datos: herramientas OLAP. • 2.4. Sistemas ROLAP y MOLAP. • 2.5. Carga y Mantenimiento de un Almacén de Datos. • 2.6. Diseño de un almacén de datos. • 2.7. Líneas de investigación abiertas. Parte II: Almacenes de Datos

  10. Temario (4 de 4) • 3.1. Introducción a la Minería de Datos (DM) • 3.1.1. Motivación • 3.1.2. Problemas tipo y aplicaciones • 3.1.3. Relación de DM con otras disciplinas • 3.2. El proceso de KDD • 3.2.1. Las Fases del KDD • 3.2.2. Tipología de Técnicas de Minería de Datos • 3.2.3. Sistemas Comerciales • 3.2.4. Visualización • 3.3. Técnicas de Minería de Datos • 3.3.1. El Problema de la Extracción Automática de Conocimiento. • 3.3.2. Evaluación de Hipótesis • 3.3.3. Técnicas no supervisadas y descriptivas. • 3.3.4. Técnicas supervisadas y predictivas. • 3.4. Web Mining • 3.4.1. Los Problemas de la Información No Estructurada. • 3.4.2. Extracción de Conocimiento a partir de Documentos HTML y texto. • 3.4.3. Extracción de Información semi-estructurada (XML). • 3.5. Líneas de Investigación Abiertas Parte III: Minería de Datos

  11. Material y Organización • Material: • Transparencias y boletines. • Software: • SPSS Clementine 6.0 • Otra Documentación: • http://www.dsic.upv.es/~jorallo/cursoDWDM • Sesiones de 4 horas: • 2 exposición • 2 prácticas con Clementine

  12. Bibliografía (1/3). Almacenes de Datos • Inmon, W.H. "Building the Data Warehouse", John Wiley, 1992 • Inmon, W.H. et al. "Managing the Data Warehouse", John Wiley, 1997 • Inmon, W.H. et al. "Data Warehouse Performance", John Wiley, 1999 • Kimball, R. "The Data Warehouse Toolkit", John Wiley, 1996 • Kimball, R et al. "The Data Warehouse Lifecycle Toolkit", John Wiley, 1998 • Giovinazzo, W. "Object-Oriented Data Warehouse Design", Prentice-Hall, 2000. • Jarke, M. et al. "Fundamentals of Data Warehouses", Springer, 2000.

  13. Bibliografía (2/3). Minería de Datos • Berry M.J.A.; Linoff, G.S. “Mastering Data Mining” Wiley 2000. • Berthold, M.; Hand, D.J. (ed) “Intelligent Data Analysis. An Introduction” Springer 1999. (Nueva edición a aparecer en 2002). • Dunham, M.H. “Data Mining. Introductory and Advanced Topics” Prentice Hall, 2003. • Dzeroski, S.; Lavrac, N. “Relational Data Mining” Springer 2001. • Etzioni, O. “The World- Wide Web. Quagmire or Gold Mine” Communications of the ACM, November 1996, Vol. 39, nº 11, 1996. • Fayyad, U.M.; Piatetskiy-Shapiro, G.; Smith, P.; Ramasasmy, U. “Advances in Knowledge Discovery and Data Mining”, AAAI Press / MIT Press, 1996. • Fayyad, U.M.; Grinstein, G.; Wierse, A. “Information Visualization in Data Mining and Knowledge Discovery” Morgan Kaufmann, Harcourt Intl., 2001. • Han, J.; Kamber, M. “Data Mining: Concepts and Techniques” Morgan Kaufmann, 2001.

  14. Bibliografía (3/3). Minería de Datos • Hand, D.J.; Mannila, H. and Smyth, P. “Principles of Data Mining”, The MIT Press, 2000. • Hernández, J.; Ramírez, MJ.; Ferri, C. “Introducción a la Minería de Datos” Pearson Prentice Hall, a aparecer2004. • Kosala, R.; Blockeel, H. “Web Mining Research: A Survey” ACM SIGKDD Explorations, Newsletter of the ACM SIG on Knowledge Discovery and Data Mining, June 2000, Vol. 2, nº1, pp. 1-15. • Mena, Jesus “Data Mining Your Website”, Digital Press, July 1999. • Mitchell, T.M. “Machine Learning” McGraw-Hill 1997. • Pyle, D. “Data Preparation for Data Mining” Morgan Kaufmann, Harcourt Intl., 1999. • Thuraisingham, B. “Data Mining. Technologies, Techniques, Tools, and Trends”, CRC Press, 1999. • Witten, I.H.; Frank, E. “Tools for Data Mining”, Morgan Kaufmann, 1999. • Wong, P. C. “Visual Data Mining”, Special Issue of IEEE Computer Graphics and Applications, Sep/ Oct 1999, pp. 20- 46.

More Related