1 / 26

Mini curso: Inteligencia de negocios (Bodega y Minería de Datos) aplicación práctica

Mini curso: Inteligencia de negocios (Bodega y Minería de Datos) aplicación práctica. Grupo de Investigación en Software. Mauro Callejas Cuervo Ecuador, Mayo 2014 Sesión 2. Universidad Pedagógica y Tecnológica de Colombia. Agenda. Generalidades sobre el Grupo GIS. Sesión 1.

ramona
Download Presentation

Mini curso: Inteligencia de negocios (Bodega y Minería de Datos) aplicación práctica

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Mini curso: Inteligencia de negocios (Bodega y Minería de Datos) aplicación práctica Grupo de Investigación en Software Mauro Callejas Cuervo Ecuador, Mayo 2014 Sesión 2 Universidad Pedagógica y Tecnológica de Colombia

  2. Agenda Generalidades sobre el Grupo GIS Sesión 1 Conceptualización KDD Minería de datos Sesión 2 Bodega de Datos Sesión 3 Inteligencia de Negocios

  3. Contenido ¿Qué es Bodega de Datos? Sistema transaccional Vs. Bodega Data Mart Cubo multidimensional Bases de datos multidimensionales

  4. 1. ¿Qué es Bodega de datos? • Almacén de datos que reúne información histórica generada por todos los distintos departamentos de una organización, orientada a consultas complejas y de alto rendimiento. • Es el centro de la arquitectura para los sistemas de información en la década de los 90’s. Plataforma sólida, a partir de los datos históricos para su análisis. • Facilita la integración de sistemas. Organiza y almacena los datos que se necesitan para el procesamiento analítico e informático sobre una amplia perspectiva de tiempo [1].

  5. Sistema transaccional Vs. Bodega Se puede comparar un DW, haciendo un paralelo de cómo los datos almacenados en éste, difieren de los datos transaccionales usados por las aplicaciones operacionales, así:

  6. ¿Qué es un Data Mart? Es una estructura de tablas que representa las diferentes áreas sensibles del negocio, y donde se organizan los datos necesarios para construir el cubo multidimensional que contiene las dimensiones y medidas. Está compuesto por una tabla de hechos, que contiene las medidas necesarias para el análisis y los identificadores de los objetos a analizar, y de tablas de dimensiones que cuentan con las descripciones de los objetos en cuestión.

  7. Data Mart es… Fuente: http://static.scribd.com/docs/h2vhz2jh85gyo.swf?INITIAL_VIEW=page Un Datamart es una base de datos departamental, especializada en el almacenamiento de los datos de un área de negocio específica. Se caracteriza por disponer la estructura óptima de datos para analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento. Un Datamartpuede ser alimentado desde los datos de un datawarehouse, o integrar por sí mismo un compendio de distintas fuentes de información [2-3].

  8. Datamart OLAP Se basan en los populares cubos OLAP, que se construyen agregando, según los requisitos de cada área o departamento, las dimensiones y los indicadores necesarios de cada cubo relacional. El modo de creación, explotación y mantenimiento de los cubos OLAP es muy heterogéneo, en función de la herramienta final que se utilice [3]. Dada una relación de orden N, se considera la posibilidad de una proyección que dispone de los campos X, Y, Z como clave de la relación y de W como atributo residual. Categorizando esto como una función se tiene que: W : (X,Y,Z) → W Los atributos X, Y, Z se corresponden con los ejes del cubo, mientras que el valor de W devuelto por cada tripleta (X, Y, Z) se corresponde con el dato o elemento que se rellena en cada celda del cubo Cubo OLAP de tres dimensiones, Producto, Ciudad, Tiempo

  9. Sistemas MOLAP Un desarrollo un poco más reciente ha sido la solución OLAP híbrida (HOLAP), la cual combina las arquitecturas ROLAP y MOLAP para brindar una solución con las mejores características de ambas: desempeño superior y gran escalabilidad. Un tipo de HOLAP mantiene los registros de detalle (los volúmenes más grandes) en la base de datos relacional, mientras que mantiene las agregaciones en un almacén MOLAP separado.

  10. Características de un Data Mart • Poco volumen de datos • Mayor rapidez de consulta • Consultas SQL y/o MDX sencillas • Validación directa de la información • Facilidad para la historización de los datos

  11. Cubo Multidimensional Es una estructura de almacenamiento que permite construir las diferentes y posibles combinaciones entre dimensiones y medidas, para visualizar la información del DataWareHouse en una organización hasta un determinado grado de detalle, esta estructura es independiente al sistema transaccional de la compañía y facilita consultar información histórica de manera rápida y eficiente; ofreciendo la posibilidad de navegar y analizar los datos requeridos [4].

  12. El modelo multidimensional busca • Disminuir al máximo el tiempo requerido para realizar una consulta (redundancia de los datos no es relevante). • Define dimensiones, medidas y tablas de hechos. • Existen relaciones únicamente entre la tabla de hechos y las dimensiones, no entre dimensiones. • Estructura sencilla y comprensible.

  13. Medidas o Métricas Son características cualitativas o cuantitativas, de los objetos que se desean analizar en las empresas. Las medidas cuantitativas están dadas por valores o cifras porcentuales. La información que brinda una medida es usada por los usuarios en sus consultas para evaluar el desempeño de un área. “Lo que se puede medir se puede controlar y mejorar”. Por ejemplo, se tienen las ventas en dólares, el número de unidades de inventario, las horas trabajadas, el promedio de piezas producidas, el porcentaje de aceptación de un producto, el consumo de combustible de un vehículo, entre otros [3][5].

  14. Dimensión Son los objetos del negocio, con los cuales se puede analizar la tendencia y el comportamiento del negocio. La definición de estas dimensiones se basa en políticas de la compañía o del mercado, es decir, como interpretar o clasificar la información para segmentar el análisis en sectores que por sus características comunes facilitan la observación y el análisis. [5]

  15. Preguntas para definir las dimensiones (1) ¿Cuándo?  Se realiza un análisis a través del tiempo y se visualiza de manera comparativa el desempeño del negocio, en este caso permite seleccionar épocas de la historia para determinar el comportamiento en un momento dado. ¿Dónde? Nos ubica en un área física o imaginaria donde se están llevando a cabo los movimientos que se desean analizar, estos lugares pueden ser zonas geográficas, bodegas de almacenamiento de mercancía, divisiones hacia el interior de la organización, centros de costo, clasificación de las cuentas contables, entre otras. ¿Qué?  Es el objeto del negocio, o es el objeto de interés para determinada área de la compañía, para estos casos se tienen los productos y/o servicios, la materia prima como elemento de interés para la división de abastecimientos, los vehículos para la sección de transportes, las maquinas de facto para el área de producción, entre otros.

  16. Preguntas para definir las dimensiones (2) • ¿Quién?  En esta dimensión se plantea una estructura de los elementos que afectan directamente el objeto de interés, en estos casos se hace referencia a las áreas comercial o de ventas, a los empleados de la organización cuando se esta realizando un análisis a nivel del talento Humano, entre otros. • ¿Cuál? Es hacia donde está enfocado el esfuerzo de la organización o de una determinada área del negocio, para hacer llegar los productos o servicios. Por ejemplo para el caso de un cliente interno, se puede tener un análisis de la cantidad de servicios que ofrece el departamento técnico en las áreas de la compañía y poder determinar cuáles solicitan mayor soporte y quienes están aprovechando el recurso con que se cuenta.

  17. Estructura de las dimensiones Las Dimensiones mantienen la siguiente estructura: Nombre Tabla • Nombre e la tabla de dimensiones. Nombre de la dimensión a la cual se le extrae información • Los atributos. Son de tipo cualitativo (sus valores son modalidades) que suministran el contexto en el que se obtienen las medidas en un esquema de hecho. Ejemplos: días, semanas, ciudades, provincias... • La llave sustituta. Ésta hace la función de la llave primaria en el modelo relacional y es un identificador único.

  18. Tablas de hechos Cada modelo multidimensional está compuesto al menos de una tabla con una clave primaria compuesta, denominada tabla de hechos, y un conjunto de tablas más pequeñas denominadas tablas de dimensiones. Cada una de las tablas de dimensión tiene una llave sustituta que corresponde exactamente con uno de los componentes de la clave compuesta de la tabla de hechos [6].

  19. Modelo multidimensional Fuente: http://sisab.lce.org/~luisrive/Docs/DataWarehousing.doc

  20. Bases de Datos Multidimensionales [7] Se puede definir a través de un ejemplo: Se tiene una base de datos que maneje los clientes, productos y periodos de entrega, los datos podrían estar representados como un arreglo de tres dimensiones donde cada dimensión corresponde a cada una de las “tablas” respectivamente; cada valor individual de una celda, podría representar la cantidad total del producto indicado, vendido al cliente indicado, en el periodo indicado.

  21. Elementos de una BD Multidimensional (1) • Esquema de hecho: es el objeto a analizar. Ejemplos: empleados, ventas, stocks... • Atributos de hecho o de síntesis, medidas: atributos de tipo cuantitativo cuyos valores (cantidades) se obtienen generalmente por aplicación de una función estadística que resume un conjunto de valores en un único valor. Ejemplos: número de empleados, cantidad vendida, precio promedio, y otros. • Funciones resumen: funciones de tipo estadístico que se aplican a los atributos de hecho. Ejemplos:conteos, frecuencia, suma, media, máximo,…

  22. Elementos de una BD Multidimensional (2) • Dimensiones: cada uno de los ejes en un espacio multidimensional. Ejemplos:tiempo, espacio, productos, empleados, departamentos. • Atributos de Dimensión o de Clasificación: atributos de tipo cualitativo (sus valores son modalidades) que suministran el contexto en el que se obtienen las medidas en un esquema de hecho. Ejemplos:días, semanas, ciudades, provincias... • Jerarquías: varios atributos de dimensión unidos mediante una relación de tipo jerárquico. Ejemplos:día -> semana -> mes -> año.

  23. CONSULTAS MULTIDIMENSIONALES Y EXTENSIONES A SQL [8] • En una bodega de datos es común tener consultas multidimensionales y se han hecho varias extensiones a SQL. Por ejemplo, operaciones de exclusión, funciones aritméticas, combinaciones de exclusión e inclusión, agregación (combinación de información en registros). • Algunas de las extensiones de SQL se basan en añadir funciones estadísticas (media, varianza), funciones físicas (centro de masa, momento angular), funciones de análisis financiero. Algunos manejadores de bases de datos permiten añadir funciones propias de agregación (Oracle, Informix, DB2). • Existen cinco funciones en SQL para agregar valores de una tabla: COUNT(), SUM(), MIN(), MAX(), y AVG(). En SQL las funciones de agregación están basadas en el operador GROUP BY. Con GROUP BY se pueden hacer tablas con muchos valores agregados.

  24. Extensión de SQL para BD Multidimensional Una extensión reciente de un comando SQL se llama data-cube, el cual genera el conjunto potencia de las columnas de agregación. Los reportes normalmente agregan datos de manera gruesa y luego se van afinando en niveles subsecuentes, produciendo sub-totales. El ir hacia arriba en los niveles se llama rolling-up e ir hacia abajo se llama drilling-down. Roll-up es asimétrico (hace agregaciones en algunas dimensiones pero no en otras), la agregación que es simétrica se llama cross-tabulation o crosstab. Data-cube es un operador de agregación que generaliza GROUP BY y ROLL UP.

  25. Gracias

  26. Referencias [1] Inteligencia de negocios aplicada: caso región Huetar Norte de Costa Rica. http://www.sirzee.itcr.ac.cr/COMPDES09/COMPDES09/COMPDES2009/ponencias-PPT/12A/P19-Inteligencia%20de%20negocios%20aplicada,%20Caso%20Region%20Huetar%20Norte%20de%20Costa%20Rica.pdf [2] BI Business Inlelligencehttp://www.msig.espol.edu.ec/recursos/1.Business_Intelligence_Resumen.pdf [3] Datamart. http://www.sinnexus.com/business_intelligence/datamart.aspx [4] Construcción de indicadores de gestión y herramientas OLAP para pequeñas y medianas empresas http://www.bsc-luminis.cl/articulos/Cubos_OLAP_y_Business_Inteligence.pdf [5] Monografía de Adscripción: Data Warehousehttp://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/MonoAdsDiseno.pdf [6] Construcción de indicadores de gestión y herramientas OLAP para pequeñas y medianas empresas http://www.bsc-luminis.cl/articulos/Cubos_OLAP_y_Business_Inteligence.pdf [7] DatawarehouseDefiniciones Preliminares. http://www.scribd.com/doc/963261/cuerpo [8] http://dns1.mor.itesm.mx/~emorales/Cursos/KDD/node164.html • http://www.sqlmax.com/dataw1.asp • http://www.iscmolina.com/Data Warehousing.html • http://www.isoft.com.uy/web/consult/data_hou.htm • http://www.ideasa.net/inteligencia.htm • http://www.virtual.unal.edu.co/cursos/economicas/92211/lecciones/unidad2/dwh/dwh.htm • http://www.sinnexus.com/business_intelligence/olap_avanzado.aspx

More Related