320 likes | 452 Views
DATA WAREHOUSE. Eduardo López Guerrero José Alberto Soto Omar Suárez Hernández. INTRODUCCION. Desde los inicios de la era de la computadora, las organizaciones ha usado los datos desde sus sistemas operacionales para entender sus necesidades de información.
E N D
DATA WAREHOUSE Eduardo López Guerrero José Alberto Soto Omar Suárez Hernández
INTRODUCCION Desde los inicios de la era de la computadora, las organizaciones ha usado los datos desde sus sistemas operacionales para entender sus necesidades de información. El data warehouse, es el centro de las grandes instituciones, por que provee un ambiente para que las organizaciones hagan un mejor uso de la información que esta siendo administrada por diversas aplicaciones operacionales. Data warehouse es una colección de datos en la cual se encuentra integrada la información, no volátil de tiempo variante que se usa como soporte para la toma de decisiones. Al reunir los elementos de datos apropiados desde diversas fuentes, simplifica el proceso de análisis y consultas de esta información en menos tiempo. Un data warehouse se crea al extraer la información desde una o más bases de datos, esta información es transformada para eliminar inconsistencias y luego es cargada en la datawarehouse. La innovación que se brinda dentro de un ambiente datawarehousing, puede permitir a cualquier organización hacer un uso optimo de los datos, y hacer la toma de decisiones mas efectiva. El data warehouse es siempre un almacén de datos transformados y separados de la aplicación o base de donde se encontraron.
SISTEMAS DE INFORMACION ESTATREGICO TACTICO TECNICO-OPERATIVO INTERINSTUCIONAL
SISTEMAS DE INFORMACION • ESTRATEGICO Orientados a soportar la toma de decisiones, proporcionando un soporte básico. Se caracterizan por que son sistemas si carga periódica de trabajo, su utilización no es predecible. • TACTICOS. Diseñados para las actividades y manejo de la documentación, para consultas en el sistema, proporcionar informes, facilitar la gestión independiente por parte de los niveles intermedios de la organización. • SISTEMAS TECNICO-OPERATIVOS. Operaciones tradicionales de captura masiva de datos. Y servicios básicos de tratamiento de datos (contabilidad, presupuestos, almacenes, personal etc). • SISTEMAS INTERINSTITUCIONALES Es el ultimo nivel de sistemas de información, son como consecuencia del mercado global el cual obliga a implementar estructuras de comunicación entre la organización y el mercado. (Internet).
CARACTERISTICAS Los datos de un Warehouse difieren de los datos operacionales usados por las aplicaciones de producción. Base de datos Operacional Data Warehouse • Datos del negocio para información. • Orientado al sujeto. • Actual + histórico. • Detallada + resumida. • Estable. • Datos operacionales. • Orientado a la aplicación. • Actual. • Detallada • Cambia continuamente.
CARACTERISTICAS • ORIENTADO A TEMAS. La información esta basada en los aspectos que son de interés para la empresa. en el ambiente operacional, una aplicación puede ser clientes, productos y cuentas, la base de datos combina estos elementos en una estructura que acomoda para las necesidades de la aplicación, en ambiente data warehouse, se organiza alrededor de sujetos, como cliente, vendedor, producto y actividad. La diferencia entre orientación a procesos y la orientación a temas, radica en el contenido del data a escala, el data warehouse excluye la información que no será usada por el proceso de toma de desiciones. • INTEGRADA Es el aspecto más importante del ambiente datawarehousing siempre esta integrada. La integración de datos se muestra de muchas maneras: en convenciones de nombres consistentes, en la medida uniforme de las variables, atributos físicos de los datos consistentes, fuentes múltiples y otros. • DE TIEMPO VARIANTE. Toda la información del data warehouse es requerida en algún momento. • ESTABLE La información es útil solo cuando es estable.
ESTRUCTURA Altamente resumido Ligeramente resumido Detalle actual Detalle histórico de los datos
INTERFAZ ADMINISTRADOR DE CONSULTAS DATAWAREHOUSE INTEGRADOR EXTRACTOR / MONITOR EXTRACTOR / MONITOR FUENTE FUENTE ARQUITECTURA DE UN DATAWAREHOUSE Nos sirve para comprender como se relacionan los componentes involucrados en una estrategia de Datawarehouse.
ELEMENTOS CONSTITUYENTES DE UNA ARQUITECTURA DATAWAREHOUSE En la parte inferior de la figura se pueden ver las fuentes conectadas a un extractor / monitor. El extractor es el responsable de homogenizar la información. El monitor es el responsable de detectar los cambios que puedan ser realizados en las fuentes y reportarlos al integrador. El integrador recibe los resultados de los extractores y después de integrarlos, los carga al DW. Para poder cargar la información, se debe diseñar una estructura, para almacenar los datos, el esquema multidimensional del DW. El administrador de consultas se encarga de organizar las consultas y seleccionar los operadores para permitir su análisis. Para explicar la actividad de un DW podemos identificar dos grandes fases: construcción y explotación. La fase de construcción se refiere al diseño e implementación de herramientas encargados de llevar los datos de las fuentes al repositorio. Tomando en cuenta que se debe integrar y homogenizar la información previamente. Un proceso posterior pero asociad a esta mis fase es el proceso de mantenimiento. Este se encarga de llevar los datos nuevos al DW.
En la fase de explotación se lleva a cabo el análisis de los datos almacenados dentro del DW a través de técnicas que facilitan y hacen mas eficiente su consulta. Ya con el DW poblado lo ultimo es diseñar e implementar una interfaz que le permita al usuario final interactuar con el repositorio, brindándole todas las ventajas del análisis de la información. MODELO MULTIDIMENSIONAL El modelo multidimensional describe la organización de la información en un DW. Define los conceptos para agregar hechos a lo largo de muchos atributos, llamados dimensiones. CONCEPTOS. Dimensión. Una dimensión representa una perspectiva de los datos. Las dimensiones son usadas para seleccionar y agregar datos a un cierto nivel deseado de detalle. Podemos definir el concepto de dimensión como el grado de libertad de movimiento en el espacio. Entenderemos esta libertad como el numero de direcciones ortogonales diferentes que podamos tomar.
Las dimensiones se relacionan en jerarquías o niveles. Por ejemplo, la dimensión Zona puede tener los siguientes niveles: ciudad, estado, región, país y continente. • Medida. • Una medida es un valor en un espacio multidimensional definido por dimensiones ortogonales. La medida es un dato numérico que representa la agregación de un conjunto de datos. Los datos son producidos como el resultado del funcionamiento de una empresa. Un DW comúnmente tiene tres tipos de medidas. • Snapshots: modelan entidades en un punto dado en el tiempo. • Eventos: modelan eventos del mundo real, con el grano mas fino. • Snapshots fijos acumulativos: modelan actividades en un punto dado en el tiempo.
Dependiendo de sus propiedades podemos tener tres medidas: • Aditivas, pueden ser combinadas a lo largo de cualquier dimensión. Por ejemplo, “temperatura”, que puede estar dada por las dimensiones estación, región y fecha. • Semi-aditivas, pueden no ser combinadas a lo largo de una o mas dimensiones. Por ejemplo, “nomina” que puede estar dada por las dimensiones empleados y tiempo, pero no producto. • No aditivas, no pueden combinarse a lo largo de ninguna dimensión. Por ejemplo, “cantidad de producto”, que únicamente puede estar dada por la dimensión producto. Cubo. Una instancia del modelo multidimensional, esquema multidimensional, es conocida como Cubo o hipercubo de n dimensiones. Cuando la gente observa los datos de un cubo de n dimensiones, es mas fácil interpretar la información que contiene dicho cubo, así como las distintas operaciones que se le pueden realizar.
Para ejemplificar consideramos la existencia de una aplicación que realiza la venta de juguetes. Para organizar sus ventas se define el cubo formado por las dimensiones producto, tiempo y región. La figura presenta el esquema multidimensional de un DW para la venta de productos que organiza un conjunto de medidas según las dimensiones REGION, TIEMPO y PRODUCTO. ESQUEMA MULTIDIMENSIONAL
Región Medida Producto Tiempo Id Producto Id Ciudad Id Tiempo unid vendidas Id Producto Descripción Marca Grupo Familia Tipo Precio Id Ciudad Nombre Dirección Región Id Tiempo Fecha Cada dimensión tiene asociada una jerarquía de niveles que denota la granularidad de observación de la medida con respecto a una dimensión. Por ejemplo, la dimensión REGION se organiza por Ciudad-Estado-Región-País. Así se puede observar la cantidad de muñecas vendidas el martes 26 en la tienda ubicada en la ciudad de Puebla. ESQUEMA DE REPRESENTACION Un esquema multidimensional puede instrumentarse usando un esquema relacional en estrella (Star Schema) o usando un esquema copo de nieve (Snow Flake Schema). Un esquema de estrella esta formado por una tabla para cada dimensión y una tabla principal de hechos. En la tabla de hechos cada uno de los atributos es a una llave extranjera hacia cada tabla de dimensión como se puede apreciar en la sig. figura. ESQUEMA EN ESTRELLA
Medida Id Producto Id Ciudad Id Tiempo unid vendidas En un esquema copo de nieve las tablas de dimensiones están normalizadas. Esto evita redundancia en los datos. Este esquema representa mejor la semántica de las dimensiones del ambiente de negocios, ya que tiene un acceso mas directos a los datos. Id Región Región Región Id Producto Descripción Marca Tipo Precio Id Ciudad Nombre Dirección Id Tiempo día Producto Tiempo Id Grupo grupo Id Tiempo mes Id Familia familia Id Tiempo año
DATAWAREHOUSE EXTRACTOR / MONITOR EXTRACTOR / MONITOR EXTRACTOR / MONITOR FUENTE FUENTE FUENTE CONSTRUCCION Y MANTENIMIENTO DE UN DW CONSTRUCCIÓN. Para poder llevar a cabo la construcción del DW, se necesitan herramientas de extracción de datos a partir de las fuentes externas. Estas herramientas extraen y homogenizan los datos y se comunican con un integrados que integra los datos con respecto al esquema del DW. La figura siguiente presenta la arquitecta del mecanismo de construcción de un DW que consiste en un conjunto de extractores asociados a las fuentes. Un extractor con la fuente para extraer la información y la transforma a una representación comprendida por un integrador. El extractor conoce el formato de las fuentes, el formato de representación de datos del DW, el protocolo de comunicación y la ubicación de ambos. INTEGRADOR
El integrador integra la información y calcula los valores agregados con respecto al esquema del DW. Las tareas principales del integrador son: combinar los datos obtenidos de las diversas fuentes y cargar estos datos ya integrados en el DW. • MANTENIMIENTO. • El mantenimiento del DW o “refrescado” asegura contar con datos actualizados. Existen dos formas de refrescar los datos: • La primera es llevar los datos al DW segundos después de que las fuentes fueron actualizadas. • La segunda es acumulando y almacenando los datos ya integrados y transformados, en un sitio intermedio para que de forma periódica pasar la información al DW. El refrescado se puede realizar de manera incremental o recalculando todos los datos.
El refrescado de un DW esta considerado como un problema difícil debido a las siguientes razones: • Primero, el volumen de datos almacenado en el DW es muy grande y crece cada vez mas. • Segundo, el refrescado deber ser accesible a los diferentes cambios de ejecución del DW. • Finalmente, el refrescado engloba transacciones que por lo regular acceden a múltiples datos, lo que implicaría contar con cálculos que pueden convertirse en complejos ya que producirían un alto nivel de agregación. EXPLOTACIÓN DE UN DW La explotación consiste en llevar a cabo consultas al DW. Cuando hablamos de consultas nos referimos a la manipulación, análisis y visualización de la información que realiza el usuario sobre la información del DW. Para el análisis de los datos almacenados en el QW se utiliza la tecnología OLAP (On Line Analytical Proccesing). Esta tecnología cuenta con operadores tales como: Slice´n dice roll-up y drill down.
Slice´n dice permite restringir los valores asociados a una o varias dimensiones del cubo, es decir, toma un subconjunto de dimensiones y de niveles seleccionados del DW. En la sig. figura se observa un ejemplo en el que se restringe el resultado para analizar solo las ventas de las cubetas y los trapeadores en 2003 y 2002 en Monterrey y Puebla.
Roll up agrega medidas que van de un nivel Ni a un nivel mas general Nj de una dimensión. Permite analizar la información a través de diferentes niveles de granularidad de las dimensiones. Drill down es la operación inversa. A partir de un nivel superior este operador permitir bajar de nivel. En la sig. figura se observa un claro ejemplo de cómo la dimensión tiempo cambia de nivel días a meses y viceversa.
CONSIDERACIONES ADICIONALES AL CONSTRUIR EL DW Niveles de Esquematización: • Altos: Indexados libremente Fácilmente Reestructurados. • Bajos: Indexados moderadamente Difícilmente Reestructurado. Partición de las Aplicaciones: • Partición DBMS: Automáticamente. • Partición de Aplicaciones; Solo los programadores conocen, y la responsabilidad de administrar es de ellos. Excepciones en el DW. La Data Calculada Fuera del DW pero que es necesario para la corporación: Ejemplo. Rentas, gastos, ganancias, parámetros de construcciones de aviones, datos de seguridad. Etc. Este detalle en ocasiones debe ser guardado por razones Legales o Éticas. Conocidos en DW como Datos permanentes. • El medio debe ser seguro • Deben poder ser restaurados • Necesitan se indexados de manera especia. • DBMS: Sistemas de Gestión de Base de Datos. (Data Base Management Systems)
ORGANIZACION DEL PROYECTO 1. Factores en la Planificación del DW. : * Asociación entre Usuarios, Gestores y Grupos. - Información que satisfaga los requerimientos de la empresa. - Selección de Herramientas. * Aplicación Piloto. - Una prueba limitada para medir el beneficio de manera clara * Prototipos . - Verificar la necesidades del usuario durante el proceso de implementación. * Implementación Incremental. - Reduce riesgos y controla el tamaño del proyecto para que sea manejable. * Reportar y Publicar casos exitosos. - Publicidad interna de cómo le ayuda a la gente que ya lo utiliza
2. Estrategias para el Desarrollo del DW. : Desarrollar un estrategia apropiada a las necesidades de los usuarios. * Primero. - Acceso fácil al directorio de datos y gestión del proceso. - Entrenamiento al usuario final. - Uso de las Instalaciones del DW. * Segundo. - Construir una copia de los datos operacionales. Esto por si los datos existente son de mala calidad. * Tercero. - Seleccionar el numero de usuarios. - Construir prototipos para los usuarios final para poder experimentar o modificar su es necesario. - Cargar los datos de los sistemas existentes o de fuentes externas.
3. Estrategias para el Diseño del DW. : * Los usuarios no conocen sus requerimientos, como los usuarios operacionales. * Se requiere en ocasiones una Reingeniería de Proceso del Negocio. * Estrategia de diseño de afuera hacia adentro (outside-in). 4. Estrategias para la Gestión de un Diseño del DW. : * Esto solo es una buena inversión si los usuarios finales consiguen información vital y rápida. * Reconocer que el mantenimiento de la estructura del DW es critica.
DESARROLLO DE UN PROYECTO. Almacenaje de un DW. * Puede contener toda la infamación de la empresa desde su inicio, o tan limitado a un gerente durante un año. Virtual o Point to Point. * Estos significa que los usuarios finales pueden acceder a bases operacionales directamente, usando cualquier herramienta (red de acceso de datos). DW Centrales * Se seleccionan donde hay necesidades comunes de información y un gran numero de usuarios. DW Distribuidos * Los componentes de deposito se distribuyen en un numero de bases de datos físicas diferentes. Tipo De Usuario * Ejecutivos y gerentes * “Power users” o “Buzo de Información”. Analistas financieros, Ingenieros, * Usuarios de soporte. De oficinas, administrativos.
Financiero Manufactura Distribución Comercio Data Warehouse Corporativo Mainframe Servidor Local Usuario Final ELEMENTOS CLAVES PARA EL DESARROLLO. * Esta integrado por un servidor de Hardware * Los DBMS que conforman el dispositivo. (Sistemas de Gestión de Base de Batos.) BLOQUES CLAVES DE CONSTRUCCIÓN. 1) Arquitectura total del deposito. Estructura física de la base de datos de deposito. a) DW Integrado o centralizado; Las bases de datos separados son todos integrados y físicamente almacenados en la misma plataforma.
Financiero Comercio Corporativo Data Warehouse Distribución Manufactura Usuario Final b) Arquitectura Global; Los datos es consolidad lógicamente pero se almacena por separado sin las bases de datos físicamente relacionadas, en el mismo lugar físico.
Nivel 1 Nivel 3 Nivel 2 Financiero Financiero Comercio Comercio Distribución Distribución Manufactura Manufactura Estación de Trabajo Modelos Complementarios de datos Corporativo Data Warehouse c) Arquitectura por Niveles; Datos altamente resumidos en la 1er estación de trabajo del usuario, con resúmenes mas detallaos en el 2do. servidor y mas detallada en el 3er servidor.
BLOQUES CLAVES DE CONSTRUCCIÓN. 2) Arquitectura del servidor. Estructura física de la base de datos de deposito. a) De un solo Servidor; Fácil de administrar pero con limitaciones de potencia de procesamiento y escalabilidad. b) Multiprocesamiento Simétrico (SMP); Adición de procesadores que comparten la memoria interna de los servidores y de los dispositivos de almacenaje del disco. c) Procesamiento en Paralelo Masivo (MMP); Conjunto de procesadores con un enlace de banda ancha y de alta velocidad. Cada modo es un servidor con su propio procesador SMP y memoria interna. d) Acceso de memoria no uniforme (NUMA); Se crea con una sola gran maquina SMP al conectar múltiples nodos en uno solo, ventajas en la gestión y simplicidad de un ambiente SMP.
BLOQUES CLAVES DE CONSTRUCCIÓN. 3) Sistema de Gestión de Base de Datos. Los Relational Data Base Managment Systems (RDBMS); son muy flexibles cuando se usan con una estructura de datos normalizada y tienen la capacidad para efectuar consultas con un único objetivo concreto. Los modelos super relacionados soportan extensiones para almacenar formatos, operaciones y diagramas indexacion especializados. Base Normalizada, las estructura de datos son No Redundantes y que representan las entidades básicas.
GRACIAS BIBLIOGRAFIA Data Wareahousing (http://porgramacion.com/bbdd/tutorial/warehouse/