590 likes | 739 Views
Bodegas de datos. Business Intelligence Roadmap Carlos Herrera. Agenda. Introducción Etapas Pasos 8 a 16. Introducción. Las construcción de bodegas de datos son procesos. Los pasos mencionados no son mandatorios. Los proyectos BI no son para gerentes de proyectos novatos.
E N D
Bodegas de datos Business Intelligence Roadmap Carlos Herrera
Agenda • Introducción • Etapas • Pasos 8 a 16
Introducción • Las construcción de bodegas de datos son procesos. • Los pasos mencionados no son mandatorios. • Los proyectos BI no son para gerentes de proyectos novatos. • Una guía general de lo que funciona y no funciona en proyectos de este tipo
Introducción • Aprox. 60 % de los proyectos BI fracasan por: • PM deficiente • Incumplimientos en entregas • Baja calidad de las entregas • Se requiere pensar en integración • Un sistema BI no puede construirse en un solo Big Bang. • Esta integración implica cambio en la cultura. • Son sistemas de tipo estratégico, no operacional.
Introducción • BI es una arquitectura y una colección de • Apps operacionales • Apps de soporte a la toma de decisiones • DB’s • Permite entre otros • Proyección de ventas • Preparación de BSC • Análisis geoespacial • Minería de datos
Etapas • Justificación • El costo debe ser justificado por la resolución de un problema de negocio o por tomar una ventaja en el negocio. • Planeación • Definición de Infraestructura técnica (SW, DBMS, HW) y no técnica (metodologías, estándares). • Planear detalladamente, para mitigar riesgos como cambios de patrocinadores, alcance, integrantes del proyecto. • Análisis del negocio • Definición del alcance • Calidad de los datos • Pruebas de concepto
Etapas • Diseño • Bases de datos • ETL • Metadato • Construcción • ETL • App • Data Mining • Implantación • Entrenamiento • Evaluación de la versión
Estructura del equipo • Core • Permanentes en el proyecto • Analista de negocio • Manager • Analista de negocio IT • Técnico IT • Por paso • Desarrollador de app líder, arquitecto infraestructura BI, representante del negocio, administrador de datos, experto en DM, desarrollador líder ETL, experto en la materia, manager, DBA y DQA(calidad).
Estructura del equipo • Extensión • No están dedicados 100% y sincronizan sus tareas con los miembros del core. • Comité BI
Base de datos BI • Los datos para cargar a una base de datos BI ya existen en otro lugar. • Se debe determinar a que nivel de agregación se deben almacenar.
Diseño lógico • Modelo de estrella • Los datos son representados como un arreglo de valores precalculados, llamados hechos. • Una dimensión es equivalente a una entidad en un modelo de datos. • Las dimensiones se encuentran ligadas a la tabla de hechos • Una tabla de hechos representa un evento del negocio( una venta ). • Los hechos son valores cuantificables. • Pueden existir varias tablas de hechos (agregaciones por diferentes dimensiones) • Las tablas de hechos tienen gran cantidad de registros en comparación con el número de columnas. • Las dimensiones son denormalizadas ( jerarquías que llevan a redundancia) • Casi todas tienen dimensión tiempo. • Las dimensiones contienen gran cantidad de columnas ( regularmente) • Dimensiones conformes son compartidas por diferentes tablas de hechos.
Diseño lógico • Modelo de estrella(cont.) • Eficiencia • Soportado por múltiples RDBMS • Análisis de datos de menor complejidad, debido a la denormalización
Diseño lógico • Modelo de copo de nieve • Mayor normalización, es decir, los niveles de las jerarquías se normalizan. • Mayor flexibilidad • Mayor dificultad de mantenimiento • Joins más costosos • Menos registros en las dimensiones.
Diseño físico • Decisiones para la implementación • Cuanto espacio requiero. • De cuanto debe ser el tamaño del bloque de datos • Se va a utilizar alguna técnica de compactación. • Ubicación física de los datos • Datos accedidos frecuentemente en discos rápidos • Normalmente datos con granularidad máxima en mainframe; agregados en servidores de tamaño medio. • Configuración de discos especial para mejorar el I/O • Operaciones en paralelo
Diseño físico • Particionamiento • Tablas “lógicas” distribuidas en ubicaciones físicas diferentes • Restaurar segmentos sin afectar el desempeño • Clustering • Indexación (B+, Bitmap, Hash) • Ejecución de consultas en paralelo
Entregables • Modelo físico(estrella, integridad referencial, llaves, columnasm etc.) • Diseño físico de la base destino BI(indexación, particionamiento, clustering, ubicación de índices)The physical database design components include dataset placement, index placement, partitioning, clustering, and indexing. These physical database components must be defined to the DBMS when the BI target databases are created. • DDL • DCL(permisos) • Bases de datos BI físicas (ejecutar DDL y DCL) • Procedimientos de mantemiento (BK’s, reorganización, recuperación, monitoreo).
Estrategia de implementación • Compartir un solo proceso coordinado de ETL. • Reconciliar los modelos de datos. • Evitar un ETL por cada BD BI. • El objetivo es obtener consistencia en los datos.
Preparación para el proceso ETL • Reformateo. Unificación de formato a pesar de su origen • Reconciliación. La gran cantidad de datos aumenta el riesgo de redundancia. • Limpieza. Deben depurarse los datos a partir de lo encontrado en el análisis y el prototipo.
Etapas del ETL • Carga inicial • C++, PL/SQL, etc. • Truncar, alargar, eliminar duplicados • Buena oportunidad para organizar los datos • Fuentes son los sistemas operacionales. • Carga de históricos • Sincronizar formatos • Carga incremental • Carga mensual, diaria, etc.
Diseño de los programas de extracción • Se quiere evitar afectar la operación de los sistemas operacionales. • Afortunadamente se cuentan con ventanas de tiempo
Diseño de la transformación • 80% del ETL es transformación • Problemas de fuentes • Llaves primarias inconsistentes • Datos inconsistentes(copias con diferentes valores) • Diferentes formatos • Sinónimos y homónimos • Lógica del proceso embebida
Diseño de la transformación(cont.) • Transformaciones • Renombramiento • Fusión • Abreviaturas • Mapeo de valores
Diseño de la carga • Deshabilitar Integridad referencial • Se requiere un buen esquema de Indexación
Diseño del flujo • Crear un documento de mapeo de origen/destino. • Definición del área temporal (staging)
10. Diseño del metadato • Centralizado basado en BD • Custom • Licenciado • Descentralizado • Distribuido basado en XML(Oracle OMG y Microsoft MDC)
Entregables • Modelo físico del metamodelo • DDL del repositorio • DCL • Especificación del repositorio del metadato
11. Desarrollo del ETL • Oportunidad para eliminar datos inservibles • Normalmente 80% verificando integridad y reglas de negocio • Contar con un involucrado del negocio que pueda tomar decisiones acerca de las reglas
Reconciliación • Importancia del metadato ( origen diferente a lo que se encuentra en BI en cuestión de estructura). • Credibilidad del proyecto BI. • Tipos: • Conteo de registros • Conteo de dominios • Conteo de cantidades
Revisión de pares • Conceptos similares a XP • Validación y discusión con los pares • Solicitar una entrada compleja • Informal • Menor o igual a una hora • Lluvia de ideas
Pruebas • Unitarias • Compilación • Funcionalidad • Captura de excepciones • Integrales • Interacciones • Flujos • Regresión • Aseguramiento de Calidad • Aceptación
Plan formal de pruebas • Propósito • Definición de secuencias y momentos de ejecución • Casos de prueba • Bitácora
Entregables • Plan de prueba ETL • ETL • Librería ETL
12. Desarrollo de aplicaciones • OLAP • Proceso analítico que permite crear nueva información de negocio a partir de transformación y cálculo • Ventajas de herramientas de este tipo para usuarios de negocio • Dimensiones son objetos de negocio • Drill down, roll up, avg, ROI, ranking • Analistas de negocio auto suficientes(flexibilidad de consultas, variedad de acceso) • Gráficas • Análisis de tendencias • Agregaciones
Arquitectura de OLAP • Presentación (GUI) Usuarios de negocio • Servicios OLAP. IT • Servicios DB. MOLAP, ROLAP
13. Minería de datos • Análisis de datos con el objeto de encontrar información valiosa dentro de la gran cantidad de datos • No requiere hipótesis • No solo datos numéricos(texto, voz) • Sin embargo los resultados no son sencillos de entender, se requiere apoyo de estadísticos y expertos del negocio
Importancia • Escenarios posibles • Estudio del comportamiento del negocio • Cambiar actividades del negocio (estrategia)