1 / 33

Integración de Datos en la Organización: Necesidades y Soluciones

José Abásolo Prieto jabasolo@uniandes.edu.co. Integración de Datos en la Organización: Necesidades y Soluciones. Objetivo de la charla.

aislin
Download Presentation

Integración de Datos en la Organización: Necesidades y Soluciones

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. José Abásolo Prieto jabasolo@uniandes.edu.co Integración de Datos en la Organización: Necesidades y Soluciones

  2. Objetivo de la charla • Presentar una taxonomía de requerimientos y posibles soluciones, que pueda guiar en la selección de una arquitectura apropiada a las necesidades específicas de integración de información en una organización.

  3. Agenda • Caracterización necesidades de integración. • Tecnologías disponibles para hacer integración. • Conclusiones.

  4. Caracterización necesidades de integración • La mayoría de las organizaciones poseen un alto número de aplicaciones de misión crítica de las cuales dependen para su normal funcionamiento. • Esas aplicaciones están, generalmente, lógicamente interconectadas. • Mantienen datos vigentes (poca o ninguna historia) y están optimizadas para una función específica. • Información fragmentada en diferentes repositorios.

  5. Caracterización necesidades de integración • Aplicaciones soportan consultas locales de tipo operativo. Ejemplo: “¿Cuántas órdenes pendientes tenemos en este momento?”. • En algunas situaciones se requiere integración dinámica de datos operacionales vigentes de diferentes fuentes. Ejemplo: “¿Cual es el saldo total de todos los productos de un cliente?”. • Información mas estratégica requiere integrar datos históricos de diferentes fuentes. Ejemplo: “Predecir comportamiento y valor futuro de un cliente”.

  6. Caracterización necesidades de integración • En la era del comercio electrónico, el enfoque CRM requiere: • Visión completa y actualizada de los datos de todas las interacciones del cliente, tanto presentes como pasadas. • Convertir datos en inteligencia del cliente. • Compartir hallazgos con todos los niveles de la organización.

  7. Tecnologías Disponibles para Hacer Integración • Entre las principales se encuentran: • Herramientas de integración funcional (EAI: Enterprise Application Integration). • Bodegas de Datos y herramientas de extracción, transformación y cargue (ETL). • Herramientas de captura, transformación y flujo (CTF: Capture, Transform and Flow). • Sistemas para manejo de datos federados (EII: Enterprise Information Integration).

  8. Herramientas de Integración Funcional (EAI) • Comunicación Punto a Punto. • Solución con mediador: • Conjunto de adaptadores y enrutador que mueve transacciones de negocio en forma de mensajes entre aplicaciones interconectadas. • Adaptador para una aplicación es responsable de la lógica para crear y ejecutar mensajes. • Los Enrutadores son los encargados de coordinar el flujo de mensajes basados en reglas de publicación y suscripción. • Mensajes en formato estándar independiente de aplicaciones (XML?). Adaptador convierte en ambas direcciones.

  9. Herramientas de Integración Funcional : Comunicación Punto a Punto • Solución relativamente simple. • Ideal cuando número de aplicaciones que deben intercambiar datos es muy reducido y estático. • Número de interfaces crece exponencialmente con el número de participantes.

  10. Integración Punto a Punto Aplicación A Aplicación B Aplicación C Aplicación D Tomada de (1) Página 435

  11. Herramientas de Integración Funcional: Mediador Mediador EAI OLTP Adaptador A OLTP Adaptador B Cola de Mensajes Cola de Mensajes OLTP Aplicación A OLTP Aplicación B OLTP OLTP Cola de Mensajes Cola de Mensajes OLTP Base de Datos A OLTP Base de Datos B Enrutador <Mensaje XML > <Mensaje XML > Tomada de (1) Página 442 Tomado de The Data Warehouse ETL Toolkit

  12. Bodegas de Datos y Herramientas ETL • Datos de diferentes fuentes heterogéneas se integran y materializan en lo que se llama una Bodega de Datos (Data Warehouse). • La Bodega puede verse como un conjunto de Almacenes de Datos (Data Marts), cada uno correspondiendo a un tema de negocio: Mercadeo, Ventas, Recursos Humanos, Financiero, etc. • Los Almacenes de Datos pueden estar físicamente separados en repositorios distintos. • Los Almacenes de Datos comparten datos que, si están físicamente separados, deben mantenerse sincronizados (“Conformes”).

  13. Fuentes de Datos E.T.L. Generador Cubos visualizadorOLAP Herramienta Extracción Transformación Cargue Cubos Multidimensionales Bodega de Datos Indicadores Minería Bodegas de Datos y Herramientas ETL

  14. Bodegas de Datos y Herramientas ETL • Información detallada a nivel de la Bodega. • Modelo de Datos MultiDimensional: Hechos, dimensiones, jerarquías entre atributos de dimensiones. • Información agregada en forma de cubos multidimensionales para facilitar análisis del tipo: ¿Qué pasó? ¿Qué está pasando? ¿Por qué pasó? (Análisis OLAP: On-Line Analytic Processing).

  15. Modelo MultiDimensional: Esquema de Estrella Dimensión Tabla de Hechos Dimensión ALMACEN IdAlmacen Nombre Direccion Ciudad Region TIEMPO IdFecha Fecha DiaSemana Mes Trimestre ... VENTAS IdAlmacen IdProducto IdFecha Cantidad PesosVendidos Costo ... Dimensión PRODUCTO IdProducto Nombre Subcategoria Categoria ...

  16. Modelo MultiDimensional: Visión de Cubos Tiempo VENTAS Geografía Producto

  17. Bodegas de Datos y Herramientas ETL • Bodegas tradicionales se actualizan con procesos de ETL en lote (Batch), generalmente nocturnos, que pueden tardar varias horas. Actualización puede ser diaria, semanal, quincenal, mensual ... dependiendo del grado de actualización requerido. • Hechos nuevos se añaden. A veces se modifican, si son acumulativos. • De las dimensiones se toman “fotos” (Snapshots) de cómo están en un punto del tiempo, y se alimentan a la Bodega. • Generalmente se lleva historia de evolución de las dimensiones.

  18. Bodegas de Datos y Herramientas ETL • ETL, Proceso complejo: • Evitar duplicados (Por ejemplo, en la dimensión Cliente) • Asignar llaves surrogadas. • Manejar dimensiones que cambian lentamente con el tiempo: Sobrescribir , crear nuevo registro, conservar dos últimos valores. • Estandarizar nombres, direcciones. • Aumentar la frecuencia del ETL, por ejemplo a varias veces por día, puede no ser práctico tanto para los sistemas fuente como para la propia Bodega.

  19. ETL Convencional E T L Manejo Dimensiones Corporativas DataMart A OLTP Aplicación A Detección de cambios / Snapshot Batch Batch OLTP Base de Datos A DataMart B OLTP Aplicación B Detección de cambios / Snapshot Batch Batch OLTP Base de Datos B Tomada de (1) Página 438

  20. Bodegas de Datos en Tiempo Real • Partición en Tiempo Real, con las novedades del día. • + • Partición histórica, actualizada en lotes (Batch) cada noche con el ETL tradicional.

  21. Bodegas de Datos en Tiempo Real • Por cada tabla de hechos en la parte histórica hay una tabla de hechos, con la misma granularidad y dimensiones, en la partición en tiempo real. • Indexamiento en la parte en tiempo real es mínimo. • Posiblemente se mantiene en memoria. • Puede crearse una vista que combine la parte histórica con la de tiempo real.

  22. Bodega Lógica Partición En Tiempo Real A Aproximadamente Tiempo Real DataMart A Batch Partición En Tiempo Real B Aproximadamente Tiempo Real DataMart B Batch Tomada de (1) Página 427 Bodegas en Tiempo Real

  23. Microbatch ETL • Similar al ETL convencional, solo que la frecuencia aumenta (Ejemplo: Cada hora). • Alimentan la partición en tiempo real. • Una vez al día, las particiones en tiempo real se pasan a la parte histórica.

  24. Micro Batch ETL Partición En Tiempo Real A E T L Manejo Dimensiones Corporativas OLTP Aplicación A Detección de cambios / Snapshot Micro Batch Micro Batch OLTP Base de Datos A DataMart A Batch Partición En Tiempo Real B OLTP Aplicación B Detección de cambios / Snapshot Micro Batch Micro Batch OLTP Base de Datos B DataMart B Batch Tomada de (1) Página 438

  25. Microbatch ETL • Puede afectar rendimiento de sistemas fuente, al imponer detección de cambios mas frecuente. • Buena alternativa para Bodegas cuyos requerimientos de actualización pueden tolerar retardos de una hora.

  26. Herramientas de Captura, Transformación y Flujo (CTF) • Intercambios directos entre Bases de Datos, con baja latencia (pocos segundos). • Pueden hacer ciertas transformaciones, elementales si se comparan con las ofrecidas por herramientas ETL. • Pueden simplificar la retroalimentación de la Bodega hacia los sistemas fuente (con inteligencia de clientes, por ejemplo).

  27. Herramientas de Captura, Transformación y Flujo (CTF) Bodega Lógica Partición Tiempo Real Staging A CTF Tiempo Real/ Transformación Superficial Data Mart A OLTP Aplicación A Transformaciones más complejas Batch OLTP OLTP Base de Datos A Tomada de (1) Página 445 Tomado de The Data Warehouse ETL Toolkit

  28. Bodega Lógica Partición En Tiempo Real A Adaptador ERP Mediador EAI Adaptador Data Mart A ERP Aproximadamente Tiempo Real OLTP DataMart A Batch Enrutador Base de Datos ERP Partición En Tiempo Real B Adaptador Administrador Dimensión Cliente Adaptador CRM Adaptador Data Mart B Aproximadamente Tiempo Real CRM DataMart B Batch OLTP Administrador Dimensión Cliente Base de Datos CRM Adaptado de (1) Página 443 Combinación Bodega Tiempo Real / EAI

  29. Sistemas para manejo de datos federados (EII) • Ofrecen acceso uniforme a múltiples fuentes de datos sin cargarlos primero en una Bodega central. • Enfocado a consultas. • Datos actualizados.

  30. ... Cliente Cliente Cliente EII Metadata Procesador de Consultas Adaptadores Adaptadores Adaptadores ... Fuente 1 Fuente n Fuente 2 Sistemas para manejo de datos federados (EII) Tomado de Component Database Systems

  31. Conclusiones • Globalización e Internet reducen cada vez mas la ventana de tiempo disponible para actualizar las Bodegas de Datos. • Inteligencia de negocios requiere una latencia cada vez menor entre los sistemas OLTP y la Bodega. • Información de inteligencia de la Bodega retroalimenta los sistemas OLTP. • El costo y complejidad de las soluciones para reducir la latencia crece de manera no lineal. • Metas y expectativas sobre el grado de actualización requerido de los datos deben ser realistas.

  32. Conclusiones • Bodegas de Datos en Tiempo Real pueden ser una solución para latencias de hasta unos minutos (5?). • Latencias inferiores a 5 minutos requieren de Sistemas Federados (EII), que trabajen directamente sobre los sistemas fuente. • Si se requiere retroalimentación de la Bodega hacia los OLTP, CTF o EAI pueden ser la solución. • EAI es mas adecuado si el número de aplicaciones a integrar es importante.

  33. Bibliografía • Kimball, R., Caserta, J. “The Data Warehouse ETL Toolkit”. Wiley. 2004. • Stonebraker, M. “Too Much Middleware”. SIGMOD Record. Vol 31 N° 1, Marzo 2002. • Halevy, A.(Editor). “Enterprise Information Integration: Successes, Challenges and Controversies”. SIGMOD junio 14-16 2005. • Selip, S. “A Single Source of Truth: Creating and Sustaining Data-Integration Governance and Stewardship”. Burton Group. Jul 27, 2005.

More Related