Позин Борис Аронович, технический директор, д.т.н., профессор

Процесс создания системы интеграции данных (СИД) в хранилище данных(на примере хранилища, построенного потехнологии IBM BDW ) Позин Борис Аронович, технический директор, д.т.н., профессор Лычагин Кирилл Анатольевич, начальник сектора ЗАО «ЕС-лизинг» МГУ, Москва, 2012

Структура доклада

Система интеграции данных в Хранилище данных СИД Хранилище данных СИД Область первичных данных Источники Extract Transform Load Область предварительной обработки данных (Staging Area)

Процесс создания СИД Discover – cбор требованийсо стороны пользователей, определение источников данных Analyze – анализ требований, анализ источников, анализ целевой модели Define – выбор архитектуры СИД, создание алгоритмов преобразования данных (спецификаций), описание различных вспомогательных алгоритмов, проектирование области предварительной обработки (Staging Area) Develop – Разработка и реализация ETL заданий, согласно спецификациям. Тестирование. Deploy – Внедрение СИД. Optimize , Manage – Анализ и оптимизация ETL заданий на основе данных о использование системы в промышленной среде

Результат процесса создания Метаданные Исполняемый код

Виды метаданных СИД • Бизнес-метаданные Технические метаданные • Модель требований пользователей • Метаданные, описывающие • бизнес- процессы в источниках • Описание взаимозависимости • между источникам Технические метаданные источников Метаданные области первичных данных Метаданные, описывающие алгоритмы преобразования Метаданные ETL заданий Метаданные Staging Area Операционные метаданные Логи работы СИД Статистика производительности Статистические показатели обработанных данных

Актуальные проблемы разработки СИД • СИД плохо отчуждаема, поскольку плохо описаны структура и состав метаданных, характеризующих преобразование данных в процессе интеграции • Обеспечение быстрого предоставления результата бизнес – пользователям при изменении состава поступающих данных, ориентация на сокращение сроков разработки • Отсутствие единой архитектуры СИД

Пример метаданных СИД Логическая и физическая модели данных источников,области первичных данных и Staging Area

Пример метаданных СИД Описание алгоритмов преобразования

Пример метаданных СИД Проект ETL заданий и исполняемый код

Цели создания потоковой архитектуры совместно с BDW Определение дополнительных бизнес и технических метаданных облегчающих процесс сопровождения и развития и повышающих отчуждаемость системы Разработка единой архитектуры СИД, которая бы эффективно использовала особенности BDW Упорядочение этапов «Проектирование» (Define) и «Разработка» (Develop) для более эффективной и целенаправленной организации работы команды разработчиков

IBM Banking Data Warehouse BDW – методология описания бизнес деятельности банков и построения хранилища данных для их нужд Правила перехода от концептуальной к логической модели Правила перехода от логической к физической модели

Концептуальная модель Иерархическая структура взаимосвязанных понятий, описывающих бизнес – деятельность банка Involved Party Arrangement Condition Product Business Direction Item Location Classification Event Resource Item 9 Концептов верхнего уровня

Концептуальная модель

Особенности BDW • Позволяет бизнес - пользователю общаться с IT специалистом на «одном языке» • Модели строятся на основании лишь требований бизнес – пользователей • Концептуальная, логическая и физическая модели устойчивы к расширению состава поступающих данных

Модель данных ХД как отправная точка в создании СИД Граница влияния источников Разработка на основе модели данных источников Область первичных данных Процесс обработки данных Источники Граница влияния источников Разработка на основе модели данных области первичных данных Область первичных данных Процесс обработки данных Источники BDW

Идея потоковой архитектуры Источники Область первичных данных СИД Поток обработки данных 1 Поток обработки данных 2 Поток обработки данных 3 Граница влияния источников Использование данных из другого потока

Принцип разделения СИД на потоки Концептуальная модель Логическая модель Физическая модель 1 x Поток обработки данных Концептуальный объект (набор понятий) Набор логических сущностей и атрибутов Набор физических сущностей и атрибутов

Стандартные операции над данными • Поиск новой информации • Формирование значений атрибутов: • Создание суррогатных ключей • Преобразование статичных справочников • Формирование информационных атрибутов • Генерация технических атрибутов • Формирование связей • Формирование физических таблиц

Компоненты потоков 1. Предварительное преобразование (t0) – сбор из источников всех данных, относящих к объекту; 2. Поиск изменений (d) – поиск новых данных; 3. Преобразование кодов (v) - преобразование значений классификаторов из источника в значения, используемые в ХД; 4. Создание суррогатных ключей (k) – назначение на основе натуральных бизнес - ключей суррогатных ключей и построение справочника соответствия всех суррогатных ключей бизнес - ключам в различных источниках 5. Построение связей (vk) – назначение корректных внешних ключей по бизнес - ключам; 6. Конечное преобразование (t) – «раскладывание» данных по конечной структуре физических таблиц ХД и формирование технических атрибутов; 7. Загрузка данных (l) - помещение данных в базу данных ХД.

Общая архитектура Staging Area Экстракция Преобразование Загрузка t0dv kvktl Область первичных данных Источники данных Однотипные компоненты Последовательное исполнение компонент Ожидание выполнения компонент из другого потока и использование данных их него Исходные данные об объекте Граница влияния источников

Свойства источников • Одновременное поступление данных из всех источников • Экземпляры объекта идентифицируются простым идентификатором (строкой или числом) • Локальные справочники в источниках содержат атомарные значения

Свойство расширяемости и устойчивости потоковой архитектуры к изменению входных данных Staging Area Экстракция Преобразование Загрузка t0dv kvktl Область первичных данных Источники данных Последовательное исполнение компонент Ожидание выполнения компонент из другого потока и использование данных их него Однотипные компоненты Исходные данные об объекте Граница влияния источников

Преимущества и недостатки потоковой архитектуры Преимущества • Устойчивость к расширению состава поступающих данных • Устойчивость к изменению уже обрабатываемых данных • Высокая степень параллелизма и масштабируемость • Стандартизация компонентов потоков • Недостатки • Возможное увеличение объема обрабатываемых данных • Возможная сложность компонента «Предварительное преобразование»

Метаданные в потоковой архитектуре • Описание объектов: концептуальная, логическая и физическая модели • Алгоритмы работы с объектами: • Идентификация объектов • Спецификация компонента «Предварительное преобразование» • Описание границы влияния систем источников • Шаблоны компонентов • Шаблоны потоков • Предопределенная структура Staging Area и ее наполнение

Процесс создания СИД в потоковой архитектуре Процесс создания СИД более структурированный и целенаправленный - более короткие промежутки при развитие системы

Выводы • Использование Потоковой архитектуры позволяет: • Улучшить описание процессов интеграции данных в СИД за счет дополнительных метаданных, и тем самым облегчить отчуждаемость системы, упросить процессы сопровождения и развития • Сделать процесс создания СИД более структурированным и целенаправленным, уменьшив тем самым сроки предоставления новой информации бизнес -пользователям • Использование Потоковой архитектуры совместно с методологией BDW позволяет: • Ускорить создание СИД • Сделать СИД устойчивой к расширению состава поступающей информации, тем самым снизить затраты на развитие.

Спасибо! Вопросы ?

Позин Борис Аронович, технический директор, д.т.н., профессор

Позин Борис Аронович, технический директор, д.т.н., профессор

Presentation Transcript