1 / 14

Поддержка структурных изменений в процессах загрузки данных

Поддержка структурных изменений в процессах загрузки данных. Долбешкин Андрей Николаевич, 5 45 группа Руководитель: Александр Сергеевич Дольник Рецензент: д. ф-м. н. Борис Асенович Новиков. Санкт-Петербург 2012. О предметной области.

cyndi
Download Presentation

Поддержка структурных изменений в процессах загрузки данных

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Поддержка структурных изменений в процессах загрузки данных Долбешкин Андрей Николаевич, 545 группа Руководитель: Александр Сергеевич Дольник Рецензент: д. ф-м. н. Борис Асенович Новиков Санкт-Петербург 2012

  2. Опредметнойобласти • ETL процесс – процесс извлечения-преобразования-загрузки данных.Характерна регулярность. Внешние источники данных Отчеты Хранилище данных OLAP ETL Статистика Локальные БД Операционные БД Анализ данных

  3. Постановка задачи • Выявить структурные изменения в источниках данных • Разработать метод диагностики, в том числе потенциальных, структурных изменений в источниках данных • Реализовать метод поддержки структурных изменений

  4. КлассификацияструктурныхизменениявисточникахданныхКлассификацияструктурныхизменениявисточникахданных • Удаление именованных/неименованных столбцов • Переименование столбцов • Изменение формата данных • Изменение порядка столбцов • Разделение столбцов • Удаление связей

  5. ETL-сценарий Файлы с данными по температуре Загрузка в БД Фильтрация по региону Отбор файлов Отбор параметров

  6. Чем плох классический сценарий ETL • Сложность диагностики и исправления проблем • Сложность поиска причины • Сложность поиска виновного • Большие трудозатраты на исправление • Сложность отслеживания качества данных • Низкий уровень интерпретации ошибок

  7. Описание модели • Модель процесса представляется в виде графа (AlkisSimitsis) • В основе лежит преобразование графов • Проектирование ETL процесса на основе онтологий

  8. Онтология • O = <X, R, F>, где • Х – понятияпредметной области • R – отношения между понятиями (typeOf, partOf, is-a) • F - функциональные интерпретации (f1:string->{1,0}, f2:range->{1,0}, f3:regexp->{1,0}) • Стандарт OWL 2.0 (W3C)

  9. Описание модели OntNode Is-a Is-a OntNode OntNode SrcNode Operation IntmNode Operation FILTER TrgNode

  10. Описаниеметода • Расширение графовой модели • Усовершенствование операции Filter • Отложенное изменение процесса • Предложение внести изменение в процесс • Предложение сгенерировать процесс заново

  11. МодифицированныйETL-сценарий Файлы с данными по температуре Загрузка в БД Корзина Фильтрация по региону Отбор параметров Фильтр Отбор файлов

  12. ОписаниеособенностейреализацииметодаОписаниеособенностейреализацииметода • Реализован в виде плагина к Kettle • Осуществляет отображение модели данных на онтологию • Создает графовую модель процесса • Строит по модели процесса реальные трансформации в Kettle

  13. РазвитиеETL-процессов

  14. Заключение • Классифицированы структурные изменения в источниках данных • Разработан метод диагностики структурных изменений в источниках данных • Реализован алгоритм перестроения процесса • Решение уменьшает время разработки и поддержки процесса

More Related