180 likes | 393 Views
SQL Server 2012 Data Quality Services. Косяков Иван Архитектор ( SQL-BI), MTC Moscow ivank@microsoft.com , http://microsoftbi.ru. Содержание. Введение в управление качеством данных Концепция DQS Процесс управления качеством данных Архитектура DQS Сценарии использования DQS
E N D
SQL Server 2012Data Quality Services Косяков Иван Архитектор (SQL-BI), MTC Moscow ivank@microsoft.com, http://microsoftbi.ru
Содержание • Введение в управление качеством данных • Концепция DQS • Процесс управления качеством данных • Архитектура DQS • Сценарии использования DQS • Заключение
Что такое качество данных? • Представляет уровень пригодности данных для использования в работе • Определяется, измеряется и управляется через метрики: • точность • непротиворечивость • полнота • наличие дубликатов • своевременность • Обеспечивается людьми + технологиями + процессами
Data Quality ServicesПроцесс обеспечения качества данных Облачные сервисы Управление знаниями Справочные данные Построение Данные организации Обнаружение знаний Исследование данных Подсоединение справочников Встроенное профилиро-вание Управление знаниями Улучшение Состояние Нотифиации База знаний Корректировка и стандартизация Сопоставление иде-дубликация Использование DQ-проекты
Архитектура DQS Azure Market Place DQ-клиенты Склад доменов MS DQ Категоризованные справочные данные Категоризованные сервисы справочных данных Интерфейс DQS Активные DQ-проекты Будущие клиенты (Excel, SharePoint…) Обнаружение знаний и управление Сторонние DQ-сервер Reference Data API (Browse, Get, Update…) RD Services API (Browse, Set, Validate…) Интерактивные DQ-проекты Сервисы справочных данных DQ-движок Исследование данных Очистка Профилирование и исследование данных Обнаружение знаний Справочные данные Сопоставление Справочные наборы данных SSIS DQ -компонент Склад обобщенных знаний Хранилище DQ-проектов Склад баз знаний Локальные домены данных Домены данных MS Опублико-ванные базы знаний
Data Quality Knowledge Base (DQKB)What the DQKB contains ? • Data Domains • Examples : email, gender , sate • Composite Data Domain • Examples: Full Name (Given + Middle + Surname) Address (Street + City + State + Country) • Domain Knowledge • Properties Name, type • Values Correct, Errors, Synonyms • Rules Validation, Standardization, Business • 3rd party reference • Matching Policy • Rules that drive the Matching computation
Управление знаниями Внешние знания – ссылочные сервисы и наборы данных База знаний Пример данных источника + сопоставление (mapping) Автоматически обнаруженные значения и правила DQS-сервер Одобренные пользователем значения доменов и правила Общие знания – алгоритмы, сервисы, пред-настроенные домены и т.д. Политика сопоставления и определение справочных данных
Интерактивная очистка Сервисы ссылочных данных Корректные записи Источник + сопоставление DQS-сервер Исправленные записи Предлагаемые исправления Неправильные Значения/правила База знаний Определения справочных данных Политика сопоставления
Interactive Cleansing – Scenario Before: After: Completeness Accuracy Conformity Consistency
Пакетная очистка с помощью SSIS Ссылочные сервисы данных Поток данных SSIS Корректные записи DQS-сервер Исправленные записи SSIS-пакет Предлагаемые исправления Source + Mapping Data correction Component Destination Неправильные База знаний Значения/правила Определения справочных данных Политика сопоставления
Сопоставление DQS-сервер Процесс сопоставления: • Тренировка • Сопоставление • Авто-подтверждение • Слияние/наследование Источник + сопоставление DQ-клиент – Результаты Значения/правила Определения справочных данных Политика сопоставления База знаний
Сценарий сопоставления Before: After:
Заключение – характеристики DQS Основаны на знаниях • Большая база знаний • Постоянное улучшение и расширение знаний • Повторное использование Открыты и расширяемы • Справочные данные • Знания, сгенерированные пользователями • Интеграция сSSIS Просты в использовании • Производительность и удобство • Для офисных пользователей • Авто-обнаружение знаний