1 / 16

SQL Server 2012 Data Quality Services

SQL Server 2012 Data Quality Services. Косяков Иван Архитектор ( SQL-BI), MTC Moscow ivank@microsoft.com , http://microsoftbi.ru. Содержание. Введение в управление качеством данных Концепция DQS Процесс управления качеством данных Архитектура DQS Сценарии использования DQS

eliora
Download Presentation

SQL Server 2012 Data Quality Services

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. SQL Server 2012Data Quality Services Косяков Иван Архитектор (SQL-BI), MTC Moscow ivank@microsoft.com, http://microsoftbi.ru

  2. Содержание • Введение в управление качеством данных • Концепция DQS • Процесс управления качеством данных • Архитектура DQS • Сценарии использования DQS • Заключение

  3. Что такое качество данных? • Представляет уровень пригодности данных для использования в работе • Определяется, измеряется и управляется через метрики: • точность • непротиворечивость • полнота • наличие дубликатов • своевременность • Обеспечивается людьми + технологиями + процессами

  4. Общие проблемы качества данных

  5. Концепция Data Quality Services (DQS)

  6. Data Quality ServicesПроцесс обеспечения качества данных Облачные сервисы Управление знаниями Справочные данные Построение Данные организации Обнаружение знаний Исследование данных Подсоединение справочников Встроенное профилиро-вание Управление знаниями Улучшение Состояние Нотифиации База знаний Корректировка и стандартизация Сопоставление иде-дубликация Использование DQ-проекты

  7. Архитектура DQS Azure Market Place DQ-клиенты Склад доменов MS DQ Категоризованные справочные данные Категоризованные сервисы справочных данных Интерфейс DQS Активные DQ-проекты Будущие клиенты (Excel, SharePoint…) Обнаружение знаний и управление Сторонние DQ-сервер Reference Data API (Browse, Get, Update…) RD Services API (Browse, Set, Validate…) Интерактивные DQ-проекты Сервисы справочных данных DQ-движок Исследование данных Очистка Профилирование и исследование данных Обнаружение знаний Справочные данные Сопоставление Справочные наборы данных SSIS DQ -компонент Склад обобщенных знаний Хранилище DQ-проектов Склад баз знаний Локальные домены данных Домены данных MS Опублико-ванные базы знаний

  8. Data Quality Knowledge Base (DQKB)What the DQKB contains ? • Data Domains • Examples : email, gender , sate • Composite Data Domain • Examples: Full Name (Given + Middle + Surname) Address (Street + City + State + Country) • Domain Knowledge • Properties Name, type • Values Correct, Errors, Synonyms • Rules Validation, Standardization, Business • 3rd party reference • Matching Policy • Rules that drive the Matching computation

  9. Высоко-уровневые сценарии DQS

  10. Управление знаниями Внешние знания – ссылочные сервисы и наборы данных База знаний Пример данных источника + сопоставление (mapping) Автоматически обнаруженные значения и правила DQS-сервер Одобренные пользователем значения доменов и правила Общие знания – алгоритмы, сервисы, пред-настроенные домены и т.д. Политика сопоставления и определение справочных данных

  11. Интерактивная очистка Сервисы ссылочных данных Корректные записи Источник + сопоставление DQS-сервер Исправленные записи Предлагаемые исправления Неправильные Значения/правила База знаний Определения справочных данных Политика сопоставления

  12. Interactive Cleansing – Scenario Before: After: Completeness Accuracy Conformity Consistency

  13. Пакетная очистка с помощью SSIS Ссылочные сервисы данных Поток данных SSIS Корректные записи DQS-сервер Исправленные записи SSIS-пакет Предлагаемые исправления Source + Mapping Data correction Component Destination Неправильные База знаний Значения/правила Определения справочных данных Политика сопоставления

  14. Сопоставление DQS-сервер Процесс сопоставления: • Тренировка • Сопоставление • Авто-подтверждение • Слияние/наследование Источник + сопоставление DQ-клиент – Результаты Значения/правила Определения справочных данных Политика сопоставления База знаний

  15. Сценарий сопоставления Before: After:

  16. Заключение – характеристики DQS Основаны на знаниях • Большая база знаний • Постоянное улучшение и расширение знаний • Повторное использование Открыты и расширяемы • Справочные данные • Знания, сгенерированные пользователями • Интеграция сSSIS Просты в использовании • Производительность и удобство • Для офисных пользователей • Авто-обнаружение знаний

More Related