380 likes | 652 Views
Технологическая платформа IBM для создания аналитических хранилищ данных. Сергей Лихарев (SLikharev@ru.ibm.com) IBM Information Management Software 24 апреля 2009. Information On Demand Полный спектр возможностей по управлению информацией. Оптимизация операций. Анализ финансовых рисков.
E N D
Технологическая платформа IBM для создания аналитических хранилищ данных Сергей Лихарев (SLikharev@ru.ibm.com) IBM Information Management Software 24 апреля 2009
Information On DemandПолный спектр возможностей по управлению информацией Оптимизацияопераций Анализ финансовыхрисков Решения IBM Эффективностьмаркетинга Прибыльность продуктови клиентов Оптимизация бизнеса Industry Models, Blueprints & Frameworks IBM Cognos 8 BI IBM Cognos Financial Performance Management IBM InfoSphere Warehouse IBM InfoSphere MDM Server IBM Information Server Flexible Architecture for Leveraging Existing Investments DB2, IMS, Informix IBM Content Manager, IBM FileNet Other Information & Application Sources
IBM InfoSphere Warehouse 9.5 Portals & Web Apps Reporting Solutions MS Office / Share-point Universal Access MDX SQL/MDX Web Services Analytical Acceleration No Copy Analytics Advanced Design & Management Extreme Performance Workload Management Design Studio Text Analytics Advanced Capability Data Mining Embedded Data Movement Data Compression On-line Analytical Processing (OLAP) Data Retention Remote Data Access DB2 Data Server C-Class D-Class E-Class Linux/ Windows AIX/SUN/ HP Platform
IBM InfoSphere Balanced Warehouse – классы решений E7100 большие объемы и сложные нагрузки D5100 – высокая доступность D5000 – цена/качество C4000 – IBM/BP - до 4TB C3000 – BP - до 1.5TB C1000 - BP - до 500GB C1000 C3000 C4000 The IBM Balanced Warehouse может быть разделен на 3 разных класса для разных целевых сегментов. Сложность нагрузки E-Class Modular for flexible Scale out D-Class Modular for flexible Scale out C-Class Business Partner / IBM 1 3 10 30 100 Данные, Tb 4
DB2 в сердце InfoSphere Warehouse • DB2 предоставляет уникальные, запатентованные и лидирующие в индустрии возможности • Продвинутый оптимизатор запросов • Гибкие возможности партицирования данных • Запатентованная технология Multi-dimensional Clustering (MDC) • Materialized Query Tables (MQT) • Возможности автономной работы • Лидирующие в отрасли технологии компрессии • Управление рабочей нагрузкой • …
Оптимизатор – автоматическая параллелизация • Оценка стоимости (cost) каждого шага • No Hints • Параллелизм автоматический • Параллелизм безусловный • Нет операций, выполняемых в один поток • Scans, Joins, Index access, Aggregation, Sort, Insert, Update, Delete • Визуальное пояснение плана запроса DB2 “безусловный параллелизм” “Условный параллелизм” Query Starts QueryOptimization Scan Join Aggregate Sort Convergence Final Result Set
connect 46 Getstatistics Sum Optimize Agent Coord Agent Agent Agent Join Read A Read B sum=10 sum=12 sum=13 sum=11 Sum Sum Sum Sum Join Join Join Join A B A B A B A B Обработка параллельных запросов select sum(x) from table_a,table_b where a = b Catalog sum(…) Part1 Part2 Part3 PartN table_a table_b
Table (logical) Server(s) Storage Параллельный ввод/вывод select … from table FCM network Partition 1 Partition 2 Partition 3 Partition 4 I/O I/O I/O I/O I/O I/O I/O I/O hdisk1 hdisk2 hdisk1 hdisk2 hdisk1 hdisk2 hdisk1 hdisk2 Array 1 Array 2 Array 1 Array 2 Array 1 Array 2 Array 1 Array 2 DB2 Database
SMP server SMP server DB2 CoordinatorPartition DB2 CoordinatorPartition SMP server SMP server SMP server SMP server DB2 Partition DB2 Partition DB2 Partition DB2 Partition DB2 Partition DB2 Partition DB2 Partition DB2 Partition I/O Channels I/O Channels Storage server Storage server DB2 MPP архитектура Shared-Nothing для максимальной масштабируемости Users network IBM Balanced WarehouseTM Private network (FCM)
x3650 DS3400 x3650 x3650 x3650 x3650 DS3400 DS3400 DS3400 DS3400 Admin BCU … DS3400 DS3400 DS3400 DS3400 x3650 Data BCU Data BCU 2U DS3400 2U DS3400 2U Data BCU Admin BCU Data BCU Data BCU Data BCU Data BCU Data BCU Data BCU Data BCU Data BCU Пакеты и масштабируемость – пример D5100(System x)Аналогичный рост для System p 2U 2U SAN switch SAN switch SAN switch SAN switch 2U Hot Spare BCU Hot Spare BCU Management switch FCM switch FCM switch Admin Console Management node Data 1 Data 2 Data n Cluster e1350 – rack 2 Cluster e1350 – rack 1
IBM InfoSphere™ Balanced Warehouse и далееПрозрачная модульная архитектура Выбирайте способ создания аналитического приложения. Начните с базового модуля и добавляйте остальные по мере необходимости. Foundation Structure Add-On Modules + + Foundation Module Data Module User Module Failover Module Application Module 1 Module 1 to x Modules 0 to y Modules 0 or (x/4 to x/6) Modules Need to extend end to end! Шаг 1: Начните с одного базового модуля, общий этап для любого Balanced Warehouse (Примечание: минимум 1 Data Module также требуется Balanced Warehouse) Шаг 2: Если необходимы дополнительные модули для обработки данных, дополнительных пользователей или отказоустойчивости, добавьте узлы из соответствующей группы. Шаг 3: Когда структурные модули выбраны, при необходимости могут быть добавлены дополнительные модули. Ie: Application Module,
IBM InfoSphereBalanced Warehouse и далееНаправление развития –новые дополнительные модули Не тратьте время на интеграцию внешних компонентов с хранилищем. С Balanced Warehouse просто выберите из набора преднастроенных модулей для интеграции приложений. Add-On Modules Information Server Module Cognos 8 BI Module 3rd Party Modules Application Module Optim Module + = + Information Server
No Copy Analytics • Преобразование данных внутри БД в ценную бизнес информацию. • Подход No Copy имеет ряд преимуществ • Малая задержка при анализе данных • Более гибкая и быстрая реакция на изменения • Сокращение затрат на разработку и управление • Гибкость в добавлении и изменении аналитических приложений • Лучшие результаты в следующих областях • Выявление и анализ тенденций • Обнаружение мошенничества • Предсказание ухода клиентов • Принятие решений на основании событий
InfoSphere Warehouse Cubing Services • Преимущества • Масштабируемый OLAP с малым временем ожидания • Очень большие измерения на очень больших объемах данных • Оптимизирован для InfoSphere Warehouse • Интегрированное проектирование и поддержка • Универсальный доступ к аналитике Office 3rd Party Universal Access Cubing Services InfoSphere Warehouse
Цель: Панели управления и аналитика в режиме чтения Многомерные расчеты, агрегаты и анализ временных рядов Объемы данных и задержка Кубы до 1TB фактических данных Ежедневное обновление Поддержка клиентов Cognos (XMLA) Excel, Cubeware (ODBO) Alphablox OLAP приложениев InfoSphere Warehouse 75% of Applications 5-10% 10-15% Mainstream R/O Advanced Financials Planning / Budgeting Dashboards Data: Multiple TBs Cubes: 1TB of Fact 15
Универсальный доступДоставка информации бизнес пользователям Порталы, Web приложений, Панели управления, интерактивные отчеты,произвольные отчеты, настольные пакеты IBM DataQuant& DB2 QMF IBM Cognos 8 BI Microsoft Excel Universal Cube Access (MDX, ODBO, XMLA) InfoSphere Warehouse
Методы Data Mining в InfoSphere Warehouse Обнаружение… поиск шаблонов и взаимосвязей Кластеризация Как группируются мои данные? Ассоциации Какова степень родства данных? Последовательности Какие есть шаблоны последовательностей? Предсказание… предсказание результатов Классификация К какой группе отнести данные? Регрессия Как предсказать значение данных? + = 17
Анализ неструктурированной информации InfoSphere Warehouse Framework Расширение структурированной аналитики (e.g., cubing и data mining) с помощью прежде недоступной текстовой информации. • Полностью интегрированный инструмент в InfoSphere Warehouse для созданий и внедрений проверки и сопоставления по словарям. • Бизнес преимущества • Приложение будет работать с информацией, которая была спрятана в тексте • Повышение отдачи от инвестиций в приложение • Примеры • Лучшая категоризация продуктов • Профилирование клиентов • Анализ дефектов в продукции Structured Data Annotated Structured Data Basic linguistic analysis Text
Как работает no-copy analytics? Нет извлечения данных Данные всегда в хранилище Полный (универсальный) доступ ко всей информации Быстрое обновление при добавлении данных Microsoft Office Cubeware and 3rd Party Universal Access Data Mining Cubing InfoSphere Warehouse Text Unstructured Text Annotation 19
InfoSphere Design Studio и Admin Console Разработчик приложения Разработчик БД Deploy Develop • Coding • Debugging • Teaming • Testing • Integrating Администратор БД • Packaging / versioning • Application Merging • Change Management Eclipse Web Shared Manage Design IBM • Data Modeling • OLAP • ELT Modeling • Data Mining • Security • Auditing • Logging Govern Аналитик Архитектор BI Администратор приложения
InfoSphere Warehouse Design Studio ModelingИнтеграция со средствами моделирования данных • Использует и расширяет RDA: • Проектирование и изменение физических схем (schema & storage design, etc) • Проектирование и создание объектов OLAP • Проектирование и создание потоков преобразования и добычи данных • Ключевые возможности: • Проектирование или обратное проектирование БД (RDA) • Просмотр/изменение схемы • Сравнение/синхронизация объектов DB • Анализ проекта (зависимости), проверка • DB2 Storage Modeling: Table Space, Buffer Pool, Partition • Генерация скриптов: модели данных • Анализа влияния: модели данных и потоков данных
Встроенная технология перемещения и преобразования данныхSQL Warehousing Tool (SQW) Преимущества Легкость использования • Графический построитель преобразований в DB2 • Контроль потоков работ и расписаний Интеграция • Автоматизация потоков связанных с анализом текста и Data Mining • Возможность получать данные не из СУБД DB2 • Возможность интеграции с IBM Information Server /DataStage Контроль • Управление версиями • Мониторинг выполнения заданий
Полный цикл управления жизненным циклом данных • Оптимизация хранения • Повышение емкости хранилища • Управление нагрузкой • Оптимизация потоков запросов и приоритетов • Управление производительностью • Выявление сценариев использования и тенденций • Сохранение данных • Создание политик сохранения данных на основе сценариев использования и стратегии управления данными Управление производительностью Оптимизация хранения Сохранение данных Управление нагрузкой
InfoSphere Warehouse Performance Suite Performance Monitoring Feature (Appfluent) • Мониторинг запросов • Аналитика и отчетность Performance Optimization Feature • Системный мониторинг • Managed Query Environment • Всестороннее решение для управления BI/ DW • Мониторинг запросов, БД и системы • Анализ и отчетность • Managed Query Environment • В чем польза? • Связь ИТ сервисов с бизнес активностью • Рационализация инвестиций и оправдание бюджетов • Поддержка роста хранилища
USERS PROCESSES Create Customer Record Interfaces • 100% of SQL • Users/Apps • Tables/Columns • Functions/Operations • Data Stage jobs Metrics • Cost • Execution Metrics Customer Scoring Analysis & Alerts Address Validation External Score Service Workload Activity DB2 • Config • Apps • Buffers • Storage • Locks • SQL DB2 Database Snapshots Analyzer • Config • CPU • Memory • Storage System Snapshots DB2 DW Performance Management Repository Balanced Warehouse Performance Management Process
USERS Job Name PX_ID DB2NODE Application User ID Client Host ID Client User ID Активность пользователей/ETL Create Customer Record Customer Scoring Read operations Write operations Lookup operations Application ID Document Object ID Report ID Address Validation External Score Service Query Frequency Rows Returned Elapsed Time Активность запросов и метрики производительности; Операции над данными Query Frequency Rows Returned / IUD Elapsed Time Functions/Operations Used Tables /Columns Accessed Functions/Operations Used Tables /Columns Accessed Метрики движка БД, системы и операционной системы DB Systems. Engine, OS CPU, IO, Buffers, Locks Partitioning, Sorts, Alerts DB2 Warehouse Performance Management Suite Полный цикл мониторинга ETL PROCESSES Information Server Applications Data
Определение использования ресурсов • Определение затрат и плана для ресурсов на основе метрик использования (по пользователям/группам/подразделениям) • Измерение по использованным данным, объемам запросов и использованию времени сервера • Измерение использования данных • Оценка того, как данные используются бизнесом – какие наиболее часто и как это влияет на производительность? • Идентификация неиспользуемых данных для оптимизации инфраструктуры (ETL, Хранение.) DB2 Warehouse Performance Management Suite
Оценка качества сервиса • Измерение активностей, нарушающих сервисное соглашение, анализ причин, тенденций и влияния • Определение кандидатов на оптимизацию и дополнительную настройку • Сокращение сложности • Выявлениеповторяющихсяопераций над данными, которые вызывают проблемы • Анализ Joins, Functions, Operations, Aggregations on Tables and Columns DB2 Warehouse Performance Management Suite
Оптимизация системы • Соотношение между потоками запросов и системными метриками I/O,CPU, Memory. • Анализ влияния и оптимизация системных параметров для оптимальной производительности • Выделение ресурсов в соответствии с нагрузкой • Оценка и подтверждение нагрузки, которая захватывает системные ресурсы • Использование оптимальных «классов» нагрузки и распределение системных ресурсовдля оптимизации производительности DB2 Warehouse Performance Management Suite
Управление нагрузкой Позволяет выполнять требования по качеству обслуживания для разных приложений и пользователей • Позволяет консолидацию приложений в одном хранилище • Управление нагрузкой на основании пользовательских приоритетов • Предотвращение неконтролируемогороста количества витрин • Отсечение «вечных» запросов • Обеспечивает конвергенцию OLTP и BI нагрузок в рамках одной платформы • Анализ в реальном времени • Operational Data Stores • Мониторинг в реальном времени
Optim Data RetentionЭффективное хранение Off-Lineархив Online архив Текущее История/отчетность Production Data Warehouse ArchiveDatabase SAN / NAS Production Database Dispose Flat Files Tape Время Files Открытый доступ к текущим и архивным данным ODBC / JDBC Application Report Writer XML 31
IBM Information Server SOA Business Services Batch Data Integration Data Stewardship Location Account Product Party Синергия семейства InfoSphere с InfoSphere WarehouseСовместно еиспользования схем данных InfoSphere Warehouse Source Systems Reverse Engineer Data Marts Master Data Management Physical Schema OLAP Cubes Design Studio Использование схем из InfoSphere Warehouse для создания и управления аналитических структур данных. Design Studio Data Mining and Text Analytics Database design and optimization
Взаимодействие компонентов в проекте + + + + + A: Вы Q: Кто инвестирует в интеграцию? A: IBM + + + + + + +
Models Cleansing ETL MDM Data Warehouse BI Решение на компонентах разных вендоровРиски заставить вместе работать все компоненты лежат на заказчике + + + + + A: Вы • Реализация - медленно • Сложные внедрения, разные продукты и технологии • Планирование затрат–туманно? • Разные ценовые стратегии, оценки, затраты на интеграцию • Риски интеграции • Вы принимаете на себя всю ответственность за совместную работу компонентов. • Поддержка • Разные команды, разные проблемы, нет одной точки воздействия
Models Cleansing ETL MDM Data Warehouse BI Синергия компонентов от IBMМы заботимся о платформе чтобы вы заботились о решении • Быстрая реализация! • Получение результатов и отдачи быстрее • Планирование затрат • Один вендор, одна оценка цены, одна точка переговоров • Все преимущества лидеров в своем классе • Стратегия приобретения лучших компонентов • Нет рисков интеграции • IBM несет ответственность за интеграцию лучших в своем классе компонентов • Внимание не отвлекается на интеграцию систем • IBM отвечает за платформу, вы можете сфокусироваться на решении A: IBM + + + + + + +
Data Quality Warehousing Data Integration ETL Customer Hubs CDI PIM Преимущество InfoSphere WarehouseЛидер в каждом элементе цепочки…
Models Models Cleansing Cleansing ETL ETL MDM MDM Data Warehouse Data Warehouse BI BI Лучшее с обеих сторонЕдиная интегрированная среда из лучших технологий + + + + + Преимущества интеграции: Сокращение риска 53% Повышение вовлечения бизнеса 83% Ускорение получения результата 75% Сокращение потребности в персонале на проекте 90% Global CEO Study A: Вы A: IBM + + + + + + +