210 likes | 418 Views
Новые подходы к построению эффективного хранилища данных в банках. Юрий Латышевский Технический консультант EMC Минск 2012. Общие сведения о корпорации EMC.
E N D
Новые подходы к построению эффективного хранилища данных в банках Юрий Латышевский Технический консультант EMC Минск 2012
Общиесведения о корпорации EMC Корпорация EMC завоеваларепутациюмирового ИТ-лидера, помогаяпредприятиямсовершенствоватьрабочийпроцесс и предоставлять ИТ какуслугунаосновеоблачнойинфраструктуры. Инновационныепродукты и услугикорпорации EMC ускоряютпереход к облачнымтехнологиям, помогая ИТ-отделамхранить, администрировать, защищать и анализироватьинформацию — самыйценныйресурс — болеегибко, надежно и экономично. Партнеры Услуги и консалтинг Полныйспектруслугдоступен у нашихпартнеров, средикоторых: Accenture, BearingPoint и CSC. Глобальныйальянс Мысовместноконфигурируем, тестируем, интегрируем, поставляеми поддерживаемнаширешенияс такимипартнерами, как Microsoft, Oracle, SAP, Cisco и др. Поставщикиуслуг Этикомпаниипредоставляютдоступк масштабируемыминновационнымуслугамдляинфраструктуры: Fujitsu Services, Bull, Dimension Data. Партнеры Организации, которыеобладаютэкспертнымизнаниями и опытомдлясозданияуникальныхрешений: Fujitsu Siemens, Unisys. Краткиесведенияоб EMC • Выручкаотпродаж (2011 г.): $ 20 млрд • Ожидаемаявыручкаотпродаж(2012 г.): $ 22 млрд • Место в списке Fortune 500 (2012 г.): 139 • Количествосотрудников: около53 500 человек • Страны, в которыхработает EMC: 85 • Инвестиции в НИОКР (2011 г.): около $ 2+ млрд • Совокупныеденежныесредства и инвестиции (2011 г.): $ 10,8 млрд • Рыночнаякапитализация: около$ 57млрд (на30.10.2012) • Годоснования: 1979 Признанноелидерство • № 1 средипоставщиковвнешних СХД • № 1 нарынкевнешних RAID-массивов • № 1 средипоставщиковсетевых СХД • № 1 NAS • № 1 средипоставщиковПО дляхраненияданных(в целом) • № 1 средипоставщиковПО дляуправленияхранениемданных • № 1 средипоставщиковПО дляуправленияустройствами
Аналитика: от отчётов – к оптимизации будущего Как добиться оптимального результата? Опти-мизация Ценность для бизнеса К чему приведут текущие тренды? Прогнози- рование Что важного в документах? Проактивно Аналитика Анализ Текста Что произойдет дальше? Data Mining Предупреждения Что произошло только что? OLAP Реактивно Отчетность Отчеты по запросу Где конкретно проблема? Стан-дартные отчеты Очистка данных Сколько, как часто, где? Что произошло? Степень зрелости Аналитики
Типовые сценарии использования Больших Данных в финансовом секторе • Отчетность и статистика • Банки и страховые компании • Клиентская аналитика • On-line сервисы
Сначала было Хранилище Данных… Архитектура для хранения данных из разных источников в целях поддержки принятия решений Зачем нужны Хранилища Данных: Централизация ценных данных Инструментарий для преобразования данных в информацию Регламентированное окружение Унаследованное КХД
Потом появились MPP(массовая параллельная архитектура) • Для аналитической платформы потребовался новый подход к базам данных • Почему существуют MPP БД: • Данные стали больше • Запросы стали сложнее • Производительность стала критичной • Обработка сценариев в Базе Данных
БАЗА ДАННЫХ GREENPLUM Лидер в массово-параллельных высокопроизводительных вычислениях
Производительность для аналитики База данных Greenplum • Оптимизирована для BI и аналитики • Глубокая интеграция со статистическими пакетами • Высокая производительность • Простота и Автоматизация • Запросы как в любой другой СУБД • Данные автоматически распределяются по узлам • Линейная Масштабируемость • Массово-параллельная архитектура с разделением ресурсов • Все узлы читают обрабатывают данные параллельно • Линейная масштабируемость простым добавлением узлов
Производительность через Параллелизм • Вертикально-масштабируемая архитектура на стандартном оборудовании • Автоматический параллелизм • Загрузка и Запросы как в любой БД • Автоматическое распределение данных по всем узлам • Нет необходимости в Секционировании или Настройке • Масштабируемая МПП архитектура с разделением данных • Все узлы могут сканировать и обрабатывать параллельно • Линейная масштабируемость добавлением узлов • Отказоустойчивость обеспечена дублированием данных между узлами • Онлайн расширение системы Межсоединение Загрузка
Мощные возможности загрузки данных ОДНА СТОЙКА • Рекордная производительность загрузки данных. 10+TB/час на стойку • Технология SC Streaming™ обеспечивает линейную масштабируемость загрузки • Поддержка пакетной загрузки и загрузки в режиме реального времени • Выполнение сложных трансформаций данных «налету» • Прозрачный механизм загрузки через файлы, приложения и сервисы Netezza Teradata Greenplum OracleExadata Для Greenplum скорость загрузки растёт линейно пропорционально количеству стоек, для остальных это не так. Например, 2 стойки= >20TB/час.
Polymorphic Table StorageTM • Поддержка жизненного цикла информации (ILM) • Способ организации хранения могут совмещаться как в рамках базы данных, так и таблицы • Разные типы хранения • Сжатие в блоке
Оптимизатор Параллельных Запросов ВНУТРЕННИЙ ПЛАН ИСПОЛНЕНИЯДЛЯ SQL ИЛИ MapReduce • Стоимостной оптимизатор выбирает оптимальный план исполнения • План состоит из операций сканирования, соединений, сортировки, агрегации, и т.д. • Глобальное планирование позволяет избежать неоптимального исполнения SQL сегментами • Обработка запросов происходит конвейерно , без сохранения промежуточных результатов на диск • Например, операции сложных соединений (Join) таблиц с разными ключами в 10+ раз быстрее чем в Netezza
Простота управления • Greenplum Command Center • Контроль и управление платформой • Мониторинг производительности и досупности системы • Greenplum Package Manager • Автоматизированная установка, обновление • Миграция при переходе на новую версию, восстановлении, расширении системы, переключении на резерв
Аналитика внутри Базы Данных • Параллелизм для функций моделирования и аналитики • Аналитика в Базе Данных • SAS – HPA, Access и Scoring Accelerator • Madlib – open-source библиотека функций глубокой аналитики • Поддержка аналитических расширений • Postgis – ГИС, PL/R - Статистика, PL/Java, PL/Perl, и.т.д. MAD lib MAD lib
Лидеры рынка первыми начинают и выигрывают….
Банк: Он-лайн аналитика для он-лайн банка
Основные результаты Задача.Онлайн Банк (Аналитика в реальном времени на растущих объёмах данных) Ситуация. ХД построенное на SAS IS не обеспечивало линейную масштабируемость и производительность запросов. Решение. Внедрено Greenplum DB
Банк: Хранилище данных для корпоративной отчетности • Компания: Тройка Диалог • Проект: Хранилище Данных для Отчётности/2010 год • Внедрение позволило: • Ускорение отчётности. Запросы в 10-100 раз. Результаты за минуты, не дни. • Разгрузка БД бэк-офисной системы • Линейно-масштабируемая платформа для развития нового функционала, например алгоритмической торговли, системы мониторинга нормативных требований, количественного анализа • Оптимизация затрат на ИТ инфраструктуру