1 / 20

Новые подходы к построению эффективного хранилища данных в банках

Новые подходы к построению эффективного хранилища данных в банках. Юрий Латышевский Технический консультант EMC Минск 2012. Общие сведения о корпорации EMC.

ciqala
Download Presentation

Новые подходы к построению эффективного хранилища данных в банках

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Новые подходы к построению эффективного хранилища данных в банках Юрий Латышевский Технический консультант EMC Минск 2012

  2. Общиесведения о корпорации EMC Корпорация EMC завоеваларепутациюмирового ИТ-лидера, помогаяпредприятиямсовершенствоватьрабочийпроцесс и предоставлять ИТ какуслугунаосновеоблачнойинфраструктуры. Инновационныепродукты и услугикорпорации EMC ускоряютпереход к облачнымтехнологиям, помогая ИТ-отделамхранить, администрировать, защищать и анализироватьинформацию — самыйценныйресурс — болеегибко, надежно и экономично. Партнеры Услуги и консалтинг Полныйспектруслугдоступен у нашихпартнеров, средикоторых: Accenture, BearingPoint и CSC. Глобальныйальянс Мысовместноконфигурируем, тестируем, интегрируем, поставляеми поддерживаемнаширешенияс такимипартнерами, как Microsoft, Oracle, SAP, Cisco и др. Поставщикиуслуг Этикомпаниипредоставляютдоступк масштабируемыминновационнымуслугамдляинфраструктуры: Fujitsu Services, Bull, Dimension Data. Партнеры Организации, которыеобладаютэкспертнымизнаниями и опытомдлясозданияуникальныхрешений: Fujitsu Siemens, Unisys. Краткиесведенияоб EMC • Выручкаотпродаж (2011 г.): $ 20 млрд • Ожидаемаявыручкаотпродаж(2012 г.): $ 22 млрд • Место в списке Fortune 500 (2012 г.): 139 • Количествосотрудников: около53 500 человек • Страны, в которыхработает EMC: 85 • Инвестиции в НИОКР (2011 г.): около $ 2+ млрд • Совокупныеденежныесредства и инвестиции (2011 г.): $ 10,8 млрд • Рыночнаякапитализация: около$ 57млрд (на30.10.2012) • Годоснования: 1979 Признанноелидерство • № 1 средипоставщиковвнешних СХД • № 1 нарынкевнешних RAID-массивов • № 1 средипоставщиковсетевых СХД • № 1 NAS • № 1 средипоставщиковПО дляхраненияданных(в целом) • № 1 средипоставщиковПО дляуправленияхранениемданных • № 1 средипоставщиковПО дляуправленияустройствами

  3. Аналитика: от отчётов – к оптимизации будущего Как добиться оптимального результата? Опти-мизация Ценность для бизнеса К чему приведут текущие тренды? Прогнози- рование Что важного в документах? Проактивно Аналитика Анализ Текста Что произойдет дальше? Data Mining Предупреждения Что произошло только что? OLAP Реактивно Отчетность Отчеты по запросу Где конкретно проблема? Стан-дартные отчеты Очистка данных Сколько, как часто, где? Что произошло? Степень зрелости Аналитики

  4. Типовые сценарии использования Больших Данных в финансовом секторе • Отчетность и статистика • Банки и страховые компании • Клиентская аналитика • On-line сервисы

  5. Сначала было Хранилище Данных… Архитектура для хранения данных из разных источников в целях поддержки принятия решений Зачем нужны Хранилища Данных: Централизация ценных данных Инструментарий для преобразования данных в информацию Регламентированное окружение Унаследованное КХД

  6. Потом появились MPP(массовая параллельная архитектура) • Для аналитической платформы потребовался новый подход к базам данных • Почему существуют MPP БД: • Данные стали больше • Запросы стали сложнее • Производительность стала критичной • Обработка сценариев в Базе Данных

  7. БАЗА ДАННЫХ GREENPLUM Лидер в массово-параллельных высокопроизводительных вычислениях

  8. Производительность для аналитики База данных Greenplum • Оптимизирована для BI и аналитики • Глубокая интеграция со статистическими пакетами • Высокая производительность • Простота и Автоматизация • Запросы как в любой другой СУБД • Данные автоматически распределяются по узлам • Линейная Масштабируемость • Массово-параллельная архитектура с разделением ресурсов • Все узлы читают обрабатывают данные параллельно • Линейная масштабируемость простым добавлением узлов

  9. Производительность через Параллелизм • Вертикально-масштабируемая архитектура на стандартном оборудовании • Автоматический параллелизм • Загрузка и Запросы как в любой БД • Автоматическое распределение данных по всем узлам • Нет необходимости в Секционировании или Настройке • Масштабируемая МПП архитектура с разделением данных • Все узлы могут сканировать и обрабатывать параллельно • Линейная масштабируемость добавлением узлов • Отказоустойчивость обеспечена дублированием данных между узлами • Онлайн расширение системы Межсоединение Загрузка

  10. Мощные возможности загрузки данных ОДНА СТОЙКА • Рекордная производительность загрузки данных. 10+TB/час на стойку • Технология SC Streaming™ обеспечивает линейную масштабируемость загрузки • Поддержка пакетной загрузки и загрузки в режиме реального времени • Выполнение сложных трансформаций данных «налету» • Прозрачный механизм загрузки через файлы, приложения и сервисы Netezza Teradata Greenplum OracleExadata Для Greenplum скорость загрузки растёт линейно пропорционально количеству стоек, для остальных это не так. Например, 2 стойки= >20TB/час.

  11. Polymorphic Table StorageTM • Поддержка жизненного цикла информации (ILM) • Способ организации хранения могут совмещаться как в рамках базы данных, так и таблицы • Разные типы хранения • Сжатие в блоке

  12. Оптимизатор Параллельных Запросов ВНУТРЕННИЙ ПЛАН ИСПОЛНЕНИЯДЛЯ SQL ИЛИ MapReduce • Стоимостной оптимизатор выбирает оптимальный план исполнения • План состоит из операций сканирования, соединений, сортировки, агрегации, и т.д. • Глобальное планирование позволяет избежать неоптимального исполнения SQL сегментами • Обработка запросов происходит конвейерно , без сохранения промежуточных результатов на диск • Например, операции сложных соединений (Join) таблиц с разными ключами в 10+ раз быстрее чем в Netezza

  13. Зрелая корпоративная платформа

  14. Простота управления • Greenplum Command Center • Контроль и управление платформой • Мониторинг производительности и досупности системы • Greenplum Package Manager • Автоматизированная установка, обновление • Миграция при переходе на новую версию, восстановлении, расширении системы, переключении на резерв

  15. Аналитика внутри Базы Данных • Параллелизм для функций моделирования и аналитики • Аналитика в Базе Данных • SAS – HPA, Access и Scoring Accelerator • Madlib – open-source библиотека функций глубокой аналитики • Поддержка аналитических расширений • Postgis – ГИС, PL/R - Статистика, PL/Java, PL/Perl, и.т.д. MAD lib MAD lib

  16. Лидеры рынка первыми начинают и выигрывают….

  17. Банк: Он-лайн аналитика для он-лайн банка

  18. Основные результаты Задача.Онлайн Банк (Аналитика в реальном времени на растущих объёмах данных) Ситуация. ХД построенное на SAS IS не обеспечивало линейную масштабируемость и производительность запросов. Решение. Внедрено Greenplum DB

  19. Банк: Хранилище данных для корпоративной отчетности • Компания: Тройка Диалог • Проект: Хранилище Данных для Отчётности/2010 год • Внедрение позволило: • Ускорение отчётности. Запросы в 10-100 раз. Результаты за минуты, не дни. • Разгрузка БД бэк-офисной системы • Линейно-масштабируемая платформа для развития нового функционала, например алгоритмической торговли, системы мониторинга нормативных требований, количественного анализа • Оптимизация затрат на ИТ инфраструктуру

More Related