280 likes | 722 Views
Большие данные – горячая тема, потому что технологии сделали возможным анализ ВСЕХ доступных данных при подготовке принятия решений. Б.А. Позин д.т.н., профессор Технический директор ЗАО «ЕС-лизинг». Какие объемы данных нужны для поддержки принятия решений?.
E N D
Большие данные – горячая тема, потому что технологии сделали возможным анализ ВСЕХ доступных данных при подготовке принятия решений Б.А. Позин д.т.н., профессорТехнический директор ЗАО «ЕС-лизинг»
Какие объемы данных нужны для поддержки принятия решений? User Creation: Enterprise Worries **Consumersand WorkersCreating,Capturing orReplicatingPersonalInformation Enterprise Touch Content** User Generated Content* **Transported,Hosted,Managed or Secured Overlap-1,000Exabytes 1,530 Exabytes 1,234 Exabytes Size of Digital Universe in 2011 1,773 Exabytes Эксабайт = 260 =1018 байт = 1024 Петабайт 3
Сколько информации мы теряем? Information Creation and Available Storage 1,800 Information Created 1,600 Available Storage, 2007 1,400 1,200 Tape 21% Optical22% Other1% Exabytes Available Storage 1,000 Disk 56% 0,800 0,600 264 EB 0,400 0,200 2006 2008 2005 2007 2009 2011 2010 4
Изменение парадигмы Большие данные Итеративностьи исследование Традиционный подход Структурный и повторяемый анализ Запомнил - обработал Обработал - запомнил ИТ Обеспечивает платформу для креативного анализа Бизнес Определяет что спросить ИТ Структурирует данные для ответа на вопрос Бизнес Исследует что можно спросить Отношение к бренду Стратегия продуктов Оптимизация ресурсов Месячная отчетность Анализ прибыльности Анализ анкет Ограничение: производительность Ограничение: память
Технология IBM Big Data сделала возможным анализ ВСЕХ доступных данных Подключение любого типа данных с помощью оптимизированных коннекторов и возможности интеграции информации Платформа Big Data Стуктурирован-ные данные Неструктурированные данные Потоковые данные
Эффективно управлять и анализировать все доступные данныевих первозданном виде Social Media Website Billing Network Switches ERP CRM RFID
Постановка задачи Технология должна обеспечивать Создание из «конструктора» функционально полных прикладных информационно-аналитических системдля исследования больших объемов данных при поддержке принятия решенийсилами коллективов специалистов в предметной области – аналитиковпри поддержке ИТ-специалистов по инструментам Для этого необходимо • «Конструктор» - набор высококачественных инструментов для создания приложений по аналитической обработке больших объемов информации в различных областях знаний • Возможность создания информационно-аналитических систем в короткие сроки и в пределах бюджета • Возможность развития «Конструктора» в процессе накопления опыта и знаний, развития методов анализа и синтеза • Возможность накопления знаний и их повторного использования • Переносимость инструментальных средств в пределах широкого класса платформ
Технология Big Data • Первый шаг очень важен • Успех в каждом разделе поддержан продуктами платформы • Позволяет построить основу для будущих потребностей и проектов
Платформа IBM Big Data Визуализация&исследование Интеграция информации & Управление «Конструктор»: продуктыплатформы Big Data 1 – Найти и получить доступ кбольшим данным IBM Data Explorer 3 – Упрощение хранилища Netezza Разработка приложений Управление системами 2 – Анализ «сырых» данных InfoSphere BigInsights Акселераторы разработки Data Warehouse Stream Computing HadoopSystem 5 – Анализ потоковых данных InfoSphere Streams 4 – Сокращение затрат с помощью Hadoop InfoSphere BigInsights 11
Технологии IBM для использования в проектах Big Data • Аналитические пакеты • IBM Cognos • IBM SPSS • Интеграция данных • IBM InfoSphere Information Server • IBM Change Data Capture • Мастер-данные • IBM InfoSphere Master Data Management Server • Защита баз данных • InfoSphere Guardium • IBM Big Data platform • InfoSphere Streams • InfoSphere BigInsights • InfoSphere Data Explorer • PureData for Analytics (Netezza) • Акселераторы • Анализ текстов • Акустика • Гео-данные • Видео • Интеллектуальный анализ • Предсказательные модели • Статистика
Общая схема компонентов платформы Big Data SPSS (Декларативный язык PMML) Streams NZ DE Big Ins Декларативные языки Готовые средства разработки Инструменты Коннекторы Cognos BI Языки программирования 3-го поколения: Java, C/C++, Python, Perl
Инструменты Streams Обработка потоковой информации Streams Декларативный язык:Stream Processing Language (SPL) Готовые средства разработки(акселераторы разработки): Анализ текстов Телекоммуникационные данные Гео-данные Видео Интеллектуальный анализ Предсказательные модели Статистика Анализ машинных журналов (СПО) Анализ данных из сетей (СПО) Инструменты: Standard Toolkit Internet Toolkit Database Toolkit Financial Toolkit Data Mining Toolkit Big Data toolkit Text Toolkit Коннекторы: Netezza Connector Hadoop Connector Языки программирования 3-го поколения:Java, C/C++, Python, Perl, JavaScript, Ruby и т.д.
Декларативный язык SPL - графическая среда разработки Streams-приложений • Создание приложений с помощью «перетаскивания» операторов • Палитра готовых операторов • Графикаиисходный код на SPL автоматически синхронизируются
Инструменты BigInsights Анализ «сырых» данных и сокращение затрат на хранение BigInsights Декларативные языки:Annotation Query Language (AQL), JaQL (Query Language for JSON (JavaScript Object Notation)), Pig Latin, HiveQL, R Средства и инструменты обработки: Flume Hive Lucene Zookeeper Avro HBase HCatalog Sqoop Oozie Коннекторы: Netezza Connector Streams Connector Языки программирования 3-го поколения:Java, C/C++
Инструменты Data Explorer Средство визуализации, исследования данных и обработки текстов Data Explorer Декларативные языки:не используются Средства разработки и обработки : Application Builder Search Engine Коннекторы: Framework Connector(30 источников, включая Streams и BigInsights) Mature Connector
Инструменты Pure Data (Netezza) Повышение скорости анализа и качества структурированных данных Pure Data (Netezza) Декларативные языки:SQL, nz/PLSQL Библиотеки: ESRI/OpenGIS nzMatrix Коннекторы: Hadoop Connector Streams Connector Языки программирования 3-го поколения:Java, C / C++, FORTRAN, nzLua, Python, Ruby, JavaScript, Perl, и тд.
Центр компетенции по IBM Big Data Совместный центр компетенции ЕС-лизинг, IBM и Банка России Целью создания Центра Компетенции явилась необходимость обеспечения освоения технологии IBM Big Data специалистами Банка России и организациями банковского сектора, с использованием возможностей стендового оборудования, программного обеспечения и специалистов ЕС-лизинг при поддержке IBM по планам, согласованным с организациями – потенциальными заказчиками и на основе постановок задач, формируемых заказчиками Основные задачи Центра • Освоение инструментальных средств IBM Big Data • Освоение декларативных языков и методик программирования реальных задач на этих языках • Создание учебных курсов для освоения платформы IBM Big Data Приглашаем заинтересованные организации к сотрудничеству
Оснащение Центра Компетенции Все программные продукты платформы IBM Big Data 20
Спасибо за внимание! Вопросы?
- Свободное ПО - ПО в составе поставки - Дополнительное ПО Назначение инструментов Streams
- Свободное ПО - ПО в составе поставки - Дополнительное ПО Назначение инструментов Streams
- Свободное ПО - ПО в составе поставки - Дополнительное ПО Назначение инструментов BigInsights
- Свободное ПО - ПО в составе поставки - Дополнительное ПО Назначение инструментов BigInsights
- Свободное ПО - ПО в составе поставки - Дополнительное ПО Назначение инструментов Data Explorer
- Свободное ПО - ПО в составе поставки - Дополнительное ПО Назначение инструментов Pure Data (Netezza)