1 / 35

Анализ Данных

Анализ Данных. Лекция 1 Введение в Анализ Данных. План лекции. От БД до АД Определение Анализа Данных Типы задач АД Основные понятия Основная цель: определение АД и спектра его применения. Вначале были данные. Есть база данных: Например, БД банка.

leoma
Download Presentation

Анализ Данных

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Анализ Данных Лекция 1 Введение в Анализ Данных

  2. План лекции • От БД до АД • Определение Анализа Данных • Типы задач АД • Основные понятия Основная цель: определение АД и спектра его применения

  3. Вначале были данные Есть база данных: Например, БД банка. Хранит персональные данные, счета, кредиты и т.д. БД * Рисуйте у себя тоже

  4. Источник данных • Сама по себе БД пользы не несет • Добавим оперативный источник данных (ОИД) ОИД БД ОИД … • Для банка это терминалы, базы локальных отделений и т.д.

  5. Работа с транзакциями • Нужна обработка данных в БД • Добавим Online Transaction Processing (OLTP) OLTP ОИД БД OLTP ОИД … • Взаимодействует с ОИД и БД. • Примеры операция для банка: узнать счет, перевести деньги, пополнить баланс.

  6. Особенности OLTP • Важна скорость работы – результат максимум за пару секунд • Простые операции с данными (около CRUD) • Высокая частота вызовов => постоянная средняя загруженность процессора • Работа только с оперативными данными

  7. Возможности OLTP Вопрос: Можно ли с помощью OLTP определить кредитоспособность человека? Как?

  8. Возможности OLTP Вопрос: Можно ли с помощью OLTP определить кредитоспособность тысяч человекза час?

  9. Аналитическая система • Нужна более сложная система для работы с БД • Добавим Online Analytical Processing (OLAP) OLTP ОИД БД OLAP OLTP ОИД … • Взаимодействует с БД. • Примеры для банка: найти подозрительные переводы, определить кредитоспособность

  10. Особенности OLAP • Важна точность анализа • Сложные запросы, функции, процедуры • Периодические вызовы чередуются с простоем. Нагрузка на процессор непостоянна. • Работа с большой коллекцией данных

  11. OLTP и OLAP во время работы Сотрудники ушли на обед Попросили оценить кредитоспособность Анализируем все операции за день Начало рабочего дня Выдали результат, больше запросов нет, отключаемся OLTP всегда готова выполнить запрос

  12. Возможности OLAP Может: • Определить кредитоспособность по имеющимся правилам • Прогнозировать прибыль банка на основе моделей и гипотез Не может: • Предложить правило оценки кредитоспособности • Сгенерировать модель или гипотезу

  13. Анализ данных • Нужна система генерации гипотез • Вот и Анализ Данных (Data Mining) OLTP ОИД OLAP БД OLTP ОИД Data Mining … • Примеры для банка: • Выяснить зависимость кредитоспособности человека от наличия высшего образования • Каковы признаки подозрительных переводов?

  14. Система поддержки принятия решений СППР OLTP ОИД OLAP БД OLTP ОИД Data Mining … • Комплекс для сбора, хранения и анализа информации

  15. Определение Анализ Данных - это процесс обнаружения в «сырых» данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

  16. Примеры для ясности

  17. Примеры для самопроверки Какие правила являются успешным результатом анализа данных: • Еслифигура - четырехугольник, то сумма его углов равна 360 градусам • Во время беспорядков повышается спрос на бейсбольные биты • Если что-то выглядит как утка и крякает как утка, то это вероятно это и есть утка • Вместе с хлебом люди часто покупают молоко • Люди старше 60 не ищут ночные клубы в Москве

  18. Примеры для самопроверки Какие правила являются успешным результатом анализа данных: • Еслифигура - четырехугольник, то сумма его углов равна 360 градусам - уже известная информация • Во время беспорядков повышается спрос на бейсбольные биты + полезно на будущее • Если что-то выглядит как утка и крякает как утка, то это вероятно это и есть утка - тривиальная информация • Вместе с хлебом люди часто покупают молоко + можно продавать комплектом • Люди старше 60 не ищут ночные клубы в Москве - практически бесполезное знание

  19. Типичные задачи АД • Классификация (Classification) • Кластеризация (Clustering) • Ассоциация (Associations) • Визуализация (Visualization, Graph Mining) • Последовательность (Sequence) • Прогнозирование (Forecasting) • Определение отклонений (DeviationDetection) • Анализ связей (Link Analysis)

  20. Примеры задач классификации • Определение DDoS-атак • Спам-фильтры • Привлечение выгодных клиентов (определение целевой аудитории продукта) • Определение профиля ДНК

  21. Примеры задач кластеризации • Группировка документов по темам • Идентификация людей на записях с камер видеонаблюдения • Кластеризация тикетов • Кластеризация структуры фондового рынка

  22. Примеры задач поиска ассоциаций и последовательностей • Рекомендации товаров • Обнаружение скрытых факторов влияния

  23. Примеры задач визуализации • Связи в социальных сетях • Пробки на дорогах • Инфографика

  24. Семейство направлений АД • Web Mining – специализируется на анализе страниц в интернете (определение тИЦ, выделение модульной сетки сайта) • Opinion Mining – специализируется на анализе отношений пользователей к различным объектам (whatdoestheinternetthink.net) • Information Retrieval – поиск неструктурированной информации в текстовых документах (поисковые системы)

  25. Основные определения • Данные – необработанный материал, используемый для формирования информации на основе данных. Blablabla Например, текст документа

  26. Основные определения • Объект - описывается как набор атрибутов Blablabla Сам текстовый документ

  27. Основные определения • Атрибут - свойство, характеризующее объект. Имя: Текстовый документ (42).txt Размер документа: 5кб Дата создания: 05.09.2011 Blablabla

  28. Основные определения • Генеральная совокупность (population) - вся совокупность изучаемых объектов, интересующая исследователя. • Выборка (sample) - часть генеральной совокупности Полная база документов 50 случайных документов

  29. Основные определения • Параметры - числовые характеристики генеральной совокупности. • Статистики - числовые характеристики выборки. Параметры: Научные статьи: 30% Анекдоты: 70% Статистика: Научные статьи: 32% Анекдоты: 68%

  30. Основные определения • Гипотеза - частично обоснованная закономерность знаний, служащая либо для связи между различными эмпирическими фактами, либо для объяснения факта или группы фактов. Гипотеза: Если файл < 5кб, то он скорее всего содержит анекдоты I lol’d

  31. Основные определения • Измерение - процесс присвоения чисел характеристикам изучаемых объектов согласно определенному правилу. I lol’d Количество слов: количество пробельных символов + 1

  32. Шкалы измерений Номинальная шкала (nominalscale) -содержит только категории • Нельзя упорядочить • Доступные операции: ==, != Пример: месяцы, царства животного мира, категории статей Дихотомическая шкала (dichotomousscale) - шкала, содержащая только две категории. Пример: бит, пол

  33. Шкалы измерений Порядковая шкала (ordinalscale) - шкала, в которой числа присваивают объектам для обозначения относительной позиции объектов, но не величины различий между ними. • Доступные операции: ==, !=, >, < Пример: место в рейтинге

  34. Шкалы измерений Интервальная шкала (intervalscale) - шкала, разности между значениями которой могут быть вычислены, однако их отношения не имеют смысла. • Доступные операции: ==, !=, >, <, +, - Пример: температура

  35. Шкалы измерений Относительная шкала (ratioscale) - шкала, в которой есть определенная точка отсчета и возможны отношения между значениями шкалы. • Доступные операции: ==, !=, >, <, +, -, *, / Пример: вес и размеры предметов

More Related