1 / 38

Введение в Data Mining

Введение в Data Mining. Доклад на семинаре по специальности Студент гр . 4057/2 Дмитрий Ашкадов 28 октября 2008. Содержание. Что такое Data Mining? Методы и алгоритмы Data Mining Задачи Data Mining Основные этапы Data Mining Сферы применения Обзор инструментов Data Mining

arlen
Download Presentation

Введение в Data Mining

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Введение в Data Mining • Доклад на семинаре по специальности • Студент гр. 4057/2 Дмитрий Ашкадов • 28 октября 2008

  2. Содержание • Что такое Data Mining? • Методы и алгоритмы Data Mining • Задачи Data Mining • Основные этапы Data Mining • Сферы применения • Обзор инструментов Data Mining • Перспективы Data Mining Д. Ашкадов. Введение в DataMining.

  3. Что такое Data Mining? • Процесс выделения из данных неявной и неструктурированной информации • Мультидисциплинарнаяобласть: • прикладная статистика • распознавание образов • искусственный интеллект • теория баз данных Data Mining Data поиск ценной информации в большой базе данных Mining добыча ископаемых Д. Ашкадов. Введение в DataMining.

  4. Задачи Data Mining • Классификация • Кластеризация • Прогнозирование • Ассоциация • Анализ связей • Обнаружение отклонений Д. Ашкадов. Введение в DataMining.

  5. Методы и алгоритмы Data Mining • искусственные нейронные сети • деревья решений • методы ближайшего соседа и k-ближайшего соседа • метод опорных векторов • байесовские сети • линейная регрессия • корреляционно-регрессионный анализ • иерархические и неиерархические методы кластерного анализа • методы поиска ассоциативных правил, алгоритм Apriori; • метод ограниченного перебора, • эволюционное программирование и генетические алгоритмы Д. Ашкадов. Введение в DataMining.

  6. Сравнение методов DataMining Масштаби-руемость Интерпре-тируемость Популяр-ность Точность Трудоем-кость Быстрота Низкий уровень Высокий уровень Д. Ашкадов. Введение в DataMining.

  7. Классификация • Обнаруживаются признаки, определяющие классы объектов набора данных • Применяемые методы и алгоритмы: • ближайшего соседа • k-ближайшего соседа • байесовские сети • деревья решений • нейронные сети • линейная регрессия • генетические алгоритмы Д. Ашкадов. Введение в DataMining.

  8. Процесс классификации • Конструирование модели: описание признаков предопределенных классов на основе обучающего множества • Оценка точности модели: проверка модели на тестовом множестве • Использование модели: классификация новых или неизвестных значений Исходные данные Обучающее множество конструирование модели Тестовое множество проверка работоспособности Д. Ашкадов. Введение в DataMining.

  9. Пример классификации Доход Возраст Д. Ашкадов. Введение в DataMining.

  10. Пример классификации (2) доход Линейная регрессия доход Деревья решений возраст возраст доход Нейронные сети возраст Д. Ашкадов. Введение в DataMining.

  11. Деревья решений • Задачи классификации и прогнозирования • Предложены Ховилендом и Хантом в конце 50-х годов XX века Идти на лекцию? Важная лекция? да нет Хорошая погода? Идти • Процесс получения дерева: • Построение дерева (возможно, «ветвистого») • выбор критерия расщепления • выбор критерия остановки • Сокращение дерева • отсечение некоторых ветвей да нет Не идти Идти Д. Ашкадов. Введение в DataMining.

  12. Метод опорных векторов • Нахождение плоскости, разделяющей два множества объектов • Опорные вектора - объекты множества, лежащие на границах областей • Область между границами должна быть как можно больше • Достаточно небольшого набора данных • Используется не все множество образцов для классификации Д. Ашкадов. Введение в DataMining.

  13. Прогнозирование • На основе особенностей исторических данных оцениваются пропущенные или будущие значения целевых показателей • Широко применяются: • методы математической статистики • нейронные сети • линейная регрессия • деревья решений • Этапы прогнозирования: • выбор (построение) модели прогнозирования • анализ адекватности и точности построенного прогноза Д. Ашкадов. Введение в DataMining.

  14. Кластеризация • Более сложная задача по сравнению с классификацией ("автоматическая классификация") • Разбиение совокупности объектов на однородные группы (кластеры) • Поиск неизвестных существующих структур • Классы объектов изначально не предопределены • Примеры методов и алгоритмов: • самоорганизующиеся карты Кохонена (особый вид нейронных сетей) • алгоритм k-средних Д. Ашкадов. Введение в DataMining.

  15. Кластеризация (2) Кластеры не обязаны совпадать с предопределенными классами Непересекающиеся и пересекающиеся кластеры Д. Ашкадов. Введение в DataMining.

  16. Подходы к кластеризации • Иерархические алгоритмы: • агломеративные: первоначально каждый объект - кластер, далее объединяемые в «большие» кластеры • дивизимные: изначально имеется один «большой кластер», далее делимый на меньшие кластеры • Итеративные алгоритмы: • разделение объектов на k кластеров • итеративное перераспределение объектов для улучшения кластеризации Д. Ашкадов. Введение в DataMining.

  17. Иерархические методы Меры расстояния (сходства): • Евклидова мера расстояния • манхэттенское расстояние – среднее разностей координат • расстояние Чебышева по одной координате • процент несогласия для категориальных данных Методы объединения или связи: • метод ближнего соседа (одиночная связь) • метод наиболее удаленного соседа (полная связь) • метод Варда • методы взвешенного и невзвешенногопопарныхсредних Д. Ашкадов. Введение в DataMining.

  18. Пример иерархического метода (1) Д. Ашкадов. Введение в DataMining.

  19. Пример иерархического метода (2) 1 1 1 3 4 2 3 4 2 9 5 2 6 1 3 9 10 13 4 5 8 12 2 14 11 6 7 Д. Ашкадов. Введение в DataMining.

  20. Пример иерархического метода (3) Д. Ашкадов. Введение в DataMining.

  21. Итеративные методы • При большом количестве наблюдений иерархические методы не пригодны • Разделение набора данных на определенное количество отдельных кластеров • Существует два подхода: • определение кластеров как большие «сгущения точек» • минимизация меры различия объектов • Методы этой группы различаются: • выбором начальной точки • правилом формирования новых кластеров • критерием остановки Д. Ашкадов. Введение в DataMining.

  22. Алгоритм k-средних (1) • Предполагаетсяналичие k кластеров • k определяется из предшествующих исследований, теоретических соображений или интуиции • Каждая итерация – увеличение различия между кластерами • Изначально выбирается k объектов в качестве центров кластеров • Центры кластеров – покоординатные средние объектов • Остановка при стабилизации центров кластеров Д. Ашкадов. Введение в DataMining.

  23. Алгоритм k-средних (2) Д. Ашкадов. Введение в DataMining.

  24. Оценка качества кластеризации • Ручная проверка • Установление контрольных точек и проверка на полученных кластерах • Определение стабильности кластеризации путем добавления в модель новых переменных • Создание и сравнение кластеров с использованием различных методов Д. Ашкадов. Введение в DataMining.

  25. Ассоциация • Отыскиваются закономерности между связанными событиями в наборе данных • Поиск закономерностей осуществляется между несколькими событиями, которые происходят одновременно • Последовательная ассоциация - установление закономерностей между событиями, связанными во времени • Наиболее известный алгоритм решения задачи поиска ассоциативных правил - алгоритм Apriori Д. Ашкадов. Введение в DataMining.

  26. Алгоритм Apriori • Кандидат – i-элементное множество или набор объектов • Поддержка кандидата – количество встреч кандидата в БД • Алгоритм состоит из этапов: • формирование кандидатов • поискi-элементных наборов и их построение • подсчет кандидатов • вычисление поддержки для кандидатов • отсечение часто встречающихся кандидатов • Отсечение кандидатов происходит на основе предположения, что у часто встречающегося набора все подмножества должны быть часто встречающимися Д. Ашкадов. Введение в DataMining.

  27. Пример алгоритма Apriori (1) • Поддержка – количество встреч набора в БД (для набора abc = {a, b, c} равна 3) • Минимальный уровень поддержки - 3 Д. Ашкадов. Введение в DataMining.

  28. Пример алгоритма Apriori (2) • Формируем 1-элементных кандидатов • Отбираем часто встречающихся кандидатов, чья поддержка не меньше минимальной (т.е. не меньше 3) Д. Ашкадов. Введение в DataMining.

  29. Пример алгоритма Apriori (3) • Сканируем базу данных и формируем 2-элементных кандидатов • Отбираем часто встречающихся кандидатов Д. Ашкадов. Введение в DataMining.

  30. Пример алгоритма Apriori (4) • Сканируем базу данных и формируем 3-элементных кандидатов • Отбираем часто встречающихся кандидатов • Алгоритм выдал нам единственную ассоциацию abc Д. Ашкадов. Введение в DataMining.

  31. Основные этапы Data Mining • Анализ предметной области • Постановка задачи • Подготовка данных • Построение моделей • Проверка и оценка моделей • Выбор модели • Применение модели • Коррекция и обновление модели Д. Ашкадов. Введение в DataMining.

  32. Сферы применения (1) Бизнес • Банковское дело • классический пример – определение кредитоспособности клиента • управление ликвидностью банка – прогнозирование остатка на счетах клиентов • выявление мошенничества с кредитными картами • Страхование • определение риска • Маркетинг • Фондовый рынок • прогнозирование будущих значений индексов • предсказание кризиса и прогноз его развития • Электронная коммерция Д. Ашкадов. Введение в DataMining.

  33. Сферы применения (2) Наука • Медицина • экспертные системы для постановки диагноза • эффективность применения препаратов для определенных групп пациентов • Биология, молекулярная генетика и генная инженерия • молекулярный диагноз заболеваний • индивидуальный подбор видов лечения • фундаментальные биологические открытия • Прикладная химия • Астрономия Д. Ашкадов. Введение в DataMining.

  34. Сферы применения (3) Исследования для правительства • Поиск лиц, уклоняющихся от налогов • Средства в борьбе с терроризмом Web-направление • Web Mining • Web Content Mining • Web Usage Mining Д. Ашкадов. Введение в DataMining.

  35. Обзор инструментов Data Mining • SPSS • один из самых популярных продуктов • поддерживает множество методов DataMining • Clementine от SPSS для минимизации времени решения бизнес-задач • KXEN (Knowledge eXtractionENgines) • решает задачи подготовки данных, сегментации, временных рядов и SVM-классификации • Пакет Weka • свободно распространяемый • набор алгоритмов машинного обучения для решения реальных Data Mining-проблем • написан на Java Д. Ашкадов. Введение в DataMining.

  36. Перспективы Data Mining • Выделение типов предметных областей с соответствующими им эвристиками • Создание формальных языков и логических средств для формализации рассуждений в продуктах Data Mining • Создание методов, способных формировать некие теории, опирающиеся на эмпирические данные • Преодоление существенного отставания возможностей инструментальных средств DataMining от теоретических достижений в этой области • Повседневное применение продуктов Data Mining обычными пользователями • В долгосрочной перспективе – поиск нового понимания природы вселенной Д. Ашкадов. Введение в DataMining.

  37. Литература • И.А. Чубукова. Data Mining (“INTUIT.ru: Учебный курс - Data Mining” ). – 2006 - http://www.intuit.ru/department/database/datamining/ • Kurt Thearling. An Introduction to Data Mining. - http://www.thearling.com/dmintro/dmintro_2.htm • Data Mining, Web Mining и многое другое наhttp://www.kdnuggets.com Д. Ашкадов. Введение в DataMining.

  38. Спасибо за внимание Здесь могла бы быть размещена ваша реклама Д. Ашкадов. Введение в DataMining.

More Related