721 likes | 1.71k Views
Введение в Data Mining. Доклад на семинаре по специальности Студент гр . 4057/2 Дмитрий Ашкадов 28 октября 2008. Содержание. Что такое Data Mining? Методы и алгоритмы Data Mining Задачи Data Mining Основные этапы Data Mining Сферы применения Обзор инструментов Data Mining
E N D
Введение в Data Mining • Доклад на семинаре по специальности • Студент гр. 4057/2 Дмитрий Ашкадов • 28 октября 2008
Содержание • Что такое Data Mining? • Методы и алгоритмы Data Mining • Задачи Data Mining • Основные этапы Data Mining • Сферы применения • Обзор инструментов Data Mining • Перспективы Data Mining Д. Ашкадов. Введение в DataMining.
Что такое Data Mining? • Процесс выделения из данных неявной и неструктурированной информации • Мультидисциплинарнаяобласть: • прикладная статистика • распознавание образов • искусственный интеллект • теория баз данных Data Mining Data поиск ценной информации в большой базе данных Mining добыча ископаемых Д. Ашкадов. Введение в DataMining.
Задачи Data Mining • Классификация • Кластеризация • Прогнозирование • Ассоциация • Анализ связей • Обнаружение отклонений Д. Ашкадов. Введение в DataMining.
Методы и алгоритмы Data Mining • искусственные нейронные сети • деревья решений • методы ближайшего соседа и k-ближайшего соседа • метод опорных векторов • байесовские сети • линейная регрессия • корреляционно-регрессионный анализ • иерархические и неиерархические методы кластерного анализа • методы поиска ассоциативных правил, алгоритм Apriori; • метод ограниченного перебора, • эволюционное программирование и генетические алгоритмы Д. Ашкадов. Введение в DataMining.
Сравнение методов DataMining Масштаби-руемость Интерпре-тируемость Популяр-ность Точность Трудоем-кость Быстрота Низкий уровень Высокий уровень Д. Ашкадов. Введение в DataMining.
Классификация • Обнаруживаются признаки, определяющие классы объектов набора данных • Применяемые методы и алгоритмы: • ближайшего соседа • k-ближайшего соседа • байесовские сети • деревья решений • нейронные сети • линейная регрессия • генетические алгоритмы Д. Ашкадов. Введение в DataMining.
Процесс классификации • Конструирование модели: описание признаков предопределенных классов на основе обучающего множества • Оценка точности модели: проверка модели на тестовом множестве • Использование модели: классификация новых или неизвестных значений Исходные данные Обучающее множество конструирование модели Тестовое множество проверка работоспособности Д. Ашкадов. Введение в DataMining.
Пример классификации Доход Возраст Д. Ашкадов. Введение в DataMining.
Пример классификации (2) доход Линейная регрессия доход Деревья решений возраст возраст доход Нейронные сети возраст Д. Ашкадов. Введение в DataMining.
Деревья решений • Задачи классификации и прогнозирования • Предложены Ховилендом и Хантом в конце 50-х годов XX века Идти на лекцию? Важная лекция? да нет Хорошая погода? Идти • Процесс получения дерева: • Построение дерева (возможно, «ветвистого») • выбор критерия расщепления • выбор критерия остановки • Сокращение дерева • отсечение некоторых ветвей да нет Не идти Идти Д. Ашкадов. Введение в DataMining.
Метод опорных векторов • Нахождение плоскости, разделяющей два множества объектов • Опорные вектора - объекты множества, лежащие на границах областей • Область между границами должна быть как можно больше • Достаточно небольшого набора данных • Используется не все множество образцов для классификации Д. Ашкадов. Введение в DataMining.
Прогнозирование • На основе особенностей исторических данных оцениваются пропущенные или будущие значения целевых показателей • Широко применяются: • методы математической статистики • нейронные сети • линейная регрессия • деревья решений • Этапы прогнозирования: • выбор (построение) модели прогнозирования • анализ адекватности и точности построенного прогноза Д. Ашкадов. Введение в DataMining.
Кластеризация • Более сложная задача по сравнению с классификацией ("автоматическая классификация") • Разбиение совокупности объектов на однородные группы (кластеры) • Поиск неизвестных существующих структур • Классы объектов изначально не предопределены • Примеры методов и алгоритмов: • самоорганизующиеся карты Кохонена (особый вид нейронных сетей) • алгоритм k-средних Д. Ашкадов. Введение в DataMining.
Кластеризация (2) Кластеры не обязаны совпадать с предопределенными классами Непересекающиеся и пересекающиеся кластеры Д. Ашкадов. Введение в DataMining.
Подходы к кластеризации • Иерархические алгоритмы: • агломеративные: первоначально каждый объект - кластер, далее объединяемые в «большие» кластеры • дивизимные: изначально имеется один «большой кластер», далее делимый на меньшие кластеры • Итеративные алгоритмы: • разделение объектов на k кластеров • итеративное перераспределение объектов для улучшения кластеризации Д. Ашкадов. Введение в DataMining.
Иерархические методы Меры расстояния (сходства): • Евклидова мера расстояния • манхэттенское расстояние – среднее разностей координат • расстояние Чебышева по одной координате • процент несогласия для категориальных данных Методы объединения или связи: • метод ближнего соседа (одиночная связь) • метод наиболее удаленного соседа (полная связь) • метод Варда • методы взвешенного и невзвешенногопопарныхсредних Д. Ашкадов. Введение в DataMining.
Пример иерархического метода (1) Д. Ашкадов. Введение в DataMining.
Пример иерархического метода (2) 1 1 1 3 4 2 3 4 2 9 5 2 6 1 3 9 10 13 4 5 8 12 2 14 11 6 7 Д. Ашкадов. Введение в DataMining.
Пример иерархического метода (3) Д. Ашкадов. Введение в DataMining.
Итеративные методы • При большом количестве наблюдений иерархические методы не пригодны • Разделение набора данных на определенное количество отдельных кластеров • Существует два подхода: • определение кластеров как большие «сгущения точек» • минимизация меры различия объектов • Методы этой группы различаются: • выбором начальной точки • правилом формирования новых кластеров • критерием остановки Д. Ашкадов. Введение в DataMining.
Алгоритм k-средних (1) • Предполагаетсяналичие k кластеров • k определяется из предшествующих исследований, теоретических соображений или интуиции • Каждая итерация – увеличение различия между кластерами • Изначально выбирается k объектов в качестве центров кластеров • Центры кластеров – покоординатные средние объектов • Остановка при стабилизации центров кластеров Д. Ашкадов. Введение в DataMining.
Алгоритм k-средних (2) Д. Ашкадов. Введение в DataMining.
Оценка качества кластеризации • Ручная проверка • Установление контрольных точек и проверка на полученных кластерах • Определение стабильности кластеризации путем добавления в модель новых переменных • Создание и сравнение кластеров с использованием различных методов Д. Ашкадов. Введение в DataMining.
Ассоциация • Отыскиваются закономерности между связанными событиями в наборе данных • Поиск закономерностей осуществляется между несколькими событиями, которые происходят одновременно • Последовательная ассоциация - установление закономерностей между событиями, связанными во времени • Наиболее известный алгоритм решения задачи поиска ассоциативных правил - алгоритм Apriori Д. Ашкадов. Введение в DataMining.
Алгоритм Apriori • Кандидат – i-элементное множество или набор объектов • Поддержка кандидата – количество встреч кандидата в БД • Алгоритм состоит из этапов: • формирование кандидатов • поискi-элементных наборов и их построение • подсчет кандидатов • вычисление поддержки для кандидатов • отсечение часто встречающихся кандидатов • Отсечение кандидатов происходит на основе предположения, что у часто встречающегося набора все подмножества должны быть часто встречающимися Д. Ашкадов. Введение в DataMining.
Пример алгоритма Apriori (1) • Поддержка – количество встреч набора в БД (для набора abc = {a, b, c} равна 3) • Минимальный уровень поддержки - 3 Д. Ашкадов. Введение в DataMining.
Пример алгоритма Apriori (2) • Формируем 1-элементных кандидатов • Отбираем часто встречающихся кандидатов, чья поддержка не меньше минимальной (т.е. не меньше 3) Д. Ашкадов. Введение в DataMining.
Пример алгоритма Apriori (3) • Сканируем базу данных и формируем 2-элементных кандидатов • Отбираем часто встречающихся кандидатов Д. Ашкадов. Введение в DataMining.
Пример алгоритма Apriori (4) • Сканируем базу данных и формируем 3-элементных кандидатов • Отбираем часто встречающихся кандидатов • Алгоритм выдал нам единственную ассоциацию abc Д. Ашкадов. Введение в DataMining.
Основные этапы Data Mining • Анализ предметной области • Постановка задачи • Подготовка данных • Построение моделей • Проверка и оценка моделей • Выбор модели • Применение модели • Коррекция и обновление модели Д. Ашкадов. Введение в DataMining.
Сферы применения (1) Бизнес • Банковское дело • классический пример – определение кредитоспособности клиента • управление ликвидностью банка – прогнозирование остатка на счетах клиентов • выявление мошенничества с кредитными картами • Страхование • определение риска • Маркетинг • Фондовый рынок • прогнозирование будущих значений индексов • предсказание кризиса и прогноз его развития • Электронная коммерция Д. Ашкадов. Введение в DataMining.
Сферы применения (2) Наука • Медицина • экспертные системы для постановки диагноза • эффективность применения препаратов для определенных групп пациентов • Биология, молекулярная генетика и генная инженерия • молекулярный диагноз заболеваний • индивидуальный подбор видов лечения • фундаментальные биологические открытия • Прикладная химия • Астрономия Д. Ашкадов. Введение в DataMining.
Сферы применения (3) Исследования для правительства • Поиск лиц, уклоняющихся от налогов • Средства в борьбе с терроризмом Web-направление • Web Mining • Web Content Mining • Web Usage Mining Д. Ашкадов. Введение в DataMining.
Обзор инструментов Data Mining • SPSS • один из самых популярных продуктов • поддерживает множество методов DataMining • Clementine от SPSS для минимизации времени решения бизнес-задач • KXEN (Knowledge eXtractionENgines) • решает задачи подготовки данных, сегментации, временных рядов и SVM-классификации • Пакет Weka • свободно распространяемый • набор алгоритмов машинного обучения для решения реальных Data Mining-проблем • написан на Java Д. Ашкадов. Введение в DataMining.
Перспективы Data Mining • Выделение типов предметных областей с соответствующими им эвристиками • Создание формальных языков и логических средств для формализации рассуждений в продуктах Data Mining • Создание методов, способных формировать некие теории, опирающиеся на эмпирические данные • Преодоление существенного отставания возможностей инструментальных средств DataMining от теоретических достижений в этой области • Повседневное применение продуктов Data Mining обычными пользователями • В долгосрочной перспективе – поиск нового понимания природы вселенной Д. Ашкадов. Введение в DataMining.
Литература • И.А. Чубукова. Data Mining (“INTUIT.ru: Учебный курс - Data Mining” ). – 2006 - http://www.intuit.ru/department/database/datamining/ • Kurt Thearling. An Introduction to Data Mining. - http://www.thearling.com/dmintro/dmintro_2.htm • Data Mining, Web Mining и многое другое наhttp://www.kdnuggets.com Д. Ашкадов. Введение в DataMining.
Спасибо за внимание Здесь могла бы быть размещена ваша реклама Д. Ашкадов. Введение в DataMining.