1 / 21

Анализ данных

Анализ данных. Кластеризация. План лекции. Иерархические алгоритмы (пример: алгоритм ближайшего соседа) Итеративные алгоритмы (пример: k-means ) Плотностные алгоритмы (пример: DBSCAN ) Цель: Знакомство с основными алгоритмами кластеризации. Иерархические алгоритмы.

kostya
Download Presentation

Анализ данных

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Анализ данных Кластеризация

  2. План лекции • Иерархические алгоритмы (пример: алгоритм ближайшего соседа) • Итеративные алгоритмы (пример: k-means) • Плотностные алгоритмы (пример: DBSCAN) Цель: • Знакомство с основными алгоритмами кластеризации

  3. Иерархические алгоритмы • Строят иерархию кластеров • Результаты: срез дендрограммы

  4. Алгоритм ближайшего соседа Single-linkage clustering • Алгомеративный алгоритм • На каждом шаге объединяем наиболее близкие друг другу кластеры в один • Вычислительная сложность: O(n2)

  5. Алгоритм ближайшего соседа Инициализация: • Каждый объект входит в единичный кластер Шаг алгоритма: • Вычисление матрицы попарной близости кластеров • Объединение наиболее близких кластеров • Проверка условий окончания кластеризации

  6. Варианты метрик • Ближайший сосед - метод одиночной связи (single linkage) • Дальний сосед - метод полной связи (complete linkage) • Средний сосед - метод средней связи (pair-group method using arithmetic averages) • прочие метрики

  7. Применениеиерархических алгоритмов • Составление таксономических иерархий (например: упорядочивание документов) • Поиск информативных срезов дендрограммы (поиск целевых групп)

  8. Неиерархические алгоритмы • Часто разрабатываются под конкретную задачу или сферу применения • Вычислительная сложность варьируется • Популярные подвиды: • Итеративные • Плотностные • Модельные • Концептуальные

  9. Итеративные алгоритмы • Основная идея: выполнение цикла кластеризации до устойчивого состояния или выполнения других условий выхода • Отличия от иерархических: • Нельзя построить дендрограмму • Неизвестно максимальное количество итераций • Увеличение количества итераций дает различный эффект

  10. Алгоритм k-means • В ходе кластеризации нужно установить центроид так, чтобы все объекты кластера были на минимальной расстоянии от него, а остальные на большем.

  11. Алгоритм k-means • Разделяем объекты на kкластеров • Вводим центроиды – характеризующие кластер (не обязательно реальные) объекты данных • Вычислительная сложность: O(nki), где i – количество итераций

  12. Алгоритм k-means Инициализация: • Установить kцентроидов (хоть случайно) Шаг алгоритма: • Отнести каждый объект к кластеру с ближайшим центроидом • Сдвинуть центроиды в «центр» кластера • Проверить условия выхода из цикла

  13. Алгоритм k-means

  14. Fuzzy c-means Fuzzy c-means – алгоритм нечеткой кластеризации, в котором каждый объект может относиться к нескольким кластерам Не теряется информация о значимой близости объекта к нескольким центроидам

  15. Применение k-means • Быстрая и простая кластеризация • Поиск известного количества кластеров (распознавание образов)

  16. Плотностные алгоритмы • Идея: поиск кластеров, внутри которых сохраняется определенная плотность между объектами

  17. Алгоритм DBSCAN • Внутри каждого кластера наблюдается плотность объектов заметно выше, чем плотность снаружи кластера • Плотность в областях с шумом ниже плотности любого из кластеров • Вычислительная сложность: O(n∙logn)

  18. Алгоритм DBSCAN • ε-соседство точки (N ε(p) )- множество объектов находящихся на расстоянии не более ε • MinPt – минимальное число точек (плотность) в множестве соседства данной точки

  19. Алгоритм DBSCAN Инициализация: • Выбрать ε, MinPt Для каждого из множества объектов: • Найти множество соседей точки • Если вокруг точки плотность меньше MinPt, то это шум • Если точка еще не входит в кластер, то создаем его вокруг нее • Если входит – расширяем кластер

  20. Применение DBSCAN • Устранения шумов (с изображений, аудиозаписей и т.д.) • Поиск сложных фигур из объектов

  21. Спасибо за внимание Вопросы по кластеризации присылайте на: ivan.savin@auditory.ru

More Related