170 likes | 436 Views
Анализ данных. Кластеризация. План лекции. Определение кластеризации Применение кластеризации Общий алгоритм кластеризации Типы кластеризации Цели: Дать определение кластеризации Определить область применения и типы. Обучение с учителем. Классификация: Набор для обучения
E N D
Анализ данных Кластеризация
План лекции • Определение кластеризации • Применение кластеризации • Общий алгоритм кластеризации • Типы кластеризации Цели: • Дать определение кластеризации • Определить область применения и типы
Обучение с учителем Классификация: • Набор для обучения • Набор для проверки • Набор объектов без класса Задача: присвоить объекту класс из имеющихся
Обучение без учителя Кластеризация: • Набор данных Задача: найти полезное разбиение набора объектов
Определение • Кластеризация – задача разбиения заданной выборки объектов на кластеры в зависимости от их схожести
Особенности кластеризации • Заранее неизвестны характеристики кластеров • Не всегда заранее известно количество кластеров
Применение кластеризации Основные цели: • Выявление полезной информации из кластерной структуры (напр.: теории происхождения) • Сжатие данных (напр.: при индексации веб-страниц) • Обнаружение новизны (напр.: поиск трендов)
Сферы применения кластеризации • Биология: • Поиск новых видов и теорий происхождения • Социология • Поиск эффективных рабочих групп • Информатика • Поиск групп похожих документов, изображений и прочих медиафайлов
Обобщенный алгоритм кластеризации • Приведение данных к нужному виду • Выбор меры близости • Выбор алгоритма кластеризации • Выполнение алгоритма над данными • Представление результатов алгоритма • Интерпретация результатов кластеризации
Меры близости Мера близости – представление близости между двумя объектами обычно выраженное числом Виды мер близости: • Меры измерения расстояния между объектами по числовым шкалам • Меры схожести признаков двух объектов по наборам атрибутов
Меры близости расстояния Евклидова метрика: Манхэттенское расстояние:
Меры близости расстояния Другие популярные метрики: • Расстояние Минковского • Расстояние Хэмминга • Расстояние Левенштейна (Дамерау-Левенштейна)
Меры схожести Коэффициент Жаккара: Коэффициент Дайса: и еще много метрик из биологии
Типы алгоритмов • Иерархические • Агломеративные и дивизимные • Неиерархические • Плотностные • Итеративные • Модельные • Концептуальные • Другие
Представление результатов кластеризации • Дендрограмма • Мозаичное представление • Линейная проекция • Номограмма • Другие графики Кластеры чаще всего цветом выделяются
Представление результатов кластеризации • Иерархические • Дендрограмма • Мозаичное представление • Неиерархические • Линейная проекция • Номограмма • Другие графики
Спасибо за внимание Вопросы по кластеризации присылайте на: ivan.savin@auditory.ru