1 / 17

Анализ данных

Анализ данных. Кластеризация. План лекции. Определение кластеризации Применение кластеризации Общий алгоритм кластеризации Типы кластеризации Цели: Дать определение кластеризации Определить область применения и типы. Обучение с учителем. Классификация: Набор для обучения

kasie
Download Presentation

Анализ данных

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Анализ данных Кластеризация

  2. План лекции • Определение кластеризации • Применение кластеризации • Общий алгоритм кластеризации • Типы кластеризации Цели: • Дать определение кластеризации • Определить область применения и типы

  3. Обучение с учителем Классификация: • Набор для обучения • Набор для проверки • Набор объектов без класса Задача: присвоить объекту класс из имеющихся

  4. Обучение без учителя Кластеризация: • Набор данных Задача: найти полезное разбиение набора объектов

  5. Определение • Кластеризация – задача разбиения заданной выборки объектов на кластеры в зависимости от их схожести

  6. Особенности кластеризации • Заранее неизвестны характеристики кластеров • Не всегда заранее известно количество кластеров

  7. Применение кластеризации Основные цели: • Выявление полезной информации из кластерной структуры (напр.: теории происхождения) • Сжатие данных (напр.: при индексации веб-страниц) • Обнаружение новизны (напр.: поиск трендов)

  8. Сферы применения кластеризации • Биология: • Поиск новых видов и теорий происхождения • Социология • Поиск эффективных рабочих групп • Информатика • Поиск групп похожих документов, изображений и прочих медиафайлов

  9. Обобщенный алгоритм кластеризации • Приведение данных к нужному виду • Выбор меры близости • Выбор алгоритма кластеризации • Выполнение алгоритма над данными • Представление результатов алгоритма • Интерпретация результатов кластеризации

  10. Меры близости Мера близости – представление близости между двумя объектами обычно выраженное числом Виды мер близости: • Меры измерения расстояния между объектами по числовым шкалам • Меры схожести признаков двух объектов по наборам атрибутов

  11. Меры близости расстояния Евклидова метрика: Манхэттенское расстояние:

  12. Меры близости расстояния Другие популярные метрики: • Расстояние Минковского • Расстояние Хэмминга • Расстояние Левенштейна (Дамерау-Левенштейна)

  13. Меры схожести Коэффициент Жаккара: Коэффициент Дайса: и еще много метрик из биологии

  14. Типы алгоритмов • Иерархические • Агломеративные и дивизимные • Неиерархические • Плотностные • Итеративные • Модельные • Концептуальные • Другие

  15. Представление результатов кластеризации • Дендрограмма • Мозаичное представление • Линейная проекция • Номограмма • Другие графики Кластеры чаще всего цветом выделяются

  16. Представление результатов кластеризации • Иерархические • Дендрограмма • Мозаичное представление • Неиерархические • Линейная проекция • Номограмма • Другие графики

  17. Спасибо за внимание Вопросы по кластеризации присылайте на: ivan.savin@auditory.ru

More Related