190 likes | 632 Views
КЛАСТЕРНЫЙ АНАЛИЗ. В СИСТЕМАХ ИСКУСТВЕННОГО ИНТЕЛЛЕКСТА. Определение. Кластерный анализ – многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы.
E N D
КЛАСТЕРНЫЙ АНАЛИЗ В СИСТЕМАХ ИСКУСТВЕННОГО ИНТЕЛЛЕКСТА
Определение Кластерный анализ – многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы. Задача кластеризации относится к статистической обработке, а также к широкому классу задач обучения без учителя.
Цели кластеризации • Понимание данных. • Сжатие данных. • Обнаружение новизны
Применение • Биоинформатика – анализ взаимодействия сетей генов • Социология – анализ исследований, опросов • Информатика: • Кластеризация результатов поиска • Сегментация изображений • Обнаружение опухолей и других патологий • Выделение объектов на спутниковых снимках • Распознавание лиц • Распознавание автомобильных номеров • Распознавание отпечатков пальцев • Интеллектуальный анализ данных
Методы кластеризации • Вероятностный подход. • K-средних (K-means) • K-medians • EM-алгоритм • Алгоритмы семейства FOREL • Дискриминантный анализ • Подходы на основе систем ИИ • Метод нечеткой кластеризации C-средних (C-means) • Нейронная сеть Кохонена • Генетический алгоритм
k-means (метод k-средних) стремится минимизировать суммарное квадратичное отклонение точек кластеров от центров этих кластеров k – число кластеров Si – полученные кластеры
K-means - Interactive demo http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/AppletKM.html
Недостатки метода k-means • Не гарантируется достижение глобального минимума суммарного квадратичного отклонения V, а только одного из локальных минимумов. • Результат зависит от выбора исходных центров кластеров, их оптимальный выбор неизвестен. • Число кластеров надо знать заранее. k-means++
Характеристики близости объектов