330 likes | 534 Views
Не забудьте начать запись доклада!. REC. Прогнозирование навигации на сайте. Максим Гончаров Microsoft. Максим Гончаров. Microsoft Специалист по платформе приложений E-mail : maxgon@microsoft.com http://www.businessdataanalytics.ru /. Содержание. Задачи Data Mining
E N D
Не забудьте начать запись доклада! REC
Прогнозирование навигации на сайте Максим Гончаров Microsoft
Максим Гончаров Microsoft Специалист по платформе приложений E-mail: maxgon@microsoft.com http://www.businessdataanalytics.ru/
Содержание • Задачи Data Mining • Описательный анализ • Предиктивный анализ • Web Mining – кратко • Web Usage Mining • Кластеризация цепочек последовательностей Microsoft • Пример проекта – калькулятор переходов
Описательный анализ • Какая структура клиентской базы? Какой профиль идеального клиента? • Какие есть взаимосвязи между характеристиками клиентов? • Какие события происходят одновременно? Какие услуги приобретаются вместе? • Какие события наступают последовательно? Откажется ли клиент от сотрудничества при данном шаблоне взаимодействия?
Предиктивный анализ • Откликнется ли клиент на данную маркетинговую кампанию? • Какова ценность клиента с данными характеристиками? • Какой размер прибыли будет в следующем месяце? • Какие из потенциальных клиентов вероятно совершат приобретение услуги в следующем месяце?
Кластерный анализ Сегментация – обнаружение структуры данных • На какие группы можно разбить клиентов? • Какая структура продаж? • Какие характеристики у мошеннических транзакций? Разбиение постоянных клиентов книжного интернет-магазина по интересам.
Анализ путей влияния Байесовские сети – обнаружение путей влияния факторов • Как связаны образование, доход и регион проживания? • Как влияет семейное положение на покупку товара? Цепочки влияния характеристик клиента
Деревья решений – факторы влияния Что влияет на приобретение банковского продукта
Деревья решений – классификация • Откликнется ли клиент с данными характеристиками на наше предложение? • Что характерно для клиента, собирающегося отказаться от услуг нашей компании? • Скоринг, приоритезациялидов. Дерево решения: что влияет на размер заказа продажи?
Прогнозирование временных рядов • Прогноз продаж по товарным категориям и группам клиентов. • Прогноз обращений в колл-центр. • Прогноз движения на складе. Прогноз продаж банковских услуг по категориям
Ассоциативные правила • Какие события происходят вместе? • Какие товары и услуги продаются совместно? • Cross-sales, up-sales. Книги, покупаемые совместно
Анализ цепочек последовательностей • Приобретение каких продуктов следует ожидать в следующем месяце от человека, открывшего в этом месяце счет и получившего дебетовую карту? • С какой вероятностью от нас уйдет клиент при данной последовательности действий? Временные шаблоны покупок велосипедных аксессуаров
Web Mining - кратко • Поиск информации – применение математической лингвистики и обработки естественных языков. • Анализ структуры сегментов сети – • хабы- из такой страницы ссылки идут на наиболее значимые ресурсы; • авторитеты - страницы, на которые ссылаются большоеколичеством авторов по данной • Выявление знаний из веб-ресурсов– обработка с точки зрения автоматической классификации, составления оглавлений, выявления ключевых слов и общих тем. • Персонализация информации– адаптация навигации, контента, баннеров и т.д. под пользователя.
Web Usage Mining Поиск шаблонов в поведении пользователей – поиск закономерностей в шаблонах взаимодействия пользователя с веб-ресурсом с целью прогнозирования его последующих действий. С точки зрения применения алгоритмов интеллектуального анализа данных при поиске шаблонов пользовательского поведения чаще всего используются следующие методики: • Кластеризация - поиск групп похожих посетителей, сайтов, страниц и т.д. • Ассоциации - поиск совместно запрашиваемых страниц, заказываемых товаров. • Анализ последовательностей - поиск последовательностей действий. Наиболее часто применяется вариант алгоритма apriori, разработанного для анализа частых наборов, но модифицированного для выявления частых фрагментов последовательностей и переходов.
Анализ последовательностей действий Microsoft Sequential Clustering Модель предполагает, что все последовательности разбиты на некоторое количество групп (кластеров). В каждой группе последовательности представляют собой Марковскую цепь, т.е. вероятность перехода в следующее состояние в группе определяется только текущим состоянием и не зависит от более ранних состояний. Таким образом, алгоритм разбивает последовательности на похожие группы и вычисляет в каждой группе условные вероятности переходов. Это позволяет не только прогнозировать следующее значение состояния на основании его прошлых состояний, но и получить описание существующих шаблонов переходов.
Демо-проект по прогнозированию навигации на сайте
Описание проекта Источник посещений – http://www.sitebuilder.ru • HTTP модуль на IIS, регистрирующий серверные переменные запросов в БД Access • Хранилище SQL Server’а, хранит всю историю навигаций по сессиям • Пакет Integration Services, загружающий Access файл в БД SQL, дополняющий данные (географией запроса и т.п.) • Куб Analysis Services – анализ по требованию всех показателей навигации и запросов. • Модели Data Mining для анализа закономерностей навигации • Сборки .NET – расширение запросов к моделям • Фиксированные отчеты по навигации • Веб-приложения, например калькулятор навигации.
Прогнозирование Стандартная реализация – двухходовка: • На основании истории кликов определить какому кластеру принадлежит пользователь. • Прогноз следующего клика – наиболее вероятный переход в данном кластере. На самом деле есть еще такой подход: вычислить наиболее вероятный переход с учетом принадлежности пользователя ко всем кластерам с учетом вероятности принадлежности.
Калькулятор прогнозирования следующего шага
Запрос на прогнозирование SELECT FLATTENED ( SELECT [Page Name] AS [Prediction], PredictProbability([Page Name]) AS [PredictProbability], ( SELECT [Page Name] AS [PageName], $PROBABILITY AS [Probability] FROM PredictHistogram([Page Name]) WHERE $PROBABILITY >= 0.01 ) AS h FROM PredictSequence([Pages Visited], 1) ) AS d FROM [Pages Visit Order Model] NATURAL PREDICTION JOIN ( SELECT ( SELECT 0 AS [Row Num], 'Портал в компании Адидас' AS [Page Name] UNION SELECT 1 AS [Row Num], 'Портал компании BBK' AS [Page Name] ) AS [Pages Visited] ) AS t
Спасибо за внимание! <Имя, Фамилия> <Компания> E-mail: <…@...>