1 / 33

Не забудьте начать запись доклада!

Не забудьте начать запись доклада!. REC. Прогнозирование навигации на сайте. Максим Гончаров Microsoft. Максим Гончаров. Microsoft Специалист по платформе приложений E-mail : maxgon@microsoft.com http://www.businessdataanalytics.ru /. Содержание. Задачи Data Mining

ansel
Download Presentation

Не забудьте начать запись доклада!

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Не забудьте начать запись доклада! REC

  2. Прогнозирование навигации на сайте Максим Гончаров Microsoft

  3. Максим Гончаров Microsoft Специалист по платформе приложений E-mail: maxgon@microsoft.com http://www.businessdataanalytics.ru/

  4. Содержание • Задачи Data Mining • Описательный анализ • Предиктивный анализ • Web Mining – кратко • Web Usage Mining • Кластеризация цепочек последовательностей Microsoft • Пример проекта – калькулятор переходов

  5. Задачи Data Mining

  6. Описательный анализ • Какая структура клиентской базы? Какой профиль идеального клиента? • Какие есть взаимосвязи между характеристиками клиентов? • Какие события происходят одновременно? Какие услуги приобретаются вместе? • Какие события наступают последовательно? Откажется ли клиент от сотрудничества при данном шаблоне взаимодействия?

  7. Предиктивный анализ • Откликнется ли клиент на данную маркетинговую кампанию? • Какова ценность клиента с данными характеристиками? • Какой размер прибыли будет в следующем месяце? • Какие из потенциальных клиентов вероятно совершат приобретение услуги в следующем месяце?

  8. Кластерный анализ Сегментация – обнаружение структуры данных • На какие группы можно разбить клиентов? • Какая структура продаж? • Какие характеристики у мошеннических транзакций? Разбиение постоянных клиентов книжного интернет-магазина по интересам.

  9. Анализ путей влияния Байесовские сети – обнаружение путей влияния факторов • Как связаны образование, доход и регион проживания? • Как влияет семейное положение на покупку товара? Цепочки влияния характеристик клиента

  10. Деревья решений – факторы влияния Что влияет на приобретение банковского продукта

  11. Деревья решений – классификация • Откликнется ли клиент с данными характеристиками на наше предложение? • Что характерно для клиента, собирающегося отказаться от услуг нашей компании? • Скоринг, приоритезациялидов. Дерево решения: что влияет на размер заказа продажи?

  12. Прогнозирование временных рядов • Прогноз продаж по товарным категориям и группам клиентов. • Прогноз обращений в колл-центр. • Прогноз движения на складе. Прогноз продаж банковских услуг по категориям

  13. Ассоциативные правила • Какие события происходят вместе? • Какие товары и услуги продаются совместно? • Cross-sales, up-sales. Книги, покупаемые совместно

  14. Анализ цепочек последовательностей • Приобретение каких продуктов следует ожидать в следующем месяце от человека, открывшего в этом месяце счет и получившего дебетовую карту? • С какой вероятностью от нас уйдет клиент при данной последовательности действий? Временные шаблоны покупок велосипедных аксессуаров

  15. Web Mining – кратко

  16. Web Mining - кратко • Поиск информации – применение математической лингвистики и обработки естественных языков. • Анализ структуры сегментов сети – • хабы- из такой страницы ссылки идут на наиболее значимые ресурсы; • авторитеты - страницы, на которые ссылаются большоеколичеством авторов по данной • Выявление знаний из веб-ресурсов– обработка с точки зрения автоматической классификации, составления оглавлений, выявления ключевых слов и общих тем. • Персонализация информации– адаптация навигации, контента, баннеров и т.д. под пользователя.

  17. Web Usage Mining

  18. Web Usage Mining Поиск шаблонов в поведении пользователей – поиск закономерностей в шаблонах взаимодействия пользователя с веб-ресурсом с целью прогнозирования его последующих действий. С точки зрения применения алгоритмов интеллектуального анализа данных при поиске шаблонов пользовательского поведения чаще всего используются следующие методики: • Кластеризация - поиск групп похожих посетителей, сайтов, страниц и т.д. • Ассоциации - поиск совместно запрашиваемых страниц, заказываемых товаров. • Анализ последовательностей - поиск последовательностей действий. Наиболее часто применяется вариант алгоритма apriori, разработанного для анализа частых наборов, но модифицированного для выявления частых фрагментов последовательностей и переходов.

  19. Анализ последовательностей действий Microsoft Sequential Clustering Модель предполагает, что все последовательности разбиты на некоторое количество групп (кластеров). В каждой группе последовательности представляют собой Марковскую цепь, т.е. вероятность перехода в следующее состояние в группе определяется только текущим состоянием и не зависит от более ранних состояний. Таким образом, алгоритм разбивает последовательности на похожие группы и вычисляет в каждой группе условные вероятности переходов. Это позволяет не только прогнозировать следующее значение состояния на основании его прошлых состояний, но и получить описание существующих шаблонов переходов.

  20. Демо-проект по прогнозированию навигации на сайте

  21. Описание проекта Источник посещений – http://www.sitebuilder.ru • HTTP модуль на IIS, регистрирующий серверные переменные запросов в БД Access • Хранилище SQL Server’а, хранит всю историю навигаций по сессиям • Пакет Integration Services, загружающий Access файл в БД SQL, дополняющий данные (географией запроса и т.п.) • Куб Analysis Services – анализ по требованию всех показателей навигации и запросов. • Модели Data Mining для анализа закономерностей навигации • Сборки .NET – расширение запросов к моделям • Фиксированные отчеты по навигации • Веб-приложения, например калькулятор навигации.

  22. Структура данных

  23. Куб

  24. Куб

  25. Модель Data Mining

  26. Фиксированные отчеты

  27. Прогнозирование Стандартная реализация – двухходовка: • На основании истории кликов определить какому кластеру принадлежит пользователь. • Прогноз следующего клика – наиболее вероятный переход в данном кластере. На самом деле есть еще такой подход: вычислить наиболее вероятный переход с учетом принадлежности пользователя ко всем кластерам с учетом вероятности принадлежности.

  28. Калькулятор прогнозирования следующего шага

  29. Запрос на прогнозирование SELECT FLATTENED ( SELECT [Page Name] AS [Prediction], PredictProbability([Page Name]) AS [PredictProbability], ( SELECT [Page Name] AS [PageName], $PROBABILITY AS [Probability] FROM PredictHistogram([Page Name]) WHERE $PROBABILITY >= 0.01 ) AS h FROM PredictSequence([Pages Visited], 1) ) AS d FROM [Pages Visit Order Model] NATURAL PREDICTION JOIN ( SELECT ( SELECT 0 AS [Row Num], 'Портал в компании Адидас' AS [Page Name] UNION SELECT 1 AS [Row Num], 'Портал компании BBK' AS [Page Name] ) AS [Pages Visited] ) AS t

  30. Ответы на вопросы

  31. Спасибо за внимание! <Имя, Фамилия> <Компания> E-mail: <…@...>

More Related