1 / 27

Рекомендующие системы

Рекомендующие системы. Васильева Екатерина, гр.3539 Гниломедов Иван, гр.3538. О чём будет наша беседа. Вступление Основные моменты в рекомендующих системах Сравнение пользователей и образцов Один алгоритм + формулы Немного о жизни. Рекомендующая система… зачем она нужна?.

arvid
Download Presentation

Рекомендующие системы

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Рекомендующие системы Васильева Екатерина, гр.3539 Гниломедов Иван, гр.3538

  2. О чём будет наша беседа • Вступление • Основные моменты в рекомендующих системах • Сравнение пользователей и образцов • Один алгоритм + формулы • Немного о жизни

  3. Рекомендующая система… зачем она нужна? • Ситуация: вы хотите посмотреть фильм. Но какой выбрать? Как понять, что фильм может вам понравиться? • Решение: рекомендующая система (RS = Recommender system)! Она работает с предпочтениями пользователей.

  4. RS: классификация • общая фильтрация (Collaborative Filtering). Обрабатывает взгляды пользователей и дает им рекомендацию • частичная фильтрация (Content-based recommending). Основывается на схожести объектов рекомендации и дает ответ, учитывая взгляды пользователя

  5. Немного истории • Ранние системы общей фильтрации не могли помочь изучению web. Перед работой нужно было создать базу • Первая система: Information Tapestry project at Xerox PARC. Разрешала поиск документов. Работала для небольших групп и были сложности с различной лексикой

  6. Где можно встретить RS? • Рекомендации для фильмов, книг, дисков, страниц в интернете… • он-лайн магазины: Amazon, CDNOW, BarnesAnd-Noble, IMDb.. • USENET – новости в интернете

  7. Картинка с Amazon.com

  8. Постановка задачи • N наименований какой-либо мультимедиа информации (фильмов, саундтреков, книг и пр.) I1, I2, ... IN • M пользователей U1, U2, ... Um. Каждый из них дает список понравившихся ему наименований • RS – выдает список наименований, которые ему вероятно должны понравиться

  9. RS должна: • По списку понравившихся пользователю образцов давать ему список того, что ему может понравиться • Собирать и хранить данные о предпочтениях пользователей • В процессе работы производить самообучение

  10. Самый простой алгоритм • Каждому пользователю рекомендовать наиболее популярные образцы • НО: у всех разные интересы, а мы рекомендуем им одно и тоже (!), при этом не учитывая список понравившихся им вещей

  11. Если лучше, то как? • Разработку любого алгоритма стоит начать со структур данных.

  12. А как хранить данные? • помнить полностью исходные списки понравившихся пользователям образцов • хранить некоторые обобщённые данные о предпочтениях всех пользователей сразу, и при поступлении новой информации обновлять всю базу

  13. Сравниваем пользователей • Пробегаем по всей базе и сравниваем пользователей по понравившимся им наименованиям • ААА!!! Похожим пользователям, наверно, должны нравиться похожие образцы!)) • Формируем рекомендацию на основе рейтинглистов похожих пользователей.

  14. Теперь сравним образцы… • Матрица похожести образцов • Проблема: наименований много -размер матрицы!!! • Решение: матрица разрежена (угадайте почему) – можно хранить для каждого наименования список похожих на него объектов

  15. Сравним образцы… • Еще одна проблема: при таком хранении новым элементам будет дана минимальная степень похожести • … тогда он не сможет конкурировать с другими • …система будет стремиться к стабильному состоянию 

  16. Что делать с «новичками»? • топ лист - наиболее похожие по итогам всей истории развития • список «новобранцев» - наиболее похожие за последние несколько транзакций • (!) если «новобранец» хороший, то мы его переводим в топ лист

  17. Давайте комбинировать способы! • Сначала оценим похожесть образцов • Затем оценим схожесть пользователей по “псевдо рейтингу”

  18. Оригинальный рейтинг Первичное предсказание Псевдо рейтинг Заданные Не заданные Первичное предсказание Хотели псевдо рейтинг? Подано!

  19. От абстракции к конкретным формулам

  20. Neighborhood-based algorithm • Выделим k ближайших соседей • Вычислим насколько пользователю aпонравится образец i по формуле:

  21. База A 9 B 3 C 7 : : Z 5 A B C 9 : : Z 10 A 5 B 3 C : : Z 7 A B C 8 : : Z A 6 B 4 C : : Z A 10 B 4 C 8 . . Z 1 A 9 B 3 C . . Z 5 A 9 B 3 C 7 : : Z 5 A 10 B 4 C 8 . . Z 1 Сравнение пользователей Выдача рекомендации C Активный пользователь Алгоритм в действии Корреляционный анализ здесь похож на кластеризацию объектов

  22. Храним и собираем данные • Запоминаем все данные, передаваемые пользователями • Спрашиваем пользователя, что ему нравится • Winamp-шпионы (разрешение не забудьте ;) )

  23. ЖИЗНЬ – ЭТО УРОК… ДАВАЙТЕ УЧИТЬСЯ! • Что если мы ошиблись при рекомендации?... Наверно, стоит задуматься… • СИСТЕМА – думай!

  24. Как будем учиться? • Выкинем ¼ того, что нам дал пользователь в своем списке • Построим рекомендацию по оставшемуся списку • Ии…. Сравним, что получилось • Не увлекайтесь только одним пользователем, чтобы не сделать рекомендателя только для него

  25. Итог • Предоставление рекомендаций пользователям • Получение рейтингов фильмов или саундтреков • Маркетинговые исследования

  26. Чем пользовались… • "Distributed Collaborative Filtering for PeertoPeer File Sharing Systems“ (Jun Wang, Johan Pouwelse). • “Unifying Userbased and Itembased Collaborative Filtering Approaches by Similarity Fusion” (Jun Wang, Arjen P. de Vries, Marcel J.T. Reinders). • “Content-Boosted Collaborative Filtering for Improved Recommendations”(Prem Melville, Raymond J. Mooney, Ramadass Nagarajan: Department of Computer Sciences University of Texas). • “Recency-Based Collaborative Filtering”(Yi Ding, Xue Li, Maria E. Orlowska).

  27. Может, еще поговорим?Задайте вопрос… или предоставьте список,... Но это уже не к нам ;)

More Related