1 / 37

推荐系统 @ 淘宝

推荐系统 @ 淘宝. 魏虎 ( 空望 ) 2011.7 kongwang@taobao.com. 1. 主要内容. 推荐系统概念 淘宝的数据 亚特兰蒂斯 - 淘宝推荐系统介绍. 推荐系统定义.

parker
Download Presentation

推荐系统 @ 淘宝

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 推荐系统@淘宝 魏虎(空望) 2011.7 kongwang@taobao.com 1

  2. 主要内容 • 推荐系统概念 • 淘宝的数据 • 亚特兰蒂斯-淘宝推荐系统介绍

  3. 推荐系统定义 • 维基百科:form or work from a specific type of information filtering system technique that attempts to recommend information items (item, music, books, news, images etc.) or social elements (e.g. people, events or groups) that are likely to be of interest to the user. • 找到用户可能会感兴趣的物品,然后以一定的形式推荐给用户。 1)如何找到用户感兴趣的东西 2)以什么形式告诉用户

  4. 推荐系统作用 • 提高用户忠诚度 • 提高成交转化率 • 提高网站交叉销售能力

  5. 产品 核心 系统 算法 推荐系统的核心

  6. 推荐系统产品形式 • 相关商品、店铺、达人推荐 • 评论、资讯推荐 • 邮件营销 • 群体信息披露 • 趋势引导 • 热门推荐 • etc

  7. 推荐系统系统组成 • 数据 • 算法(离线计算和在线计算) • Messaging system • Search engine • NoSQL • 分布式计算 • 效果评测

  8. 数据 • explicit(显式) :能准确的反应用户对物品的真实喜好,但需要用户付出额外的代价 用户收藏 用户评价 愿望清单 • Implicit(隐式):通过一些分析和处理,才能反映用户的喜好,只是数据不是很精确,有些行为的分析存在较大的噪音 用户浏览 用户页面停留时间、访问次数 购物列表

  9. 算法 • 算法计算方式 离线:用户类目偏好、用户购买力分析、关联性分析 在线:排序、过滤、增量计算 • 算法多样性 同一个场景多种算法组成

  10. Messaging system • 大型系统不可或缺的重要组成部分 • 与其他系统解耦,消息转发

  11. Search engine • 文本分析 抽取关键词 • 作为推荐系统的一个信息检索技术,全文检索 内容相关性匹配

  12. NoSQL

  13. 分布式计算 • 大规模数据统计和运算 • 大数据集合的ETL MapReduce , Hadoop、Hive

  14. 效果评测 • 推荐系统的效果需要数据来评测 Offline: 给定输入输出,验证系统的输出 Online : ABtest 衡量指标 CTR GMV PV UV

  15. 推荐系统主要算法 • content-based • collaborative-based • Association Rules

  16. content-based • build a term vector and then associate similar items based on the similarities between term vectors. TF/IDF:Term Frequency/Inverse Document Frequency TF-IDF(t,d) = TF(t,d) * IDF(t) Document = {term1, term2, …… ,term N} Document Vector = {weight1, weight2, …… ,weight N}

  17. content-based 优点:简单,搜索引擎支持 缺点:难以区分商品信息的品质,而且不能为用户发现新的感兴趣的商品,只能发现和用户已有兴趣相似的商品

  18. collaborative-based • a method of making automatic predictions (filtering) about the interests of a user by collecting preferences or taste information from many users (collaborating) • Memory-Based uses user rating data to compute similarity between users or items. User-Based(People-to-People Correlation):推荐系统根据客户与其他已经购买了商品的客户之间的相关性进行推荐 Item-Based(Item-to-Item Correlation):推荐系统根据客户感兴趣的产品推荐相关的产品 • Model-Based:uses data mining, machine learning algorithms to find patterns based on training data. Bayesian Networks, clustering models, latent semantic models etc

  19. collaborative-based 优点:保证推荐的商品质量 缺点:cold start、sparsity、first rater

  20. Association Rules • a method for discovering interesting relations between variables in large databases 支持度 置信度 Apriori算法

  21. 淘宝数据特点 • 数据量巨大 几百万店铺 上亿激活用户 上亿的在线商品 几十亿的收藏信息 • 商品问题 同一类商品多个卖家 标类 非标类 类目属性正确性 恶意收藏 刷信誉

  22. 商品体系 • 商品基本信息 • 类目体系 • SPU • SKU(Stock Keeping Unit最小库存单位)

  23. 亚特兰蒂斯 推荐系统 目标:是为各个产品提供商品、店铺、人、类目属性各种维度的推荐 核心:是类目属性和社会属性为纽带,将人 商品 店铺 建立起联系

  24. 主要特点 • 提供统一的平台管理各个推荐模块 • 提供算法的Abtest和效果统计 • 允许实时修正和调整算法结果 • 加入个性化因素 • 同一个场景支持各种算法

  25. 主要的应用场景 • 收藏夹宝贝收藏弹出层推荐 • 收藏夹相关宝贝推荐 • 收藏夹店铺收藏弹出层推荐 • 购物车推荐弹出层推荐 • 商品详情页浏览还浏览 • 母婴频道推荐 • etc

  26. 整体系统结构

  27. 推荐系统分层结构

  28. 宝贝的推荐 • Content-based and 关联规则 • 全网优质宝贝算分 • 根据推荐属性筛选TOP • 基于推荐属性的关联关系 • 采用搜索引擎存储和检索优质宝贝 • 加入个性化用户信息

  29. 优质宝贝考虑因素

  30. 关联关系 • cpv到cpv例如 笔记本电脑*Toshiba/东芝==>手机*Nokia/诺基亚 • 根据购买和收藏记录 BI工具和云梯计算 • 以关键属性为基础,可定义其他属性为推荐属性 云梯上job生成对应的关联规则 • 运营可在线调整关联关系

  31. 搜索相关性计算 VSM : Vector space model 实际的计算公式 影响item排序的因素: 1 商品的分数作为Document boost 2 关联关系的强度(置信度或者count(AUB)):query boost 3 属性的重要程度(lucene payload)

  32. 基于规则的推荐 • 由一系列规则条件组成

  33. 用户标签的产生 • 根据用户的浏览、收藏、购买行为 • 在hadoop上计算用户带权重的标签 • 一组后台cpv标签 • 用于个性化推荐

  34. Treasure系统结构

  35. Treasure存储的数据 • 存储云梯上对用户、商品等原始数据分析的结果 • 云梯周期性同步,无实时更新 • 为个性化推荐提供数据基础 • 可直接存储部分推荐算法的结果供推荐使用 • 应用访问云梯的梯子

  36. 其他方式的推荐 • 宝贝推荐店铺 • 店铺推荐店铺 • 其他

  37. 谢 谢

More Related