250 likes | 647 Views
服务于个性化营销的推荐系统实现与应用. 项目背景. 商务活动的电子化. 个性化商业. 大数据时代( Big Data ). 推荐系统在电子商务的应用. 推荐系统利用特殊的信息过滤技术,将不同的物品或内容推荐给可能对它们感兴趣的用户。. 推荐系统的应用现状. VS. 京东,淘宝上的应用仍是基于关联规则的非个性化推荐. 京东,淘宝上的应用仍是基于关联规则的非个性化推荐. 京东,淘宝上的应用仍是基于关联规则的非个性化推荐. 推荐给淘宝带来的销售额却低于 10%. 淘宝销售额 90% 以上仍来自搜索与类目等传统手段. 淘宝销售额 90% 以上仍来自搜索与类目等传统手段.
E N D
项目背景 商务活动的电子化 个性化商业 大数据时代(Big Data)
推荐系统在电子商务的应用 • 推荐系统利用特殊的信息过滤技术,将不同的物品或内容推荐给可能对它们感兴趣的用户。
推荐系统的应用现状 VS 京东,淘宝上的应用仍是基于关联规则的非个性化推荐 京东,淘宝上的应用仍是基于关联规则的非个性化推荐 京东,淘宝上的应用仍是基于关联规则的非个性化推荐 推荐给淘宝带来的销售额却低于10% 淘宝销售额90%以上仍来自搜索与类目等传统手段 淘宝销售额90%以上仍来自搜索与类目等传统手段 淘宝销售额90%以上仍来自搜索与类目等传统手段 淘宝销售额90%以上仍来自搜索与类目等传统手段 Amazon35%销售额来自推荐 Amazon35%销售额来自推荐 Amazon35%销售额来自推荐 Amazon35%销售额来自推荐 Amazon35%销售额来自推荐 Amazon35%销售额来自推荐 Amazon35%销售额来自推荐 Amazon35%销售额来自推荐 寻求先进算法Netflix放出百万大奖 寻求先进算法Netflix放出百万大奖 寻求先进算法Netflix放出百万大奖 寻求先进算法Netflix放出百万大奖 寻求先进算法Netflix放出百万大奖 寻求先进算法Netflix放出百万大奖 寻求先进算法Netflix放出百万大奖 国内 国内 国内 国内 国外 国外 国外 国外 国外 国外 国外 国外 国内少量个性化推荐的实现多是基于协同过滤算法(豆瓣猜) 国内少量个性化推荐的实现多是基于协同过滤算法(豆瓣猜) VS VS VS VS VS
个性化营销的技术体系 技术体系的优势: • Python语言的灵活性与C语言的运算高效性相结合; • 基于SQL+Python语言的数据分析与高精度的算法相结合。
算法体系:核心算法+常规算法 核心算法: • 基于网络的物质扩散方法(MD):基于用户-商品二部分网络上的物质扩散过程。 • 扩展方法: • 多步扩散 • 非均匀扩散法 • 热传导-物质扩散 • 混合算法 • 初始资源加权法
常规算法 • 全局排序(GRM):用户没有选择过的最热门的商品; • 基于商品的协同过滤算法(OCF):基于商品之间的关联性。
算法体系的优势 • 核心算法的优势 • 算法新。原型算法相关文章最新发表在2010年PNAS(美国科学院院刊)上,在学术界是独树一帜,企业界还是首次应用; • 精度高,解决了数据稀疏性问题。标准数据集(movielens, netflix)上精度比一般协同过滤算法高14%;在数据稀疏性高的数据集上(淘宝书类目下),精确度比协同过滤高900%; • 代码易实现,占用资源少,执行效率高。抛弃了协同过滤计算关联矩阵这一耗时和占用内存的步骤,易在大规模数据集上实现。 • 多种的算法结合,针对不同特点的数据集,弥补算法间的不足。
个性化营销体系的数据分析功能 手机营销参数分析 手机平台匹配性分析 手机阅读时间的分析 手机行为量的统计分析 手机阅读用户年龄分析 手机阅读种类分析
数据分析举例:阅读时间的分析 分析结论:周末效应明显,星期日总是局部高峰; 营销建议:建议在周末进行短信推送等相关营销。
数据分析举例:平台匹配性分析 分析结论:对于部分低端手机,由于平台不匹配,因此要成为活跃的阅读用户可能性非常小;过于高端可能会有更丰富的娱乐选择而放弃手机阅读; 营销建议:手机阅读营销活动建议区分手机平台,中端智能手机用户是比较好的潜在用户。
数据分析举例:手机阅读用户年龄分析 分析结论:20~40这个年龄阶段是主力群体,占据了70%用户份额;18~22是大学期间,份额不小;另外则是刚毕业进入职场的群体。
数据分析起到的作用 • 与企业谈判前期,通过数据分析给出有价值的营销建议取得合作方的信任 • 个性化推送展开后,通过数据挖掘找出潜在的用户群体,选择最佳时间点进行推送,以便得到更佳的推送效果
个性化短信推送的实施方案 • 用户选取了总pv量大于10间的共49892个用户,并分为了两组; • useid为奇数的有24828个,为实验组,对此组用户进行个性化推荐; • useid为偶数的有25064个,为对照组,移动公司方选取一本热门书对所有用户推荐(这次的书名为《北海恋人》)。然后比较这两组的推荐效果; • 每人只做一次推荐,一次只推荐一本书。
个性化短信推送的实施效果 推荐当日的激发pv量以及随后9天的激发pv量比较 (红色代表实验组黄色代表对照组)
个性化推荐效果总结 说明:以上效果对比是抵消了通过数据分析在时间,用户选择方面优化后的提升,因此实际提升应该是更大。 • 个性化推荐比移动公司推荐11天激发的pv总量提高了35倍; • pv次日保持率比企业方推荐提高了8倍; • 当日激发用户数比企业方推荐提高了9倍。
淘宝数据具有高度稀疏性 • 女装包括的用户:2863380,商品:305003;平均每个用户购买:1.7425个商品;平均每个商品被购买:16.36次;数据稀疏性达百万分之六; • 书包括的用户:1046493,商品:77967;平均每个用户购买:2.068个商品;平均每个商品被购买:2.776次;数据稀疏性达百万分之二点六。
淘宝推荐实验的理论效果 全局排序(蓝色)、协同过滤(黄色)、热传导(紫色)与物质扩散(红色)等四种算法的比较结果图示。
对于书的推荐算法的精度与协同过滤相比提高了9倍;对于书的推荐算法的精度与协同过滤相比提高了9倍; • 而对于女装的推荐算法的精度提高了6倍。 • 说明:我们的核心算法不仅解决了淘宝数据的稀疏性难题,而且其精确度远远优于淘宝现有算法。