1 / 26

实习 介绍

实习 介绍. 胡玲玲 网页搜索部 2013-09-01. 目录. 初识 - 调研流程平台. 定位 平台组快速调研整合的流程整合部份,作为调研的统一入口,对调研的过程、工具、数据等进行有效的管理 。 目标 为实现调研全过程的改善打下基础,改善大搜索,提升效率。. 调研流程平台 - 整体框架. 调研流程平台 - 整体框架. 入手 -LTR. 用机器学习的方式做 ranking 学术界一般称为 Learning to rank(LTR) 也称为 machine-learned ranking (MLR) 定位

rianne
Download Presentation

实习 介绍

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 实习介绍 胡玲玲 网页搜索部 2013-09-01

  2. 目录

  3. 初识-调研流程平台 • 定位 • 平台组快速调研整合的流程整合部份,作为调研的统一入口,对调研的过程、工具、数据等进行有效的管理。 • 目标 • 为实现调研全过程的改善打下基础,改善大搜索,提升效率。

  4. 调研流程平台-整体框架

  5. 调研流程平台-整体框架

  6. 入手-LTR • 用机器学习的方式做ranking • 学术界一般称为Learning to rank(LTR) • 也称为machine-learned ranking(MLR) • 定位 • 机器学习在Ranking系统中应用方法的研究,产出可执行的系统方法 • Ranking 问题: • 简单的说:一个query下的url list,给出一个排序,使得排序和相关性高低尽可能一致。

  7. 为什么需要LTR? • 传统上使用人工经验来确定特征的权值 • 得到模型易于理解 • 性能稳定 • 依赖于个人经验,难以国际化 • 效率较低,成本较高 • 采用机器学习的方法,自动从特征中构建排序模型 • 提高研发效率,降低国际化壁垒 • 参数可以自动确定 • 部分模型的可理解性与可解释性不佳 • 机器学习的发展 • 监督学习方法比较成熟 • 针对ranking的机器学习越来越多(高质量paper 百余篇以上)

  8. 为什么需要LTR? • Ranking 很难做 • 基础相关性 • 页面质量 • 页面权威性 • …… • Ranking 怎么做? • Socre(query,url)= • Function(x)=wx+b

  9. LTR在业界的情况 • 第一个使用LTR的搜索引擎: AltaVista 2003 • 后称为Overture, 现在是Yahoo一部分 • 微软Bing: 2005 • 俄罗斯Yandex:2009 • Google?…… • Yahoo! Learning to Rank Challenge2010 • Yandex's Internet Mathematics 2009

  10. LTR基本流程

  11. LTR基本流程-样本获取 • 什么是样本 • 样本即训练数据,是rank模型获取知识的素材。 • 型如:(Label,Query,feature1,feature2,...,featureN,URL) • 样本来源?

  12. LTR基本流程-特征 • 网页特征有哪些? • AC中用到28维特征 • 基础相关性特征 • 特征处理目标和方式与选择的训练模型有很大关系,比如目前ACreranking中选择的rank-SVM是线性(不带核函数)的,处理特征的目标就是尽量提高样本线性可分程度

  13. LTR基本流程-模型选择 • rank系统的大脑,杂乱无章的网页靠它变得有序 • pairwise模型: • 在同一query下抽取两个具不同label值的URL,得到一个pair, 按照Label url> Label url2划一类, Label url< Label url2为另一类,以此为训练集,问题转换为二分类问题。 • 对此问题选择一种分类器,目前ACreranking用的rank-SVM训练。应用时拿测试集的query-URL给模型评分。

  14. LTR基本流程-评估 • 什么是评估 • 衡量一个list of URL与理想顺序的接近程度的过程就是评估 • 为什么要评估? • 评估标准决定优化方向 • 如果model的效果好于线上很多,就可以考虑上线了 • 评估流程

  15. LTR 业务项目 • 要查看每个环节产出?对比两次调研? • 多个语言调研需建立多次流程? 统一管理 国际化,多语种调研

  16. LTR 业务项目-统一管理 • 项目信息 • LTR调研的整个过程,标注、模型上线、监控等,用到的或者产出的重要数据,如模型、特征、标注、样本等,统一管理、方便各种操作。 • 满足LTR调研流程数据的管理和查看、下载、对比等功能

  17. LTR业务项目-统一管理

  18. LTR国际化项目-多语种调研

  19. LTR国际化项目-多语种调研

  20. 项目二-策略上线项目 • 策略? • 如何上线? • 评估?

  21. 策略上线项目-策略 • 策略 • 知心,紧密度、知道文库架构改造、散乱命中、click query 影视知心例子

  22. 策略上线项目-上线 LTR上线流程 LTR基本流程

  23. 策略上线项目-评估 • 策略开发人员在全流量上线之前要评估新的策略的优劣,我们可以使用小流量的方式评估出新策略的优异。 • 小流量:与全流量对应,线上流量划分出来的一个子集。这是一个宽泛的概念,任何方式划分的流量子集都可以称为小流量。

  24. 策略对比

  25. 策略对比 • 常用评估指标 • 首次点击率:有点击的搜索次数/总搜索次数,即有点击的query占比,小于1。 • 点击率:点击次数和/总搜索次数,一般大于1。 • 首页点击率:前十点击结果和次数和/总搜索次数,一般大于1。 • 展现率:有展现某策略的搜索次数/总搜索次数,即有展现某策略的query占比。

  26. Q&A

More Related