1 / 15

中心词抽取项目总结

英文 NLP 组. 中心词抽取项目总结. 目录. 2. asc irm-saa 部门 08 年终总结. 项目背景 项目目标 项目成员 项目日程 解决方案 性能评测 DEMO & Wiki 应用情况 致谢 分享. 项目背景. 中心词的定义 Example : "store unit with mirror" -[store unit]_NP with [mirror]_NP (NP: Noun Phrase) -Key NP phrase of the sentence: store unit

Download Presentation

中心词抽取项目总结

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 英文NLP组 中心词抽取项目总结

  2. 目录 2 asc irm-saa 部门 08 年终总结 项目背景 项目目标 项目成员 项目日程 解决方案 性能评测 DEMO & Wiki 应用情况 致谢 分享

  3. 项目背景 中心词的定义 Example: "store unit with mirror" -[store unit]_NP with [mirror]_NP (NP: Noun Phrase) -Key NP phrase of the sentence: store unit -Key word of the sentence: unit 项目最初的需求主要来以下两方面 在国际站相关性项目中,需要用到Offer中Subject的中心词信息 在国际站产品组的Query分析中,需要Query的中心词信息 3 asc irm-saa 部门 08 年终总结

  4. 项目目标 给定一个Query或者一个Offer的Subject,输出Query或者Subject的中心词 提供便利的编程接口 4 asc irm-saa 部门 08 年终总结

  5. 项目成员 • 项目经理 • 林锋 • 项目成员 • 郭家清,康战辉,来夏莹(实习生) • 产品经理 • Cindy,Rachel

  6. 项目日程

  7. 解决方案(1) Subject POS Tagging Chunking 中心NP抽取 NP抽取 规则 中心词抽取规则 中心词抽取 系统工作流程 • 对Subject进行POS Tagging和Chunking • 根据Chunking的结果统计出Subject的构成模式,以及NP的构成模式 • 对每种Subject的构成模式,制定规则抽出中心词所在的NP • 对每种NP的构成模式,制定规则从NP中抽取出中心词

  8. 解决方案(2):中心NP抽取规则

  9. 解决方案(3):在NP中抽取中心词规则

  10. 性能评测 准确率评测 评测语料:手工标注300条语料 性能评测 评测语料:147万条offer的Subject ( 34.8M / 1,476,327 Sentences / 5,429,094 Words ) 测试环境: kbs10(Xeon 5405*2/4G RAM/750G SATA*2) 测试结果:Total: 242s, Speed: 0.164ms/Sentence, Memory: 28M 10 asc irm-saa 部门 08 年终总结

  11. Demo & Wiki DEMO: http://kbs10.asc.cnz.alimama.com/kwe.php Wiki: http://asc.alibaba-inc.com/wiki/index.php/KeyWordExtraction 11 asc irm-saa 部门 08 年终总结

  12. 应用情况 目前应用于 B2B国际站相关性 IPX项目( Offer信息点抽取) English Query Rewrite B2B英文知识库 …… 将应用于 Smart Query System 替代Prisma抽取短句的主题词 12 asc irm-saa 部门 08 年终总结

  13. 致谢 • 产品组的Cindy,Rachel • 相关性组的欧文武,曹俊辉,金华兴 • 英文NLP组的全体成员

  14. 分享 • 郭家清 • 康战辉 • ……

  15. 15 asc irm-saa 部门 08 年终总结 Thanks! Q & A

More Related