1 / 12

QT 语义一致性

QT 语义一致性. 王朋朋 浙江大学. 主要方法. TF-IDF 编辑距离 Jaccard 相似度 分词结果对齐 词性过滤 词性特征 同义词 算法设计. TF-IDF. 分词: ICTCLAS 方法:合并 train 与 test ,计算词的 idf 值 目标:降低无关词的权重,增加关键词的权重. 编辑距离. 方法:增加 “替换”操作的权重 ,根据 query 和 title 的长度做归一化 处理 替换权重: 1.5 归一化 : 目标 :替换操作会使句子的语义发生较大的变化, 如 “现代 新途胜的年销售量 ”

Download Presentation

QT 语义一致性

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. QT语义一致性 王朋朋 浙江大学

  2. 主要方法 • TF-IDF • 编辑距离 • Jaccard相似度 • 分词结果对齐 • 词性过滤 • 词性特征 • 同义词 • 算法设计

  3. TF-IDF • 分词:ICTCLAS • 方法:合并train与test,计算词的idf值 • 目标:降低无关词的权重,增加关键词的权重

  4. 编辑距离 • 方法:增加“替换”操作的权重 ,根据query和title的长度做归一化处理 • 替换权重:1.5 • 归一化: • 目标:替换操作会使句子的语义发生较大的变化,如 • “现代新途胜的年销售量” • “现代I30月销售量是多少啊” • 归一化可以避免长句跟短句不可比的情况

  5. Jaccard相似度 • 方法:|A intersect B| / |A union B| • 目标:衡量query与title的关键词重合度,计算时选取名词

  6. 分词结果对齐 • 方法: 微信视频安全吗 手机下载微信安全吗 微信视频安全吗 手机下载微信安全吗 • 目标:分词器缺乏好的词库,分词结果不准确。

  7. 词性过滤 • 方法:过滤叹词,连词,介词,语气词等干扰词,过滤名词,\x(分词器未标注的词)中长度小于1的词 • 目标:降低无关词的干扰

  8. 词性特征 • 方法:使用向量模型计算query和title的相似度,计算时取动词,副词,形容词以及词性标注为ns,nz的词,PosValue • 目标:衡量query与title的限定词重合度,作为第二个判定指标(提高了约3个点,0.54到0.57)。

  9. 同义词 • 方法:word2vec,训练train和test,词与词之间的相似度,计算query和title的相似度(完全相同的词相似度置为0) • 目标:解决概念一致但是描述不同的case,提高约1个点

  10. 算法设计 上面两个参数是根据经验设置的,并且如果编辑距离和jacardSim大于某个特定值直接返回1,最后设定sim的阈值

  11. 可改进的地方 • 结合编辑距离和词性特征,使得操作不同词性的时候有不同的权值,更细致地去区分query和title • 选取好的词库和大的语料计算idf值以及同义词,以便逼近真实数据 • 句法分析,提取特殊结构,如“的”字短语,分析依存关系,抽取关键词和限定词并比对

  12. 谢谢!

More Related