130 likes | 264 Views
Q T. /. 陈 德 @ 浙江大学. Jaccard Similarity. 编辑距离. 规则. 分词. ICTCLAS. Q: 妄想 /v 性 /n 仮 /x 想 /v 人格 /n 障 / ng 害 /v T: 妄想 /v 性 /n 仮 /x 想 /v 人格 /n 障 / ng 害 /v 第二 /m 关 /n 找 /v 不 到 /v 初始 /b 位子 /n 。 / wj. 词 对齐. Q: 妄想 性仮想人格障害 / zz
E N D
QT / 陈德 @浙江大学
Jaccard Similarity 编辑距离 规则
分词 ICTCLAS Q:妄想/v 性/n 仮/x 想/v 人格/n 障/ng害/v T: 妄想/v 性/n 仮/x 想/v 人格/n 障/ng害/v 第二/m 关/n 找/v 不到/v 初始/b 位子/n 。/wj 词对齐 Q: 妄想性仮想人格障害/zz T: 妄想性仮想人格障害/zz第二/m 关/n 找/v 不到/v 初始/b 位 子/n 。/wj
词过滤 POS 助词(\u)叹词(\e)标点(\w) 连词(\c)语气词(\r) 某些特定类型词:邮箱名、客气词等。
词权值 TF-IDF、词长度 train4user.txt、test4user.txt 妄想性仮想人格障害/zz/2.9904 妄想性仮想人格障害/zz/1.3373第二/m/0.2494关/n/0.4392找/v/0.2069不到/v/0.4088初始/b/0.8123位子/n/1.1081
相似度 : 分词前的原始字符串 添加(1)、删除(1)、替换(1.2) : 处理后的词数组 添加()、添加()、 替换
初始判别 0.75 1 0.48
相似度调整 规则使用 升高相似度 0 1 相似度 降低相似度
规则 降低 • 某词性在且仅在Query、Title之一中出现 • 处所词(s): 外地、国外、网上…… • 方位词( f): 外侧、里面、附近…… • 数词(m): 20、二、2013 • 字符串(x): pdf、i9100、iphone • 某些词在Query、Title中出现的情况 • 在之一中存在() • 同时存在但没有共同的词() • 地名(ns):北京、上海、日本 • 疑问代词(ry):为什么、怎么、如何
规则 升高 • 某些词在Query、Title中同时出现 • 地名(ns):北京、上海、日本 • 疑问代词(ry):为什么、怎么、如何 • 字符串(x): pdf、i9100、iphone • 降低Query和Title中首尾词的权值,词性/zz,/ns除外
不足与改进 • 分词结果不够理想,可以选用好的分词工具,添加丰富的用户词库。 • 没有考虑到同义词,尤其在编辑距离的计算中影响巨大。 • 仅通过TF-IDF和词的长度来判断词的重要性,不够准确。 • 缺乏语法语义上的分析。