110 likes | 302 Views
Fusion of Long Distance Dependency Features for Chinese Named Entity Recognition Based on Markov Logic Networks. Zejian Wu, Zhengtao Yu 昆明理工大学智能信息处理重点实验室 www.liip.cn. 研究意义及背景. 现有的中文命名实体识别方法往往没有考虑实体间的长距离依赖 MLNs (基于无向图模型)为解决各种依赖问题提供了一个简洁、高效的解决方案。 相对于概率图模型,MLNs使用起来更加方便,简单。. 研究意义及背景.
E N D
Fusion of Long Distance Dependency Features for Chinese Named Entity Recognition Based on Markov Logic Networks Zejian Wu, Zhengtao Yu 昆明理工大学智能信息处理重点实验室 www.liip.cn www.liip.cn
研究意义及背景 • 现有的中文命名实体识别方法往往没有考虑实体间的长距离依赖 • MLNs (基于无向图模型)为解决各种依赖问题提供了一个简洁、高效的解决方案。 • 相对于概率图模型,MLNs使用起来更加方便,简单。 www.liip.cn
研究意义及背景 • HMM假设特征之间是相互独立的 • linear-chain CRF只能处理前后的依赖 • skip-chain CRF能够处理远距离的依赖关系,但是对于一些复杂的长距离依赖关系,还是能难进行实际运用。 www.liip.cn
Markov逻辑网 • 基于一阶逻辑和无向图模型 • 给定逻辑规则和一组常量,可以利用Markov逻辑网形成一个无向图模型 • 因为形成的无向图模型有自己的特点,学习与推理跟一般的无向图模型相较简单。 www.liip.cn
基于Markov逻辑网的中文命名实体识别 • 候选实体独立特征 • 候选实体包含的词以及对应的词性 • 局部上下文特征 • 候选实体短距离(前后)依赖特征 • 候选实体前后词性 • 候选实体长距离依赖特征 • 同型重现 • 缩写重现 www.liip.cn
基于Markov逻辑网的中文命名实体识别 • 候选实体独立特征 • 候选实体短距离(前后)依赖特征 • 候选实体长距离依赖特征 www.liip.cn
实验 • 语料 • 开放领域:人民日报98年1月份语料 • 受限领域:人工收集的云南旅游领域语料,因为旅游领域地点、经典重复次数更多。 www.liip.cn
实验结果 www.liip.cn
实验分析 • 仅考虑独立特征和前后依赖特征,MLNs的效果就要比CRF优秀些。 • 加入了长距离依赖特征以后,实验效果有显著提高,因为旅游领域的实体重复次数较多,旅游领域实验结果更为明显。 www.liip.cn
不足之处 • 理论方面 • 只是利用了现有的MLNs方法,没有针对业务对现有的方法做相应改进。 • 中文命名实体识别方面 • 只利用了两种比较明显的长距离依赖特征,没有利用更多的长距离依赖特征 www.liip.cn
参考文献 • ZHAO Jun. A Survey on Named Entity Recognition, Disambiguation and Cross-Lingual Co-reference Resolution. Journal of Chinese Information Processing, 2009, 23(2). • Jingchen Liu, Minlie Huang, Xiaoyan Zhu. Recognizing biomedical named entities using skip-chain conditional random fields. Proceeding BioNLP '10 Proceedings of the 2010 Workshop on Biomedical Natural Language Processing Pages 10-18 • Poon and Domingos. 2006. Sound and Efficient Inference with Probabilistic and Deterministic Dependencies. Proceedings of the Twenty-First National Conference on Artificial Intelligence (pp. 458-463), Boston, MA: AAAI Press. www.liip.cn