1 / 11

Zejian Wu, Zhengtao Yu 昆明理工大学智能信息处理重点实验室 liip

Fusion of Long Distance Dependency Features for Chinese Named Entity Recognition Based on Markov Logic Networks. Zejian Wu, Zhengtao Yu 昆明理工大学智能信息处理重点实验室 www.liip.cn. 研究意义及背景. 现有的中文命名实体识别方法往往没有考虑实体间的长距离依赖 MLNs (基于无向图模型)为解决各种依赖问题提供了一个简洁、高效的解决方案。 相对于概率图模型,MLNs使用起来更加方便,简单。. 研究意义及背景.

tova
Download Presentation

Zejian Wu, Zhengtao Yu 昆明理工大学智能信息处理重点实验室 liip

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Fusion of Long Distance Dependency Features for Chinese Named Entity Recognition Based on Markov Logic Networks Zejian Wu, Zhengtao Yu 昆明理工大学智能信息处理重点实验室 www.liip.cn www.liip.cn

  2. 研究意义及背景 • 现有的中文命名实体识别方法往往没有考虑实体间的长距离依赖 • MLNs (基于无向图模型)为解决各种依赖问题提供了一个简洁、高效的解决方案。 • 相对于概率图模型,MLNs使用起来更加方便,简单。 www.liip.cn

  3. 研究意义及背景 • HMM假设特征之间是相互独立的 • linear-chain CRF只能处理前后的依赖 • skip-chain CRF能够处理远距离的依赖关系,但是对于一些复杂的长距离依赖关系,还是能难进行实际运用。 www.liip.cn

  4. Markov逻辑网 • 基于一阶逻辑和无向图模型 • 给定逻辑规则和一组常量,可以利用Markov逻辑网形成一个无向图模型 • 因为形成的无向图模型有自己的特点,学习与推理跟一般的无向图模型相较简单。 www.liip.cn

  5. 基于Markov逻辑网的中文命名实体识别 • 候选实体独立特征 • 候选实体包含的词以及对应的词性 • 局部上下文特征 • 候选实体短距离(前后)依赖特征 • 候选实体前后词性 • 候选实体长距离依赖特征 • 同型重现 • 缩写重现 www.liip.cn

  6. 基于Markov逻辑网的中文命名实体识别 • 候选实体独立特征 • 候选实体短距离(前后)依赖特征 • 候选实体长距离依赖特征 www.liip.cn

  7. 实验 • 语料 • 开放领域:人民日报98年1月份语料 • 受限领域:人工收集的云南旅游领域语料,因为旅游领域地点、经典重复次数更多。 www.liip.cn

  8. 实验结果 www.liip.cn

  9. 实验分析 • 仅考虑独立特征和前后依赖特征,MLNs的效果就要比CRF优秀些。 • 加入了长距离依赖特征以后,实验效果有显著提高,因为旅游领域的实体重复次数较多,旅游领域实验结果更为明显。 www.liip.cn

  10. 不足之处 • 理论方面 • 只是利用了现有的MLNs方法,没有针对业务对现有的方法做相应改进。 • 中文命名实体识别方面 • 只利用了两种比较明显的长距离依赖特征,没有利用更多的长距离依赖特征 www.liip.cn

  11. 参考文献 • ZHAO Jun. A Survey on Named Entity Recognition, Disambiguation and Cross-Lingual Co-reference Resolution. Journal of Chinese Information Processing, 2009, 23(2). • Jingchen Liu, Minlie Huang, Xiaoyan Zhu. Recognizing biomedical named entities using skip-chain conditional random fields. Proceeding BioNLP '10 Proceedings of the 2010 Workshop on Biomedical Natural Language Processing Pages 10-18 • Poon and Domingos. 2006. Sound and Efficient Inference with Probabilistic and Deterministic Dependencies. Proceedings of the Twenty-First National Conference on Artificial Intelligence (pp. 458-463), Boston, MA: AAAI Press. www.liip.cn

More Related