150 likes | 375 Views
内容标签和关系标签相结合的汉语篇章标注. 李素建,王荀 ,王宇昕 北京大学计算语言学研究所 北京 100871 {lisujian,xunwang,wangyuxin}@pku.edu.cn. 本文的框架. 篇章标注及相关工作 内容标签和结构标签相结合的标注规范 标注样例和工具 总结. 篇章关系. 篇章关系是指文本的组成部分之间的语义关联。 一般只标注相邻部分之间的关系 最小单位是句子、小句,也有使用短语的。 树状结构或者图模型来描述标注结果. 篇章关系理论和语料库. 基于RST理论的RST-Discoures Treebank(Carlson等,2001)
E N D
内容标签和关系标签相结合的汉语篇章标注 李素建,王荀 ,王宇昕 北京大学计算语言学研究所 北京 100871 {lisujian,xunwang,wangyuxin}@pku.edu.cn
本文的框架 • 篇章标注及相关工作 • 内容标签和结构标签相结合的标注规范 • 标注样例和工具 • 总结
篇章关系 • 篇章关系是指文本的组成部分之间的语义关联。 • 一般只标注相邻部分之间的关系 • 最小单位是句子、小句,也有使用短语的。 • 树状结构或者图模型来描述标注结果
篇章关系理论和语料库 • 基于RST理论的RST-Discoures Treebank(Carlson等,2001) • 385篇Wall Street Journal文章 • PDTB-v2(Prasad等,2008) • 语义关系分为三层 • 一百万字规模的Wall Street Journal文章 • FrameNet • Graphbank • 中文语料库:乐明/娄开阳/李毅
篇章关系理论和语料库 • RST-DT和GraphBank是将整个文本作为一个整体进行理解和标注 • PDTB和FrameNet主要用来描述文本片段。 • 篇章关系标注的目的: • 不同层次的文本标注统一到一个框架 • 更好地服务于自然语言处理任务的需要
内容标签和关系标签相结合的篇章标注体系 • 标注的基本原则 • 分层的原则 • 句-段-篇-章 • 简单的原则 • 关系标签 • 内容标签 • 异质的原则 • 不同的层面使用不同的标签
分层的原则 • 篇:由关系比较单调和松散的章组成 • 章:由一个或者几个意义段组成 • 意义段:由意义段或者自然段组成 • 自然段:由句子组成 • 句子:由句内基本单位组成 • 每一层的单元彼此之间以及相邻的层次之间存在着关系,从而构成了整个篇章。
简单的原则 • 关系标签:两个相邻的成分之间的关系。 • 内容标签:单个的成分本身的内容所具有的意义特征。 • 内容标签的设计比较灵活,而关系标签的数目和种类则是比较固定。这样可以兼顾标签体系灵活性和稳定性的需要。 • 关系标签是必须的,内容标签是可选的,内容标签可以是对关系标签的一个补充。
内容标签 • 以医学文本为例
总结 • 在新闻语料和医学文本上进行了标注 • 同时标注篇章的语义关系和重要内容 • 内容和语义关系分开 • 保证了标注体系的理论上完备性 • 保证了重要信息可以被标识出来 • 对文本整体和片段都有较强的描述能力。 • 之后我们将对更多的文本进行标注,并在实际中不断完善这套体系。