280 likes | 428 Views
基于加权词汇衔接的文档级机器翻译自动评价. 贡正仙 李良友. 苏州大学计算机科学与技术学院 2013.11.17. 背景. 相比独立的句子,用户更加关心一段文本的整体意思。 Discourse/document-level SMT 的目标是提升篇章或者文档的翻译性能。 RST-based MT Cache-based MT Topic-based MT ……. 背景( 2 ). 目前针对篇章质量的自动评价方法很少 主流的 BLEU 、 METEOR 和 TER 等,注重的是系统级别或者是句子级别的评价。
E N D
基于加权词汇衔接的文档级机器翻译自动评价 贡正仙 李良友 苏州大学计算机科学与技术学院2013.11.17
背景 • 相比独立的句子,用户更加关心一段文本的整体意思。 • Discourse/document-level SMT的目标是提升篇章或者文档的翻译性能。 • RST-basedMT • Cache-basedMT • Topic-basedMT……
背景(2) • 目前针对篇章质量的自动评价方法很少 • 主流的BLEU、METEOR和TER等,注重的是系统级别或者是句子级别的评价。 • 在缺乏篇章质量的评价方法上进行优化的机器翻译系统不太可能产生像人工翻译那样自然的文本。 • 篇章特征?
背景(3) • Beaugrande和Dressler认为篇章具有7个基本特征:衔接性、连贯性、意图性、可接受性、信息性、情景性和跨篇章性,其中衔接性和连贯性被认为是区分一段文字是否构成篇章或者文本的两个基本特征。 • 连贯性即文本中存在的要表达的意思的关系,连贯性的度量依赖于衔接性。 • 衔接性是通过句子间的语法和词汇元素的相互链接实现的。 • 本文主要研究句子间的语言学特征:衔接性和连贯性并将它们加入到已有的评价中产生更好的文档级别的评分。
: LC方法介绍 lcd是词汇衔接手段的数量 cw是实义词的数量 LC分值越高表示实义词中词汇衔接手段的比例越高 如何确定词汇衔接手段的数量 lcd? • Billy T. M. Wong and Chunyu Kit.EMNLP2012 Extending Machine Translation Evaluation Metrics with Lexical Cohesion to Document Level • LC方法计算词汇衔接性:
LC方法可改进的地方 • 通过LC来衡量文本的衔接性时,它平等地对待每一个实义词。 • 不同类型的实义词携带的信息量不同 • 能否使用不同的权重来有区别地对待这些词汇,从而能够更准确地衡量译文的衔接性?
研究内容 • 在LC 的基础上提出两种新的方法WLC 和PWLC • 与LC不同,本文的方法不是简单地进行计数,而是根据词的权重进行计算,称为基于权重的词汇衔接,即WLC方法。 • 在WLC基础上,进一步根据词性分布提出依赖于词性的PWLC(pos-WLC)。
WLC方法 • 在PageRank中,一个词的分数被定义为: • 使用PageRank算法,基本思想:如果有其它重要的节点指向一个节点,那么这个节点也是重要的。
WLC依赖的词图 • 词图的构建 • 使用一个宽度为W的滑动窗口,在图中添加窗口内的第一个词指向窗口中其它词的连接,该窗口每次滑动一个词的距离
PWLC方法 WLC中词的分数 PWLC中词的分数 根据词性分配不同权重的基本思想是:一篇文档中的词的词性分布具有不平衡性,且通常名词占据着文档词的大部分,这些大部分词就会对文档的理解起到重要的影响
PWLC方法(2) 使用WordNet获取每个词的所有可能词性,因此每个词的词性相关Weightpos(w)的权重是其所有词性权重的均值 “rose”在WordNet中有名词、动词和形容词三种词性,因此它的词性权重为(0.5 + 0.28 + 0.15)/3 = 0.31
PWLC方法(3) 图3 带基于词性的跳转概率的词图示例
词汇衔接与主流评价方法的集成 LC、WLC以及PWLC都可以针对一篇文档给出一个0到1之间的评价结果,该结果反映了文档的词汇衔接情况。 它们可以作为独立的评价方法用于文档的评价,同时也可以与其它已有的评价方法进行组合。 词汇衔接加入到已有评价中:
实验准备 Spearman等级相关系数测量自动评价方法的结果与人工评分的相关性。
词汇类型统计 • 大约有一半左右的词是实义词; • 实义词中,多数词具有名词词性,其次为动词、形容词和副词,而在四个词性之外的词只是少部分
独立使用词汇衔接评价的相关实验 基于PageRank的词汇衔接方法是建立在词图的基础上,而词图的构建与窗口大小有关。 因此下面这一组实验是用来观察不同窗口大小下评价性能的变化。
图4 LC与不同窗口大小下的WLC、pos-WLC 在文档评价上的Spearman 相关系数
联合词汇衔接与其它评价方法的相关实验 • 实验选取BLEU、TER和METEOR三种方法; • WLC和PWLC的窗口大小都取10 • 表4将LC加入到其它方法后的优化参数
表5 与不同方法融合词汇衔接后在MTC2 上的Spearman相关系数
词汇衔接评价方法的健壮性 为了测试词汇评价方法的健壮性,用3种评价衔接性的方法以相同的设置在MTC4上做了相应的实验。
表6 不同方法融合词汇衔接后在MTC4数据集上的Spearman相关系数
词汇衔接评价与主流评价方法的相关度 考虑到词汇衔接在不同方法上融合效果的不一致性,本文做了一组实验来计算词汇衔接与各种不同的评价方法间的相关度
表7 词汇衔接与不同评价方法间的文档评分的相关度 通过分析各种方法之间的相关性发现,LC、WLC和pos-WLC与METEOR和PBE的相关度较高,这可能是融合效果较小的一个原因。
总结 • 本文在词汇衔接评价LC的基础上提出了WLC和pos-WLC两个评价方法。它们采用基于词图的PageRank得到词汇的权重,且pos-WLC在计算权重时又考虑了词汇的词性带来的影响。 • 最后,本章使用了一种简单的方法将词汇衔接评价加入到已有评价方法中。 • 在词汇衔接性的评价上,本文提出的基于PageRank的方法WLC以及基于词性权重的pos-WLC方法要优于已有的LC方法。 • 同时将这三种方法融合进BLEU、TER、METEOR之后,发现它们能有效地提高BLUE和TER在文档评价上的效果,但是并没有对METEOR产生明显的帮助。