BLEU对机器翻译质量进行评估的问题与对策


柔佛dt是哪个国家的 www.ogjnom.com.cn 2019-12-05 15:11:14

机器翻译

在机器柔佛dt是哪个国家的(MT)的世界中,人工评估仍然是评估柔佛dt是哪个国家的质量的事实上的金标准。但是对于研究人员和开发人员在数百次MT系统迭代中循环来说,人工评估实在太慢且太昂贵,无法用于每次增量调整。解决方案:自动化指标,使研究人员能够计算表示翻译质量的数字得分。

自从2002年被引入语言学领域以来,双语评估计划(又称为BLEU)已成为MT运用最广泛的指标。它启发了许多衍生产品,例如METEOR和ROUGE。BLEU和其他基于精度的指标通过将MT输出与参考译文进行比较来进行操作。

根据约翰·霍普金斯大学研究科学家Matt Post在2018年9月发表的一篇论文中,BLEU由于其(相对)语言独立性,易计算性以及与人类判断的合理关联性而成为MT研究的主要指标。

然而,BLEU与人类判断力之间的相关性最近受到质疑。

苏黎世博士生大学马蒂亚斯穆勒在接受采访时解释Slator,信心BLEU得分已经由MT系统的质量显著收益动摇。

Müller说:“现在有性能最高的系统,被人类评为最佳翻译,但这些系统的BLEU分数却没有最好的。”

这种趋势在2019年机器翻译大会(WMT19)上通过其年度新闻翻译任务变得明显,但仅适用于某些语言对:中文译成英文,英文译成Geman,德语译成英文,以及俄语译成英文。

“ WMT19上最好的系统使BLEU变得多余” –苏黎世大学博士候选人MathiasMüller

“与WMT翻译任务中的其他一些语言对相比,它们是资源相对充足的语言指导,与立陶宛语-英语,哈萨克语-英语等相比,它们都是全部,因此有更多数据,”穆勒指出。某些语言对(例如英语-德语)也已经被包含在新闻翻译任务中很多年了,而另一些则是最近才添加的。

尽管如此,基于这些结果,穆勒仍然有足够的信心在2019年10月于苏黎世举行的一次MT会议上表示:“ WMT19上最好的系统使BLEU成为“冗余”。”

BLEU的瑕疵

Müller并非唯一发现BLEU缺乏的专家。微软机器翻译团队的NLP首席科学家Marcin Junczys-Dowmunt将自己描述为BLEU的“超级用户”,他使用该指标来决定如何更改模型。Junczys-Dowmunt告诉Slator,在过去的两年中,在使用高质量系统时盲目地信任BLEU成为问题。

他说:“我认为这种情况通常是我们在行业中的大型机器翻译提供商所看到的,并且在学术界的程度也较小。” Junczys-Dowmunt解释说,像微软这样的行业巨头往往会建立并试图保持较高的水平。质量的系统已经有很多年了,而学术研究人员通?;嵴攵灾氐阍谟谔囟ㄏ窒蟮氖笛楣菇üδ芙先醯牧偈毕低?。

布拉格查理大学副教授和MT研究员Ondrej Bojar,同意BLEU的缺点是众所周知的。

“任何成功发表了有关机器翻译的论文的人都对问题有所了解,” Bojar告诉Slator。 

WMT19的新闻翻译任务强调了BLEU与MT系统质量相关的局限性,但是BLEU的一些缺点是该度量标准本身固有的。

像BLEU这样的精确度指标会对他们在翻译输出中看到的所有内容进行评分,并通过参考翻译进行确认,但不会对参考翻译中未包含的输出给予任何荣誉。这意味着MT产出的潜在大部分-Bojar和他的同事们估计多达三分之一-没有计分和计算。

BLEU对不同形式的单词也非常敏感,导致对形态丰富的语言中正确翻译的惩罚性评分,单词的词尾根据情况而变化。

到目前为止,Bojar说:“这些问题总体上还不足以使社区完全拒绝BLEU。”但是MT可能很快会达到质量提高要求新指标的地步。

还没死…还

Junczys-Dowmunt特别指出了导致MT质量突然显着提高的两个因素:Transformer的到来和规模的指数级增长。

他说:“我们已经从BERT那里获得了一笔有趣的投资,直接教训了如何从大型MT模型构建更好的系统。” “这已经在今年的WMT业绩中得到了体现。大型模型的表现远胜于竞争对手。”

多年来,专家们一直在设计替代指标,但是还没有像BLEU那样流行。为什么对BLEU及其变体做出持久的承诺?

Müller指出,在WMT19新闻翻译任务中观察到的某些语言对的下降趋势并非对所有语言对或所有指标都普遍存在。此外,并非所有研究都集中在开发性能最佳的系统上,因此在许多研究场景中,BLEU得分与人为判断之间的相关性很好。

新指标的可用性也可能是一个障碍。

“总会有一个权衡。BLEU非常容易计算,并且可以在几毫秒内得到结果。”Müller解释说。“如果一项指标比BLEU更好,但使用起来非常麻烦,那么人们可能会回避这一指标。”

“ BLEU变得毫无用处的观点实际上并不那么可怕。这是由于质量提高而发生的。” —微软机器翻译团队的首席自然语言处理科学家Marcin Junczys-Dowmunt

Müller一直在探索一些新的指标,包括对比评估。对比评估的重点是MT系统如何处理特定的语言现象,例如代词或名词-动词一致,并且旨在补充BLEU和其他能给整体翻译质量印象的度量标准。

Bojar认为,ChrF与BLEU一样简单,并且可以克服BLEU的一些局限性。像BLEU一样,chrF会逐句处理,并将MT输出与参考翻译进行比较,但是它会查看字符序列,这有助于识别不同的单词形式。

与其他专家一样,Bojar认为下一个突破性指标将需要在文档级别上运行。他说:“为了绝对放弃BLEU,[我们]需要一些文件评估。”

没有人能确定何时可以替换BLEU或替换为什么-或完全不能用另一种指标替换BLEU。

“ BLEU变得毫无用处的观点实际上并不那么可怕。之所以这样,是因为质量提高了。” Junczys-Dowmunt说。“这可能只是我们的系统变得非常好,我们不需要自动测量它们。”