今天为大家介绍的是来自腾讯AI Lab团队的一篇讨论语言翻译能力的论文。论文对进行了机器翻译的初步评估,包括翻译提示、多语言翻译和翻译鲁棒性。作者发现在高资源语言(大量语料库的语言)上的表现与商业翻译产品相当,但在低资源语言(语料库较少的语言)方面明显落后。在GPT-4引擎的加持下,的翻译性能得到了显著提升,即使对于低资源语言,也与商业翻译产品不相上下,已经成为一款优秀的翻译器。
是基于开发的智能聊天机器人,其训练目的是根据提示遵循指示并提供详细回答。根据官方声明,能够回答问题,承认自己的错误,挑战错误的前提,并拒绝不当的请求,这是由于其对话格式所带来的优势。整合了各种自然语言处理的能力,包括问答、讲故事、逻辑推理、代码调试、机器翻译等。作者对在机器翻译任务中的表现特别感兴趣,尤其是与商业翻译产品(例如 、DeepL )之间的差距,所以就的翻译能力进行了初步的讨论,讨论主要集中在如下三个部分:
1. 提示的选取:本质上是一个大型语言模型,需要提示作为指导来触发其翻译能力。提示的风格可能会影响翻译输出的质量。
2. 多语言翻译:是一个处理各种自然语言处理任务并涵盖不同语言的模型。因此,作者讨论在不同资源差异(例如高资源 vs. 低资源)和语言家族(例如欧洲语言 vs. 亚洲语言)的情况下,在不同语言对上的表现如何。
3. 翻译鲁棒性:是基于GPT3开发的,GPT3训练了覆盖各种领域的大规模数据集。因此,作者讨论在特定领域或噪声句子上是否能够表现出良好的鲁棒性。
实验准备部分
: 将与三个商业翻译产品进行比较,分别是 、DeepL 和 。到目前为止,这三个商业系统分别支持133种、29种和16种语言的翻译。默认情况下,论文中的结果来自于2022年12月16日的版本。
Data:对于多语言翻译,作者在-101测试集上对上述翻译系统进行评估,该测试集包括1012个句子翻译成101种语言。为了测试翻译的鲁棒性,作者采用了WMT19生物医学翻译任务的测试集,以及WMT20鲁棒性任务的set2和set3。
评价指标:论文主要采用BLEU指标来评估,同时在少数讨论中辅以ChrF++和TER指标。
提示的选取
为了设计触发机器翻译能力的提示,作者向寻求建议。由于自己给出的提示方法比较相近,作者将其总结成如上表格的三条,并用其在中英翻译任务上进行测试,结果发现第三条提示要好于前两条,所以论文在之后的部分主要采用第三条提示评估。
多语言翻译
此部分评估了 在多语言翻译方面的表现,测试了四种语言之间的翻译能力,分别是德语、英语、罗马尼亚语和中文。测试结果显示,在 12 个语言方向中,相对于 , 的翻译性能略差,具体结果如上表格。
在德语-英语和英语-德语翻译方向上与翻译和DeepL翻译比较接近。然而,在罗马尼亚语-英语和英语-罗马尼亚语翻译方向上表现明显落后。作者推测,英语和罗马尼亚语之间的数据资源差距限制了罗马尼亚语的语言建模能力,这在一定程度上解释了英语-罗马尼亚语翻译方向上的表现不佳。相反,罗马尼亚语-英语翻译方向可以从英语的强大语言建模能力中受益,因此可以在某种程度上弥补数据资源的差距。
作者也考虑到语言家族的影响。在机器翻译中,不同语言家族之间的翻译通常被认为比同一语言家族之间的翻译更困难,因为它们具有不同的文化和书写系统。通过比较德语/英语与中文/英语或德语/中文的翻译,作者发现 与商业系统之间的差距变得更大。
随后作者提出了一种名为Pivot 的改进策略,用于提高远距离语言之间的翻译质量。具体来说,作者们要求首先将源语言句子翻译成高资源的桥梁语言(默认为英语),然后再翻译成目标语言。他们将提示改进为 “ the [PIV] first and then the [TGT] for these one by one:”,使得远距离语言之间的翻译效果大幅度提高。
在2023年3月15日推出的GPT-4上,作者重新评估了四个翻译方向的性能。如下表所示,GPT-4在所有四个方向上都显著提高了性能,将BLEU分数提高到了顶级商业翻译系统的水平。
翻译的鲁棒性
作者进一步评估了翻译的鲁棒性,这些测试引入了领域偏差和潜在嘈杂数据的影响。例如,WMT19 Bio测试集由摘要组成,需要处理术语方面的领域特定知识。WMT20 Rob2是社交媒体网站上的评论,可能包含各种错误,包括拼写/排版错误,漏词/加词/重复,语法错误,口语,网络俚语等。
在WMT19 Bio和WMT20 Rob2测试集上,的表现明显不如 或DeepL (如上表格所示)。其中一个原因是商业翻译系统通常需要不断改进其处理特定领域或嘈杂句子的能力,因为它们是需要更好的泛化性能来处理实际应用中的未知数据。然而,可能没有针对这些问题进行过优化。
结论
作者初步评估了在机器翻译方面的性能,包括翻译提示、多语言翻译和翻译鲁棒性。经实验后发现在高资源欧洲语言上表现与商业翻译产品相当,但在低资源或远程语言上显著落后。针对远程语言,作者提出了一种名为“pivot ”的策略,显著提高了翻译性能。在翻译鲁棒性方面,在生物医学摘要或评论等方面不如商业系统。随着GPT-4引擎的推出,的翻译性能显著提升,能与专业商业软件媲美。
参考资料
/abs/2301.08745
代码