前两周, 大火,即便对 AI 不感兴趣的我,看着一个个新闻成为头条,还是不免感到焦虑,感觉似乎不做点什么就会成为时代的弃儿。
我曾看到不少推文说擅长进行科研论文的翻译和润色,并夸它翻译得如何如何地道准确。我在过去的写作经历里使用过不少翻译软件,也相当好奇在语言翻译上究竟能有几把刷子。
相信许多常看文献或者有翻译需求的读者知道,在一众翻译软件中,DeepL在专业词汇和语法上表现相当出众,在医学科研文章的翻译上反响不错。那么新兴的能否与DeepL一战呢?本篇推文就将对两者在医学文章中的翻译质量进行横向测评。
在翻译时需有提示词()作为引导才能引导系统进行翻译。所以,提示词本身也会影响翻译输出的质量。为此,我想应当寻找一个适合提问的语法。在网上搜索一通后,我突然醒悟过来。既然是人工智能,那我能不能直接问该如何提问它呢?(似乎有点绕口)
果然,提供了一票翻译的模板…….
Round 1
医学术语翻译PK
首先我选取了几个医学术语,让和DeepL进行翻译,对译词进行对比。为了让更充分展现自己翻译水平,我在询问模板中加了“ term“一词( the term “××××××” from to ),来提示我提供的是医学术语。以下是医学术语及相应的译词。
从翻译的准确性来说,两者都表现得并不令人满意(简直卧龙凤雏),我甚至怀疑是不是我挑的术语都太难了。作为一款翻译引擎,DeepL有概率发生一词多义的混淆, 但这也能理解,毕竟DeepL还得照顾其他专业领域。的翻译表现则更为不稳定,在某些情况下能翻译出地道的中文意思,有时又可能曲解甚至识别不了术语。
Round 2
文章片段翻译PK
为了进一步评价两者的翻译水平,我又选取了一篇我们统计分享会成员的文章摘要作为翻译文本(郑老师合著),用和DeepL进行中译英对比:“ help me the of a paper from to .”
– 原文摘要片段 –
这是中文摘要:
方法:基于中国健康与养老调查2011-2018( 2011-2018)数据,共纳入12 038例样本,将认知水平划分为4个等级,对不同认知人群生存率进行Log Rank检验,采用多因素Cox回归模型调整混杂因素,探讨不同认知人群的死亡风险差异。
这是中文摘要自带的英文:
:Based on 2011-2018, a total of 12 038 were and the level was into four . test was on the rates of . The COX model was used to the mixed to in the risk of .
译文
: Based from the China and Study () 2011-2018, a total of 12,038 were , and were into four .The rates of were using the Log Rank test, and a model was used to for and in risk .
DeepL译文
: Based on data from the China and Aging 2011-2018( 2011-2018), a total of 12 038 were , level into 4 ,and Log Rank tests were to the rates of , and multi- were used to for and in risk among .
简要评述
Deepl vs
在专业词汇翻译上,较DeepL略胜一筹
①在“混杂因素”一词上,DeepL和都能将其翻译为 “ ”;
②在“划分”一词上,采用了更为正式的用词“ into”,而DeepL为“ into”;
③在“多因素COX回归”一词上,选择使用频率更高的“ Cox ”,而DeepL为“ multi- Cox ”;
④在“12 038例样本”一词中,将“样本”翻译为了““,表明它在翻译时参考了流行病学中对研究对象的描述。同理,也将“不同认知人群”翻译为“ ”而不是像DeepL直译为“ ”。
⑤ 感觉比自己翻译写的英文还要好,有没有?
在语法翻译上,DeepL与差不多,各有千秋。
①原文用3个句子描述了方法学部分,长短句结合得不错;用了两句,而DeepL是一整个长句,DeepL翻译出的内容显得略冗长,缺少结构感;
②在句型上,和DeepL都采用了被动语态,但DeepL对主语的选择更为恰当,例如:“对不同认知人群生存率进行Log Rank检验”这句话,DeepL将Log Rank test作为主语更符合SCI写作习惯,而则将“ rates”作为主语;
③对定冠词“a、an、the”的使用比较死板,没有体现科研写作的简洁性,这点DeepL会更有优势。
等等~~等等,还有很重要的优点!!!!!它可以经你提醒可能产生更多的回答,你只管问。不满意?换一个试试!
于是我问它能不能按照一般SCI的格式给写摘要? the to the style of the SCI ,Use and .
回答:
:Data from the China and Study () from 2011 to 2018 were , with 12,038 . The level of was into four . The Log-Rank test was used to rates among , and a Cox model was used to for and in risk the .
我还是不过瘾,我又问能不能按照医学第一刊物NEJM的格式给我写出摘要: the to the style of the NEJM ?
的回答:
: We data from the China and Study () from 2011 to 2018. We 12,038 and their into four . We the rates of the using the Log-Rank test and used the Cox model to for and in risk the .
真心不错!可以提供多个版本,总有一个版本可能是你想要的!第三人称不要,可以换第一人称视角来介绍。这恐怕是一般的软件和人工译稿没法直接达成吧!
总体来看,的中译英能力已经相当优秀,尤其是它能通过自主学习理解一些专业领域地道的表达,我觉得其水平略高于DeepL,但也还不能完全超越DeepL这种强力的商业翻译产品,还算可以依赖吧。
有意思的是,腾讯的AI Lab也对进行过专门的翻译性能评价,其结论是在机器翻译领域,似乎在生物医学摘要的表现不如商业翻译产品,在口语方面也许会是一个很好的翻译工具。
我觉得,已经够用了。现在面临考验的不是,是我们能否足够聪明让按照我们意图回答问题。
最后给大家分享一个人类与的搞笑对话:
(图片截自B站up主ZhanI的视频)
参考资料:
[1]? A Study. Jiao, Wang, Jen-tse Huang et.al. Arxiv. 2301.08745