喜马拉雅 PC端文章详情页顶部23-26

当机器翻译遇上人工智能,会变得更靠谱吗?

提到机器翻译时,很多心中都会感到疑惑,早在十几年前,我们把一句英文放到金山词霸里,就能被翻译成中文。如今加入了深度学习技术的机器翻译,又能有什么不同呢?

提到机器翻译时,很多心中都会感到疑惑,早在十几年前,我们把一句英文放到金山词霸里,就能被翻译成中文。如今加入了深度学习技术的机器翻译,又能有什么不同呢?

区别当然有很多,最典型的就是机器翻译能够翻译出整篇文章,可普通的翻译技术遇到长一点句子就不行了。原因就是机器翻译并非简单的将一个个单词翻译成另一种语言,而是可以像人一样,不断向前回顾以理解结构复杂的句子,并且结合上下文,理解每一个It/He/She具体指代谁。

实现这种功能,分别依赖于两种神经网络架构,一个是RNN——循环神经网络,另一个则是CNN——卷积神经网络。最近关于RNN和CNN哪个更适用于机器翻译的争论也很多,今天就来看看这两种神经网络都是如何加持机器翻译,拯救外语渣的。

RNN:机器翻译中的Old School

首先我们要明白,对于机器来说,翻译就是一个解码后再编码的过程。如果要把英语翻译成中文,就要先把英语原文解码成“神经代码”,再编码生成中文。

而循环神经网络的关键,就在于循环二字上。系统会“记住”上一次输出的内容,以此来决定下一次输出。有了上一次和下一次的概念,神经网络就不会把输入和输出的信息看做独立的,而是相互关联的时间序列。这样就可以通过以往的序列关联猜测到下一个序列会出现的词,

用最通俗的话讲,我们听多了郭德纲的相声,就知道“于谦的父亲”这一元素,后面接的一定是“王老爷子”。

在翻译时,RNN把源语言当做输入序列,把翻译语言当做输出序列,由于每一次输出都会参考上一次输出的结果,所以机器翻译更具整体性,而不是简单的翻译单词。

目前对RNN应用的最为炉火纯青的应该就是谷歌翻译了 ,去年谷歌提出了用神经网络系统进行机器翻译,据称汉译英的错误率最高下降85%,在当时还小小的引起了一番轰动。

如果说传统神经网络在翻译时,永远是用一片空白的大脑面对每一个句子,那么RNN在翻译时则拥有持久的思想,而谷歌翻译所应用的LSTM更加强了这一点。LSTM是RNN的一类变种,被译为长短期记忆网络,是一种时间递归神经网络。RNN的缺陷在于,“于谦的父亲-王老爷子”这种间隔很短的序列预测以前很容易,但要预测“今天出门晚了,所以上班[]”这类句子,需要联系到间隔较远的上下文,这时RNN可能就表现的没那么优秀了。

而LSTM,就可以学习和理解这种长期依赖关系。LSTM通过一系列计算将句子中的各个元素的特征构建成非线性的组合,同时还设立了“遗忘机制”,将权重较低的元素遗忘掉。这就意味着LSTM可以“更新”记忆,让长期依赖因素不断的存在于距离较近的神经元中。

CNN:GPU的宠儿

就在RNN机器翻译还在不断更新时,又有人提出了将CNN——卷积神经网络应用于机器翻译之上。

从上文我们可以得出结论,RNN(LSTM)机器翻译按照序列进行工作,也就是和人一样,按照顺序一个个的进行翻译。但要记住的一点是,目前比较主流的GPU最大的有点是可以进行并行计算。这样一来RNN就没法最大化利用GPU的计算能力。

而CNN则可以同时处理多个语言片段,并且具有信息分层处理能力。将文本序列化、单词向量化,经过分层处理后再输出结果。在分层过程中,还会不断回顾源文本来确定下一个输出序列。

提出这种技术的是Facebook和最近的机器翻译新秀DeepL。在上半年时,Facebook宣布推出了基于CNN开发的语言翻译模型,据说比基于RNN开发的语言翻译模型速度快9倍,而且准确率更高。在测试上,Facebook翻译系统在英语-德语、英语-法语的测试上都比RNN更接近人工翻译。

而来自德国的DeepL更是在冰岛放了台世界排名23名的超级计算机,每秒能执行5.1peta浮点运算,只为了训练他们的神经网络。

从他们自己展示的数据看来,DeepL的成绩已经远超Facebook、微软甚至谷歌。

不过不管是CNN还是RNN都不是机器翻译的终点,比如谷歌近期提到的不基于RNN的注意力机制,以及多层神经网络、深度神经网络等等,都是解决机器翻译的方法。在速度、计算资源消耗、情感理解等等多种维度上都有不同的表现。

如果从最终的实用性来说,神经网络模型能影响到的仅仅只是一部分。更多的是语料库的大小、繁重的语料标注工作等等,同时这也注定了蒙古语、藏语这种语料较少语言仍然无法受益于机器翻译。

目前的机器翻译,基本还停留在辅助人工翻译的阶段。不论是DeepL的超级计算机,还是谷歌的抛开神经网络,都可以理解成在技术上的一种“炫技”。比使用哪种神经网络更重要的,还是应该让机器翻译更多的进入我们的生活。

本文系作者 脑极体 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持

喜马拉雅文章页评论上方

发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

快报

更多

19:53

香港金管局推出首次FiNETech促进金融科技应用

19:52

我国无人机操控员规模持续增长,近20万人拥有执照

19:51

闻泰科技:近两个季度半导体业务国内市场份额上升,PMIC产品明年量产品类有望达到100个

19:50

中国国航:向商飞公司购买100架C919飞机,基本价格合计约为108亿美元

19:47

中州证券:一季度归母净利润1.31亿元,同比增长85.53%

19:46

永辉超市:一季度归母净利润7.36亿元,同比增4.57%

19:44

中国国航:一季度净亏16.74亿元,上年同期净亏29.26亿元

19:43

韦尔股份:2023年营收210.21亿元,2024年Q1扣非归母净利润5.66亿元同比增长2476.81%

19:42

永辉超市:出售云金科技65%股权

19:38

牧原股份:2023年净亏损42.6亿元

19:37

证监会主席吴清:证监会系统要坚决整治政商“旋转门”、“逃逸式辞职”等问题

19:36

证监会主席吴清:中介机构要切实履行好“看门人”职责,不断提升执业质量

19:35

证监会主席吴清:上市公司实控人、高管要树立正确的“上市观”,增强公众公司意识和回报投资者意识

19:31

证监会就贯彻落实新“国九条” 推动新质生产力发展开展专题调研

19:29

市场监管总局:严厉查处网络销售、直播带货中侵权假冒违法行为

19:29

斯凯奇一季度销售额创新高,中国市场同比增长13.3%

19:28

海通证券:一季度归母净利润9.11亿元,同比下降62.56%

19:27

贝壳4月25日斥资约500万美元回购109.24万股

19:27

美国比特币ETF遭受历史性撤资冲击:单日外流2.18亿美元

19:25

小桔充电上线加速充功能,商户场站翻台率日均提速可达8%

扫描下载App