低资源神经机器翻译MetaNMT :来自MAML与NLP的温柔救赎

荒原上的迷宫,和奔跑在路上的解密者。

图片来源@视觉中国

图片来源@视觉中国

文 | 脑极体

过去十年,随着Attention模型、LSTM、记忆Memory等等方法的出现,尤其是在神经网络的加持下,机器翻译的水平取得了长足的进步。

在英法、中英这样的大语种(Rich Language)翻译任务上,机器的表现几乎可以媲美人类的水平,甚至已经开始登堂入室,承接了不少国际大会的翻译业务,让人类翻译感受到了深深的失业焦虑。

然而,神经机器翻译(NMT)的成功往往依赖于大量高质量的双语语料作为训练数据。如果是蒙古语、印度语这些小语种,无法提供足够多的双语数据,更极端的现实情况是,有些语言几乎没有任何双语预料,这种情况下NMT就无能为力了。

标注数据资源的贫乏问题,一直没有什么好的解决办法。因此,来自香港大学、纽约大学的研究人员Jiatao Gu、Yong Wang等人所提出的新神经机器翻译方法MetaNMT,论文一经发表,就凭借在低资源神经机器翻译(NMT)上的优异性能表现惊艳了学界,成为2018年最具影响力的NLP创新之一。

论文不仅被NLP领域领先的会议EMNLP收录,还拿下了Facebook的低资源神经机器翻译奖。今天,我们就来看看MetaNMT方法究竟有何过人之处?

什么是MetaNMT算法?

简单来说,MetaNMT算法就是将元学习算法(MAML),用于低资源神经机器翻译(NMT)中,将翻译问题建构为元学习问题,从而解决低资源语言语料匮乏的难题。

研究人员先使用许多高资源语言(比如英语和法语),训练出了一个表现极佳的初始参数,然后使构建一个所有语言的词汇表。再以初始参数/模型为基础,训练低资源语言的翻译(比如英语VS希伯来语,法语VS希伯来语)。在此基础上进行进一步优化初始模型,最终得到的模型就可以很好地提升小语种翻译模型的性能。

具体到实验中,研究人员使用十八种欧洲语言所训练的元学习策略,被应用在以五种小语种语言(Ro,Lv,Fi,Tr和Ko)为目标的任务中。结果证明,通过16000个翻译单词(约600个并行句子),罗马尼亚语-英语WMT'16上实现高达22.04 BLEU。

数据显示,MetaNMT训练出的系统,表现要明显优于基于多语言迁移学习。这意味着只需要一小部分的训练样例,我们就能训练出效果更好的NMT系统,很多语料库非常小的语言,机器翻译时也不会再一筹莫展或者胡言乱语了。

NLP的神助攻:元学习强在何处?

MetaNMT之所以取得如此良好的效果,核心就在于引入的MAML(Model Agnostic Meta Learning),即与模型无关的元学习方法。

简单来说,元学习就是要让智能体利用以往的知识经验“学会如何学习”(Learning to learn),然后更高效地完成新任务。

传统NLP任务中常用的迁移学习(transfer leaning)或多任务学习(Multi-Task Learning),输入端训练得到的编码器(Encoder)会直接转化为对应的向量表示序列,直指目标任务。而MetaNMT则是通过高资源语言系统的训练得到一个独立于原任务的通用策略方法,再让极低资源的语言系统根据这种学习方法,并反复地模拟训练。

过去,元学习一直被用来进行小样本学习、通用机器人等训练中,MetaNMT的提出,也是MAML第一次在NLP领域成功应用。那么,未来随着元学习的加入,NLP领域会产生哪些可能的变化呢?

首先,降低NLP任务的研究门槛。

深度增强学习需要的训练数据量规模越来越大,游戏等动态任务环境所涉及的奖励机制也日趋复杂。在StyleGAN、BERT等“巨无霸”模型的争夺下,GPU/TPU计算时长变得极其昂贵,NLP俨然快要成为土豪大公司才有资格玩的游戏了。

与之相比,通过少量样本资源就能学会新概念的元学习方法,可以只使用少量的梯度迭代步来解决新的学习任务,就显得平易近人很多。

其次,提升NLP任务的学习效率。

传统的数据集更新周期长,往往需要根据新任务进行改造和再编辑。而元学习就改变了这一现状。先让系统接触大量的任务进行训练,再从中学会完成新任务的方法,可以快速(只需少量步骤)高效(只使用几个例子)地应用于广泛的NLP任务中。

尤其是在特定领域对话系统、客服系统、多轮问答系统等任务中,在用户的使用过程中就可以收集丰富的信息,让系统在动态学习中构建越来越强大的性能。

除此之外,元学习还能帮助NLP实现个性化、智能化进阶。

特定用户可以根据已有的知识经验和认知结构与元学习系统之间建立联系,通过不同个体的动态交互与信息反馈等,元学习系统可以不断丰富和修正自身的知识网络和输出效果,最终使得构建个性化产品变得更加方便快捷,高智能交互也因此成为可能。

总而言之,Few-Shot(低资源)、Fast Adaptation(高适应性)、Reusability(重用性)等特点,使得元学习的价值前所未有地清晰起来,某种程度上也代表了NLP接下来的研究方向。

道阻且长:NLP的进化之路

既然元学习之于NLP领域意义重大,为什么直到现在才出现了一个成功案例呢?这恐怕还要从低资源型语言的研究现状说起。

前面提到,验证元学习系统性能最好的方式,就是将其放到低资源任务中,看看是否和大规模任务一样出色。但这么做有个前提,就是能够建立起对应的数据集。然而这对稀缺资源的小语种来说,也不是件容易的事。

以MetaNMT为例,就为各个语言建立了词汇表。其中的低资源型目标任务,土耳其语、拉脱维亚语、罗马尼亚语、芬兰语等等,就是通过16000个翻译单词(约600个并行句子)完成的,这已经是目前神经机器翻译的极限了。

然而全世界6000多种语言中,80%人口讲的都是主要的83种语言,剩下的有30%都处在语料资源极度匮乏的状态,而且绝大多数没有任何文字记载,有的甚至使用者不足十人。缺乏相关的数据集,往往只有少量文本可供使用,成为阻碍小语种机器翻译最大的拦路虎。即使有元学习这样的神兵利器,也没有用武之地。

而近年来,情况正在发生一些积极的变化。

一方面越来越多的人开始重视濒危语言保护问题,出现了公益化的语料收集项目和相关数据库,大大降低了小语种的研究难度。比如南非数字语言资源中心(SADiLaR),已经能够提供许多南非的语言资源;

另外,NLP研究的发展,也激发了更多的人创建并开放出极低资源语料数据集,为跨语言模型开发、低资源语言训练等提供了可能性。

比如FAIR 和纽约大学的研究者合作开发的一个自然语言推断语料库 XNLI,将 MultiNLI 的测试集和开发集扩展到 15 种语言,里面就包含了斯瓦西里语和乌尔都语等低资源语言。

目前看来,MetaNMT之所以备受褒奖,并不是因为它一出手就取得了什么炸裂至极的效果。它的价值,更多的是作为一种灵感和理念,去传达技术的本质,引领更具价值的理想化的创造。

NLP的进步,不应来自于堆砌资源和规模,不应只停留在本就饱和的领域,而是构建出真正无障碍的语言系统。让说着匮乏型语言的人们,也能够阅读非母语的新闻,或者在遇到问题时求助于可靠的专家系统。

如果技术不去往那些真正的荒芜之地,又有什么意义? 

脑极体

1201篇资讯

粉丝

本文系作者 脑极体 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

快报

更多

13:38

航运板块震荡走高,招商南油涨停

13:37

原国泰君安电子首席王聪加盟浦银安盛,担任研究副总监

13:34

焦煤期货主力合约大跌4%,焦炭期货跌超3%

13:29

今年前2个月中关村企业实现技术收入3477亿元,同比增长38.8%

13:28

金山办公:WPS AI目前已有定价方案,近一两周逐渐开始做灰度测试

13:26

刘振民:若西方国家对中国新能源产品进行脱钩,则全球可再生能源成本增加20%

13:18

工信部:1-2月规模以上电子信息制造业增加值同比增长14.6%

13:15

OpenAI向派拉蒙、环球和华纳兄弟探索等展示其视频生成技术Sora

13:14

固态电池概念走强,三祥新材4天3板

13:13

5.5G、通信板块午后异动,盛路通信涨停

13:03

机构:2023年中国光电显示产业投资金额约3068亿元,同比下降15.6%

13:01

民生银行李彬:预期2024年全行业净息差将延续下降趋势,公司净息差将持续承压

13:00

中国石油总裁黄永章:确保发展传统油气能源同时积极打造“第二曲线”

12:58

韩国半导体产量创14年来最大增幅

12:57

美股第一季度以强势收官,市值暴增4万亿美元

12:56

推进零碳电力转型,周小川强调需设定清晰的激励政策

12:37

全国首个城中村改造立法,《广州市城中村改造条例》批准通过

12:33

张坤隐形重仓股罕见大变化:建仓新秀丽、普拉达等消费品

12:32

小米汽车专利可自动调整卫星天线

12:30

临港管委会与国开行上海分行等投融资机构成立宽禁带半导体产业链产投同“芯”联盟

31
26

扫描下载App