MIT科学家开发机器翻译新算法,专为破译消失的古语言

学术头条

学术头条

· 10月26日

利用计算机技术,去探索已经消失的、几乎成为谜底的灭绝古老语言。

播放 暂停

MIT科学家开发机器翻译新算法,专为破译消失的古语言

00:00 05:34

文丨学术头条

语言是文化的有机组成部分,也是文化的载体,世界文明的多样性在很大程度上表现为世界语言的多样性。而在 21 世纪的今天,语言学家们显然已经不满足于传统的、对已知语言的研究。相反,许多科学家开始利用计算机技术,去探索已经消失的、几乎成为谜底的灭绝古老语言。

近日,麻省理工学院计算机科学与人工智能实验室(Computer Science and Artificial Intelligence Laboratory 简称 CSAIL)的研究人员就开发出一种计算机算法,旨在帮助语言学家破译历史上已消失的语言。

无法“谷歌翻译”的古老语言

如今,世界上现存约有 7100 种语言。然而,古时存在的大多数语言都已不再使用,几近灭绝。数十种已灭绝语言也被认为是“未破译”的语言,也就是说,我们对它们的语法(grammar)、词汇(vocabulary)或句法(syntax)了解不足,也无法理解其文本的意思。

图 | 世界语言分布地图 2018

而研究这些“未破译”的语言,不仅仅是出于学术上的好奇心。还是因为,不理解语言,我们就会错过与讲这些语言的人有关的一整套知识体系。不幸的是,大多数灭绝语言的相关记录极少,因此,科学家无法使用谷歌翻译之类的机器翻译工具或AI算法来对其进行解密。

而传统的研究方法是,找出目标语言的“相关”语言来作比较研究,例如同一语系或相似度较高的现存语言。然而,有些语言并没有对应的、已被深入研究过的“相关”语言,并且它们通常缺少诸如空格和标点符号之类的传统分隔符(想像一下,要解密出用这种语言写出的文字该有多么令人头秃)。

但是,CSAIL 的研究人员发明的新系统,已被证明能够自动破译消失的语言,且无需对其与其他语言的关系有深入的了解。他们还表明,该系统自身就可以确定语言之间的关系,并可以用它来证实最近的一项表明 Iberian 语言实际上与 Basque 语言无关的学术研究。

语言破译:从文本到矢量的转变

此研究由 MIT 教授 Regina Barzilay 牵头,依赖于基于历史语言学(historical linguistics)见解的几项原则。其中一条原则是,一种给定的语言很少会直接添加或删除整个音节,但是很可能会发生某些近似发音的替换。比如,母语中带有“ p”发音的单词可能会在其后代演变中变为“ b”,但是由于明显的发音差异,变为“ k”的可能性则较小。

通过整合这些原则和其他语言学约束,Barzilay 等人的新算法学习将语言发音嵌入多维向量空间,在该多维空间中,相应矢量之间的距离反映了不同发音的差异。这种设计使他们能够捕获语言变化的相关特征,并将这些特征表达为计算约束(computational constraints)。

因此,它可以评估两种语言之间的相似度。实际上,当对已知语言进行测试时,它甚至可以准确地识别出该语言属于哪个语系(language families)。例如英语、德语同属于日耳曼语系。

不仅如此,算法生成的模型可以将古语言中的单词进行细分,并将其一一映射到“相关”语言中的对应单词上去。研究团队的最终目标是使该系统仅仅使用几千个单词,就能够破译数十年来语言学家们都无法理解的古语言。

机器翻译相关研究

实际上,这并非 MIT 首个使用计算机技术破译已消失语言的研究。

早在 2010 年,Barzilay 就和其他合作者一起,开发出一个新的计算机算法,该算法在几个小时内就破解了古老的犹太语言乌加里特语(Ugaritic)。

除了帮助破译“神秘的”八种左右古老语言外,这项工作还可以扩大自动翻译系统可以处理的语言数量。例如目前,谷歌翻译支持 103 种语言,而破译系统中使用的技术可以帮助其为数千种语言构建词典。

去年,Barzilay 等人也发表过一篇论文,文中使用改进的计算机算法破译了线形文字 B(Linear B,出现在公元前 1400 年左右)。他们说,“我们的翻译脚本能够以 67.3%的准确率将线性文字 B 的同源词转换成对应的希腊语。据我们所知,该试验是自动解读线性文字 B 的第一次尝试。”

在未来的工作中,该团队希望扩展到将文本与已知语言的相关单词相关联的范围之外,这种方法被称为“基于同源的破译方法”。

Barzilay 说:“例如,我们可以识别文本中涉及到的所有人或地点的信息,然后可以根据已知的历史证据对其进行进一步的调查。这些实体识别(entity recognition)方法如今已广泛用于各种文本处理应用程序中,并且具有很高的准确性 。”

参考资料:
https://news.mit.edu/2020/translating-lost-languages-using-machine-learning-1021
https://news.mit.edu/2010/ugaritic-barzilay-0630
http://people.csail.mit.edu/j_luo/assets/publications/DecipherUnsegmented.pdf
http://people.csail.mit.edu/bsnyder/papers/bsnyder_acl2010.pdf

本文系作者学术头条授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

”支持原创,赞赏一下“
钛粉88011 钛粉39442 在天空中自由翱翔的百灵鸟 在天空中自由翱翔的百灵鸟 钛粉94592 在天空中自由翱翔的百灵鸟
390人已赞赏 >
390换成打赏总人数390人赞赏钛媒体文章
关闭弹窗

挺钛度,加点码!

  • ¥ 5
  • ¥ 10
  • ¥ 20
  • ¥ 50
  • ¥ 100

支付方式

确认支付
关闭弹窗

支付

支付金额:¥6

关闭弹窗
sussess

赞赏金额:¥ 6

赞赏时间:2020.02.11 17:32

关闭弹窗 关闭弹窗

Oh! no

您是否确认要删除该条评论吗?

注册邮箱未验证

我们已向下方邮箱发送了验证邮件,请查收并按提示验证您的邮箱。

如果您没有收到邮件,请留意垃圾邮件箱。

更换邮箱

您当前使用的邮箱可能无法接收验证邮件,建议您更换邮箱

账号合并

经检测,你是“钛媒体”和“商业价值”的注册用户。现在,我们对两个产品因进行整合,需要您选择一个账号用来登录。无论您选择哪个账号,两个账号的原有信息都会合并在一起。对于给您造成的不便,我们深感歉意。