你能想象一个致力于打破语言障碍的项目小组里竟然没有一位语言学家吗?但是谷歌就是这么做了,这家公司打算依靠算法和大数据最终“干掉”语言学家。
Google 是一家极度看重算法、充满工程师文化的公司,但或许你还是会为此而感到惊奇——他们认为翻译是一个数学和统计学方面的问题。最近,位于 Google 总部的 Google Translate 团队正迅速扩张,他们新招了数名德国计算机科学家,但却没有招收一名语言学家。
Google Translate 部门主管 Franz Josef Och 同样也是德国计算机科学家出身,他不但并不精通语言学,甚至并不擅长语言学习。他认为,机翻的关键在对数学、统计和编程方面的擅长。
Google Translate 团队并不会去模仿人工翻译的方式,这就是他们没有去开发字典、定义语法结构和规则的原因。事实上,语法规则对目前的计算机来说仍然难以掌控。Google 更着重于以大数据和统计的方式入手,翻译系统会不断地调整翻译结果的相关性并自我学习如何处理数十亿的文字。通过这种方式,计算机最终能不断优化翻译结果。
以大数据方式做翻译的一个好处是,翻译系统会随着数据的积累而不断地改善。Google Translate 目前已经支持 71 种语言的互译,去年用户的使用次数已经达到 2 亿次。此外,索引全球网页的 Google 还能够依靠互联网上已经存在的翻译内容改善自己的翻译系统。
尽管如此,依赖算法的翻译系统仍然远远无法做到像人工翻译那么精准。句法、语调、歧义都是自动翻译软件很难处理的问题。Google Translate 的翻译结果仍然只能帮助人们对陌生语言进行大致上的理解,有时候得到的翻译结果很难让人通顺地阅读下来。
此外,Google Translate 在不同的语系之间的翻译结果质量也各不相同。例如,英语和西班牙语之间的互译翻译质量良好,英语和日语之间的互译不怎么样,英语和德语之间的互译则非常糟糕。
尽管如此,机翻有一个人工翻译难以做到的优势——它让更多的人接触到了更多的信息。试想一下如果你举着手机就可以与世界上任何语种的任何人交流,那会是多么棒的体验。
(本文根据pingwest网站《翻译这事儿,google认为算法和大数据比语言学靠谱》一文编辑,原文作者童滨。)






快报
根据《网络安全法》实名制要求,请绑定手机号后发表评论
曾经在使用单机翻泽软件的时候,看到过一篇文章,说是要用海量的翻译数据通过检索比对的方式来颠覆词库的翻译方法,用整句的完整翻译取代字词翻译的组合,现在看来可行了。
纯算法能行么!!!
更多的數據就是更好的數據
谷歌又要改变了,真的太佩服谷歌。
语言学家不会被取代
走完全不一样的道路,进行翻译产品的进化,用数学,算法,编程来打造翻译。也可以理解为一种创新。
不要问数据是什么?其实什么都可以是数据!谷歌翻译成功了,同声传译人员就要下岗了。
大数据时代,就是海量数据,通过整理收集,分析找到比较合适的方法,但不一定是最优的方法,Google大致就是这么处理翻译的,要更精准就得要更多的数据
谷人希。词频确实影响翻译
更多的數據就是更好的數據