大数据支撑的超级翻译机

摘要: 未来的大数据时代会是什么样子?至少在翻译领域,我们已经看到了曙光。

10月25日,微软公司首席研发官里克·拉希德(Rick Rashid)在中国天津首次演示了微软新开发的翻译软件,这个“超级同声传译”不仅能够在26种语言之间实现口语到口语的迅速翻译,同时相比传统的翻译软件,错误率降低了30%左右,平均每8个单词才会出现一个翻译错误。

从工作原理上来说,该系统识别出说话者说出的单词,将文本迅速转换成为通顺的中文句子,然后将其交给经训练能够复制说话者声音的语音同步软件。值得一提的是,与过去多年机器翻译的死板和冰冷感不同,微软这款“超级同传”能够在语音识别的基础上实现对说话者语调背后感情色彩的分析,在翻译中这款软件能够保留讲话者的语调,这样表意就会更为明确,交流也就更为顺畅。

这款超级同传软件之所以被认为会引发一场翻译革命甚至更深远的价值,在于其是一个彻彻底底的大数据时代的产物。

例如,在翻译之前,约有1小时左右的建模过程。说话者对系统讲1小时左右的英语,以便系统辨识他的语音语调,建立专属于说话者的模型。模型建立后,系统就能以说话者的声调说出包括普通话在内的26种语言。

而在建模技术应用之前,微软做了大量数据采集与挖掘工作,以便建立庞大的语音数据库,增加系统辨识语音的速度。在翻译输出方面,能够在26种语言之间转换自如,主要得益于微软覆盖全球主要语言的“微软对话平台”的海量数据支持。

这一翻译软件的技术基础源自大约两年前,微软研究院和多伦多大学的研究人员取得了一项突破,利用模拟人脑行为的‘深度神经网络’技术,提升语音识别器的辨识能力,比起这一软件对于翻译行业的颠覆,由此带来的人工智能的雏形则更加让人兴奋。

事实上,微软并不是通过利用大数据为基础借助推模拟人脑的“深度神经网络技术”实现人工智能的唯一探索者,今年夏天,谷歌开发出一款新的软件,只需要让它看一下YouTube上的视频,软件就能学会识别猫和人,还有其他东西。

这项技术根据脑细胞的运作方式建立,其原理是基于对一组相互连接的脑细胞的模拟。这些脑细胞可以彼此沟通,互相施加影响。当把这样一个神经网络暴露在数据面前,不同神经元之间的关系会发生改变。久而久之,网络就会发育出对某个类别的输入数据作出特定反应的能力。通过这种方式,网络可以“学”到东西。

和微软的探索类似,谷歌如今正在使用这种智能化的神经网络来准确地识别语音,这不仅直接决定了谷歌翻译这一产品的体验的提升,也将对从安卓智能手机操作系统到谷歌眼镜甚至谷歌汽车产生深远影响。也许,对于海量数据背后的人工智能时代来说,如今让我们感到无比兴奋的智能终端浪潮仅仅是一个序幕罢了。

本文系作者 wangwei 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
分享到:

第一时间获取TMT行业新鲜资讯和深度商业分析,请在微信公众账号中搜索「钛媒体」或者「taimeiti」,或用手机扫描左方二维码,即可获得钛媒体每日精华内容推送和最优搜索体验,并参与编辑活动。

wangwei
wangwei

记者

评论(13

  • fangzhinet fangzhinet 2014-01-03 23:40 via pc

    现在大数据越来越有影响力了!

    0
    0
    回复
  • nokiaN73我的 nokiaN73我的 2013-03-15 01:45 via pc

    大数据时代

    0
    0
    回复
  • fxdfh159 fxdfh159 2013-03-14 20:49 via pc

    太棒了,太快了。

    0
    0
    回复
  • 太阳神人 太阳神人 回复Dveil 2013-01-17 17:01 via pc

    机器人大战人类 有点遥远啊 人类必须保证所研究的内容是可控的 但这谁又能保证呢

    0
    0
    查看对话
    回复
  • west00088 west00088 2012-12-28 14:18 via pc

    这个技术最大的应用是“同声翻译”,当正确率无限接近完美的时候,就是其大行其道的时候。

    0
    0
    回复
  • Dveil Dveil 2012-12-25 18:33 via pc

    可以学东西的软件啊…很强大,但是除了注重发展之外也要留意它的可控性,别真的爆发什么机器人危机就好了,就像2000年发生的千年虫病毒事件…

    3
    0
    回复
  • 饭米粒 饭米粒 2012-12-24 22:35 via pc

    这个技术让人充满无限的想象,未来的移动终端不需要键盘、不需要触屏,把这个 人脑模拟的智能技术封装在移动终端的屏幕上取代现在的触屏,屏幕变成了另外的一个自己。这个屏幕,它可以让我们快乐甚至忧伤!

    3
    0
    回复
  • dd_macle dd_macle 2012-12-24 21:11 via pc

    大数据的核心其实是高速互联网,每个用户都在为其添砖加瓦。 提供数据的同时,未来也可以成为一个个的运算节点。 提到运算节点,p2p下载可称为最普及的“云计算平台",曾几何时,下载速度受限于服务器的带宽,而如今,下载的速度只取决于客户自身带宽,同时下载的人越多,速度越快! 人类社会未来发展的速度不可限量,很多十几年前的科幻场景如今早已成为现实,未来无法想象!

    3
    0
    回复
  • IT产业财经 IT产业财经 2012-12-24 20:39 via pc

    人工智能技术发展的边界在哪里?我想:业务超级机器人不是幻想?!

    1
    0
    回复
  • Simonlion Simonlion 2012-12-24 09:55 via pc

    多年前的设想,在科技发展的推动下成为了现实。开扩其胸襟眼界,以增其识力。既有所得,自然意思广大,规模开扩。

    2
    0
    回复

Oh! no

您是否确认要删除该条评论吗?

分享到微信朋友圈