百度继续力推人工智能,对外输出语音技术

吴恩达表示:“人工智能现在的技术,有一些领域还在研究阶段,还需要一两年才能取得进步,而语音技术在很多方面已经很成熟。”

早在9月份的百度大会上,李彦宏就曾经表示,“语音和图像正在取代文字成为表达需求的主流方式”,百度大脑也成为了大会上的绝对主角。之后,不管是模仿张国荣唱歌,还是高调的公关无人驾驶汽车,都能看出百度将重拾曾经辉煌的赌注,押在了人工智能上,尤其是在乌镇,李彦宏还发出了“移动互联网的时代已经结束了”的言谈。

百度昨日(22日)还举行了语音开放平台三周年活动,并在大会现场开放了四项全新语音技术的接口——情感合成、远场方案、唤醒二期技术和长语音方案,而且这些技术将会免费开放给用户和开发者共享。百度首席科学家吴恩达对此表示,

“这些技术有很大的潜力,去彻底改变人机交互的效率和办法。未来语音技术在很多应用场景有很好的机会,将为人机交互带来巨大的改变。”

而这次四项全新语音技术的开放,也能看出在使用场景上,百度所作出一些探索,比如在语音技术上的情感和成,既是将机械、古板的生硬转换成具有情感的声音,意在提升用户主管体验;远场方案,使语音距离为3-5米的远场的情况下,识别率能够达到93-94%,意在声控智能设备的使用场景;至于长语音方案,比较明显的则是在速记等文字工作者的领域做试探。

吴恩达表示:“人工智能现在的技术,有一些领域还在研究阶段,还需要一两年才能取得进步,而语音技术在很多方面已经很成熟。”

从百度方面公开的资料可知,百度语音识别准确率达到了97%,而在百度语音的开发平台上,现在已经有超过14万的开发者共同。而对于人工智能的未来,吴恩达表示,

“现在人工智能已经为很多公司,包括百度带来了非常大的价值,而且我们已经看到了一条比较清楚的路,使用人工智能改变很多不同的行业。”

仅仅是语音识别技术,便有很多的使用场景,有很多的机会能够看清楚了。这些机会百度没有能力自己全部探索,所以要提供给第三方公司或者开发者使用百度的语音技术。

作为人工智能最为重要的交互技术,我们能看到越来越多的巨头都在语音识别的领域,投入了很多的资源。今年8月初,微软在北京发布的第四代小冰产品,除了在功能上进行了一定的升级,还让小冰有了更多的“社会角色”。

比如升级了情感计算框架,让小冰在与人的对话中更占主动;比如在日本“出道”,发布首支原创单曲;比如开发“卡槽”技能,让小冰在更多垂直领域中,有更专业的表现。

曾经一直克制小冰商业化的微软团队,却在今年将自家的语音技术在各种各样的领域中,进行了尝试。而微软全球执行副总裁陆奇的一番话,也许能够从一方面解释微软在语音交互上的思考,

微软在过去二十多年积累的,在人工智能、搜索引擎和大数据方面的技术储备,也都放在小冰身上。在微软的理念中,对话不仅是一个基础,对话更是一个核心平台,作为一个核心基础可以把人工智能时代引入到现实世界。

而在今年的3月,谷歌在Nest云计算大会上,也宣布开发了其语音识别的API,即谷歌语音搜索和语音输入的技术支持。Google Cloud SPeech API 这一应用包括了80多种语言,适用于各种实时语音识别与翻译应用。

还有依靠苹果手机,拥有了千万级别忠实用户的SIRI;从2011年就开始收购语音公司Yap的亚马逊,在2014年推出的Echo;以及那无数的创业公司,奋力寻找突破点,想要进行行业的颠覆。

也许正如吴恩达所讲,人工智能领域的道路越来越清晰,更使得各方企业愿意在这个领域上进行一搏。而作为技术相对比较成熟的语音识别,又是人工智能天然的入口,自然竞争也就难免这么激烈。(本文首发钛媒体,张霖/文)

以下为吴恩达在大会现场的演讲,略经钛媒体编辑:

大家好,非常高兴大家今天来参加我们的语音开放平台3周年发布会。

我是百度大脑的负责人吴恩达,百度大脑的项目中一部分非常重要的工作,就是把最领先的技术输出给大家使用。在我们的百度大脑开放平台(ai.baidu.com)上,我们不仅输出人工智能技术,也放了很多有关人工智能技术的培训资料。

百度大脑到底是什么呢?最核心的几个技术部分为:语音、图像、自然语言处理、用户画像、机器学习平台。

我发现很多人使用百度的语音技术有两大原因,第一个原因,我们有非常领先的技术为他们的用户提供更好的体验;第二个原因,我个人做了好几十年有关人工智能的项目,通常发现当你开始做一个项目的时候,有时候只是需要语音技术,做了几个月以后,你发现还需要图像技术或者自然语言处理技术等等,如果你是使用百度的技术可以比较容易的选择你真正需要的技术部分把它放进来,把它融合,为你做到最好的效果。

比如说你想做一个智能客户,你开始的时候只是觉得只需要语音识别、语音合成,但是做了几个月以后,发现你需要最领先的自然语言处理技术。如果你是使用百度的平台,希望你比较容易拿到这些技术放到你自己的产品中。

我个人对人工智能的未来充满信心,我希望未来我们会有陪伴机器人、个性化私教、音乐作曲、机器人医生等等。这些年人工智能技术发展的非常快,这给我们,也给你们很多新的机会,有这么多机会,在百度是没有办法探索这么多非常有潜力的机会,所以我们的目标就是把我们的人工智能技术输出给大家,希望可以支持你们在非常有潜力的项目上探索,而且支持你在这些项目中获得非常好的结果。

今天的主题就是语音技术。大家可能已经知道,在很多最重要的百度产品中,我们已经支持语音输入,包括手机百度、百度地图、百度输入法,如果你还没有试过百度输入法,我希望你试一试,当我输入什么信息时我喜欢用百度输入法,它支持语音输入,还有度秘,最近我们发现把度秘放进各类的硬件,比如小度机器人放到KFC,这个度秘系统可以为客户点餐,我发现把度秘和机器人融合,也可以让各种用户有新的体验。

这几年来,我们的团队是不断的优化语音识别系统,在2012年开始使用DNN模型,后来有比较好的特征,之后开使用Sequence Discriminative Training,也开始使用LSTM模型,加上CTC,今年我们的团队开发了Deep CNN模型,效果在不断进步,这就是我们的语音识别系统。 我们的语音合成模型也变得越来越好,这几年来我们在好几个技术方面有比较大的突破,我们的语音合成效果也是变得越来越好。

现在在中国语音合成的能力是远远超过其他公司的,今天下午我们的语音团队负责人也会和大家分享更多细节。 因为我们的语音技术和自然语言处理技术和我们的人机交互技术进步的这么快,2016年MIT科技评论我们的技术是2016年十大突破性技术之一,我们觉得这些技术有很大的潜力,可以改变人机交互的效率和办法。 未来语音技术在很多应用场景有很好的机会,为人机交互带来巨大的改变。

举个例子,在智能家居的场景,我们希望未来你回家以后可以使用语音跟你的电视、摇控器、音箱、窗帘讲话,比如说希望你未来可以向你的电灯说,“电灯请打开”,它就明白你的命令,或者对遥控器说话,它就能非常方便的满足你的需求。

其实智能家居只是一个应用场景,我觉得在很多应用场景中,语音技术都可以带来人机交互非常大的改变,这包括手机、音箱、电视等等。希望语音能让你做更好的智能客服中心。在汽车领域语音也是一个非常重要的人机交互的场景,我们有很多合作伙伴正在使用我们的语音技术探索这些应用场景。

最后,今天我们已经知道,尤其是在手机端,我们知道语音输入比键盘打字更快、更方便、更准确。下一位进行演讲的是我的好朋友,也是斯坦福大学James Landay教授,他也会为大家分享有关这方面的研究,就是使用百度的语音识别系统,如果你使用这个系统,在手机端输入就可以更快、更方便、更自然。 语音输入这么方便,希望未来语音输入会变得更普及。

大家想一想,如果你跟我想交流,最自然的办法就是你跟我讲一句话,或者我跟你讲一句话,所以人和人交流最自然的办法还是语音。这几年来,语音和自然语言处理和度秘这种技术进步这么快,今天很多场景,人机交互最自然的办法已经是语音。

人机交互不只是你跟电脑或者和设备讲话,你的电脑和设备也需要告诉你它的意见,所以我们的语音技术也可以让这些设备非常自然的告诉你它的意见。

最后,因为人工智能,尤其是语音技术这几年发展的很快。在百度大脑已经有好几种不同的人工智能技术,其中比较成熟的,就是我们的语音技术。所以语音技术已经给我们,也给大家,也给你们,给你的公司,给开发者很多新的机会。

所以,我希望我们输出语音技术,希望它可以为大家提供非常好的服务,也希望我们可以使用我们的技术支持你们探索这些新机会,希望你们可以使用这些技术,支持你们在这些新机会中获得非常好的成果。

谢谢大家!

本文系作者 张霖 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
  • 厉害才行

    回复 2016.11.24 · via iphone

快报

更多
158
1
150

扫描下载App