第一时间get全球最新科技知识与数据
下载钛媒体客户端

扫描下载App

搜狗要利用AI深度理解语言本身,建立个人专属智能助理 | 2019 T-EDGE

摘要: 语言是人工智能技术中的明珠,更需要加深对语言本身的理解。让用户信息的获取和表达更加简单,最终指向的是智能个人助理。

搜狗副总裁&AI事业部负责人王砚峰先生

搜狗公司AI交互事业部总经理王砚峰

2019T-EDGE全球创新大会在北京大兴星光视界中心进入第二天议程,在当天下午的产业科技国际峰会上,搜狗公司AI交互事业部总经理王砚峰先生,发表了围绕搜狗AI发展之路为主题的演讲。

王砚峰表示:“语言是人工智能技术中的明珠,也是搜狗未来发展的核心。但是,只是简单的把语音转成文字是远远不够的,人工智能在语音领域的介入,需要加深对音频本身理解。”

之所以把语言AI定位为搜狗公司的核心,本质上让用户信息的获取和表达更加简单,通过人工智能技术去赋能到每一个人的日常生活,最终指向的是智能个人助理。

从人类诞生以来,有语言跟没有语言整个社会发展速度不一样。至今为止,信息的载体、传播都是要靠语言来进行支撑。只不过语言以文字为载体,通过语音再通过视频。根本上讲,语言是一切文化和文明的载体。

利用人工智能可以将信息分为表达和获取两个方面,从自然交互和知识计算来体现。自然交互通过围绕语言为核心的智能硬件来实现,而知识计算则满足垂直问答需求,在每个场景下都可以建立一个专属的智能助理。

而搜狗的使命是怎么能让用户的信息和表达变得更简单,沿着自然交互,怎么让人机之间交互变得容易。知识计算怎么让知识和信息之间的整理更容易,在两个途径上分别做各种各样的产品。

输入法、搜索、AI录音笔、搜狗同传、合成主播、辅助问答,最终指向是个人助理,搜狗希望通过语言能力赋能到每一个人,让人们在生活中不会有能力困惑,提升自己能力的边界

以下是王砚峰在2019 钛媒体 T-EDGE全球创新大会上的演讲实录,经钛媒体编辑:

大家下午好,我是搜狗公司AI交互事业部总经理王砚峰。接下来,我来为大家介绍一下搜狗AI方面的理念以及在2019年取得的成绩。

不知道大家看没看过这个产品,搜狗录音笔。它能够自动把语音转成文字,而且特别小巧,可以直接夹在衣领上。在6月18日那天,搜狗录音笔在单品下不管销量还是销售额都是行业第一,对录音笔行业中已经产生了比较大的颠覆。

其实,录音笔市场这两年受到手机冲击很大,并且逐年的在萎缩。去年出货量大概为500万台。但是搜狗在今年3月份上线录音笔以后,形成了新的增长趋势,让行业迸发活力并打开天花板。

搜狗录音笔成功之后,索尼、爱国者就开始与我们寻求合作,想要一起推动打开行业天花板,为此我们成立AI创新联盟。搜狗组织这样的联盟,是因为录音笔的市场需要AI变革这个市场,让用户得到更好的体验。

所以搜狗把大家拉在一起,把我们的服务、APP以及用户账户体系进行开放。我们甚至提了一个口号,可能人人需要一只录音笔,每个人记录信息、记录灵感的需求。

搜狗为什么做这么一只录音笔呢?跟搜狗在AI上的硬件有关系。搜狗以前做儿童手表,做AI翻译机,现在又做了录音笔,整体来讲有三个信息。

第一个信息,我们希望AI硬件核心是赋能用户,或者说赋能人怎么提升人的能力,提升人的边界,比如AI翻译机让不会讲英文,不会讲日语的朋友触摸以后讲英文、日语,我们在语言上赋能。录音笔在信息记录生产上赋能,未来搜狗会生产AI耳机包括很多便携产品,可以提升效率和能力上的边界。

第二个信息,我们的定位是足够小巧,硬件本身是外设,可以把它作为身体上的零件赋能。

第三是我们思考以语言AI作为核心。搜狗认为语言是人工智能上的明珠,从人类诞生以来,社会发展以来,有语言跟没有语言整个社会发展速度不一样。

至今为止,信息的载体、传播都是要靠语言的,只不过语言以文字为载体,通过语音再通过视频。根本上讲,语言是一切文化和文明的载体。我们希望围绕语言的AI,以全方位的方式对用户和行业赋能。

之所以把语言AI定位为搜狗公司的核心,那是因为大家熟悉以前搜狗是做输入法、搜索产品的,本质上讲输入法怎么帮助大家进行表达,我们做的事是怎么更好帮网民进行信息表达。以前公司使命的推导下,我们觉得未来信息表达和获取是自然交互和知识计算。

自然交互是机器和人之间怎么自然的方式进行信息交换,知识计算是机器以更智能方式整理知识,满足人的要求。我们在自然交互路径下,未来自然交互更多做围绕智能硬件作为大家生活的助理。

搜狗明年会出专门的问答产品,针对任何的知识问题进行搜索。自然交互、垂直问答、智能硬件,每一个场景下帮大家构建智能助理。不是现在大家熟悉的智能助理,我们助理帮大家翻译、记录甚至拨打电话订餐,这是我们整个在智能助理上的愿景。

围绕我们的语言AI,今年产生什么样的突破,构建什么样的壁垒,未来能够支撑产品的突破,或者应用,包括行业技术的推动?搜狗大概会做几件事情:语言识别、视觉、翻译、问答。

搜狗输入法,其实在今年语言识别的使用峰值突破了8亿次,整个在行业当中最大的语音识别的APP,而且我们目前为止不是做云的输入。

语音识别的问题已经解决的很好了,包括中英混输,同传也是我们做的,准确率已经非常高了。语音转成文字是不够的,我们做录音笔的时候,希望知道在听课的时候,听演讲的演讲,里面的关键信息是什么。

往往当中会有掌声,它代表了全场的High点,做记录采访的时候有对话,能不能进一步理解音频,把对话人切分出来。

搜狗不只是做语音转文字的工作,而是深入到音频本身的理解,怎么把音频理解的更深,结合从录音笔到输入法,或者更切实际从理解到输入的应用场景。

我们做录音笔的时候发现大家追求两件事,第一听的懂,录音笔很好把语音转成文字,很多用户拿录音笔是为了听的更清楚,现场比较嘈杂,距离很远的时候听不清楚。我们希望录音笔在听的清这件事上让录音笔变成顺风耳能力,比如对方说话小,有噪音,我们通过AI上让大家在听感上有优化。

整个会场噪音比较大,放出来的声音更听不清楚,加上音频噪音。我们做了一个算法叫ClairVoice,定向解决不了大的噪音问题,我们投入深度学习的方式把噪音和人的讲话实现分离。中间的状态是有噪音的,我们做了降噪以后,把噪音去掉了,清晰的部分是人发生的声音。

总结一下我们做语音识别的时候,我们解决的不只是一个输入问题,而是希望更好理解音频,理解音频里面的内容,然后做说话人的识别、区分,甚至分离。

除此之外,我们还做语音合成,这是自然交互中不可缺少的一部分,识别是机器的耳朵,合成是机器的嘴。现在语音合成跟大家半年一年前听到的语音合成迈了一步,光是语音合成不够,到目前为止解决不了需要做一个情感饱满的演讲,或者说得到上做上课的直播,语音合成搞不定。

我们今年做了一个新的技术,叫语音变声。比如一个大咖或者一个大IP,希望通过他的声音合成,合成效果没有那么好,把声音采集下来,做类似于声音皮肤,别人在背后做音频的表演,声音皮肤在音频上面,搜狗能实现带有口音和方言的迁移。

基于这样的能力,我们在前一段时间做了一个算是里程碑式的尝试,大家知道得到、喜马拉雅,付费音频没有通过机器生成出来,大家买的是收听感受,如果投入机器方式合成,对用户伤害很大。

前一段时间搜狗采集了梁宁的声音,通过另一位讲述者的音源再进行合成,把她的声音模拟出来。这样的方法,可以在未来音频的配音领域、音频付费领域产生更好的推动作用。

现在大IP的精力很少,很难生产出来好的内容,包括好的配音演员也是特别少。通过语音变声可以在配音、内容生产方面大大提高效率,尤其是解决吞吐力不足的问题。

背后的这个AI主持人是搜狗雅妮,它利用了搜狗分身技术来实现,从语音合成走向音视频合成。

当时做搜狗分身的目的,未来人机交互有各种各样虚拟的医生、机器人、客服,5G时代以视频为主要交互方式,未来人机交互方面是音视频结合,能不能做出好的视频合成,跟用户加强情感性,给用户带来体验。

如果跟我交流的医生是很权威的,对用户心理感受好很多。搜狗分身,各行各业对专家、IP、工作者,用分身解放劳动力。

去年搜狗跟央视合作,把新华社主播复制出来,今年经历了三次迭代,目前分身处在第四代技术。今年年底发布新的技术,大家看到新的技术的时候,比今天看到的雅妮更生动,每次技术演进会让分身、虚拟人变得更加真实。分身在很多场景落地了,新华社APP每天当中有很多条是分身技术生成的。

我们搜狗分身从发布出来以后,在多个行业进行了落地,从央视到新华社,跟北京互联网法院做了AI虚拟法官,与平安集团合作了AI合成互动客服。还有现代审核机器人,对方希望我们复制出真人的虚拟人,替代客服去面试,去年8月份面审机器人已经被投入市场。

分身技术上线以后,从国外各种各样的媒体,CNN、BBC、阿拉伯地区和俄罗斯地区等等,都获得了广泛关注,这是搜狗AI技术推出在国际上产生重大影响力,赢得整体关注为数不多的几个技术之一。

再说一下翻译。今天有很多外宾朋友,我们之所以做搜狗同传,希望怎么打破语言的隔阂,帮助用户进行更好的自然交互和知识获取。

我们发现汉语在全球使用中作为母语最高,文化和文化交流中间,一定有语言障碍和壁垒。当以语言AI作为使命核心看的时候,需要解决怎么打破语言壁垒的困难。

我们在翻译上有多个突破,2016年做翻译,2016年第三届乌镇互联网大会上做搜狗同传,推出的时候没有能够把这样的技术用于正式场合作为商用方式。

我们2017年推出搜狗海外搜索,什么意思呢?在中国搜狗搜索上输入中文,比如输入青蒿素,青蒿素是复杂的医学名词,从知识、学术上能够在国外网站上找到更好的内容。

我们把青蒿素先翻译成英文,国外上找到好的网站,翻译成中文加工出来,呈现给用户。能够实现文化交流的巴别塔,打破语言障碍。

2017年10月份上线搜狗AI翻译机,翻译机遇到的问题是拿到美国不灵,因为美国网络不好。我们当时第一个做到离下翻译,逼近跟在线翻译效果一样。

2018年1月份上市了英文到中文同传。中国观众更重要的是英文到中文同传,英文到中文同传更难,我们是第一个公司做到,2018年第一次使用这样的技术。

大家可以看到英文从中文的同传目前是什么效果。大家今天看到的搜狗同传不像一两年前推出的时候有翻译不顺的地方,今天的同传很大程度上已经在使用了。这个是当时苹果发布会的时候,在直播网站上搜狗同传的字幕。

我们的使命是怎么能让用户的信息和表达变得更简单,沿着自然交互,怎么让人机之间交互变得容易,知识计算怎么让知识和信息之间的整体更容易,在两个途径上分别做各种各样的产品。

输入法、搜索、AI录音笔、搜狗同传、合成主播、辅助问答,最终指向是个人助理,我们希望通过语言能力赋能到每一个,让大家在生活中不会有能力困惑,提升自己能力的边界。(本文首发钛媒体)

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App

本文系钛媒体原创,未经授权不得使用,如需获取转载授权,请点击这里
分享到:

第一时间获取TMT行业新鲜资讯和深度商业分析,请在微信公众账号中搜索「钛媒体」或者「taimeiti」,或用手机扫描左方二维码,即可获得钛媒体每日精华内容推送和最优搜索体验,并参与编辑活动。

Kiwi_S
Kiwi_S

评论(0

Oh! no

您是否确认要删除该条评论吗?

分享到微信朋友圈