讯飞:打开语音新世界

摘要: 一个大学里的语音实验室,如何成长为一股影响移动互联网产业的力量?

在美国热播剧《生活大爆炸》中有一集十分有趣:宅男Raj手持一部iPhone 4S,爱上了其中的语音助理Siri,虽然后者只是一种发女声的手机功能,但Raj深陷其中不能自拔。他会询问Siri附近的咖啡馆在哪儿,并想象自己去那里与它约会,甚至会让Siri给自己放首歌,深情地边听边说:“只有你最懂我。”

虽然剧情夸张,但起码这从一个侧面证明,手机语音功能的普及让普通老百姓也开始能接受这样的笑料,也证明了在移动互联网时代,语音技术正在成为一种流行的、全新的人与手机的交互方式。

在微软创始人比尔·盖茨眼中,未来影响世界的三个技术领域——语音、触摸和视觉中以语音居首;而苹果公司更是在新一代iPhone中直接将语音助理Siri作为了其最大卖点之一。

拥有语音技术的公司成为大众热点,也成为移动互联网的行业焦点,这使得一家在公众视野蛰伏了10年的中国本土公司逐渐浮出水面。

讯飞立足点

1999年春节前夕,安徽合肥,现在的科大讯飞董事长、当时的中国科技大学在读博士生刘庆峰实际上正面临两难选择。他所在的中国科技大学的语音实验室一直与一家福建企业合作,可对方因为种种问题资金遇上了困难,连实验室的基本工资都发不出。作为这个实验室的负责人,他要么“事了拂身去”,出国并继续他的博士学业——这样整个团队势必会解散;要么留下来牵头带领这帮一起干的伙伴们继续前行。

据科大讯飞副总裁江涛回忆,“庆峰其实只需要把实际情况跟大家说清楚,跟自己就半点关系没有,但他还是不动声色地以个人名义借了钱回来给大家发工资”。

“当时我还是有点过度乐观吧。”刘庆峰说,“我们下决心产业化,当时的信心和现在一样,认为未来每一部手机、轿车、家电、玩具,语音都将成为一个基本需求点,而且以我们的技术能力,有可能成为行业领导者。”

在此之前,实验室参加“863计划”的比赛刚刚以3.0的高分夺得第一名。中科大的学生当时会聚了全国精英,而在团队里还有一些外面的技术高手,刘庆峰认为解散太可惜。资方并不懂技术,较为急功近利,经常进行研发方向的调整,把团队折腾得够呛,刘庆峰决定站出来解决这一切。“本来我们的梦想是成为类似美国贝尔实验室的存在,我就当个总工程师挺好,可形势的发展让我不得不站出来当CEO。半年之后,感觉还不错。”他说。

这就是科大讯飞的成立故事,从里面不难看出这家公司的一些特征:技术驱动、对语音未来的笃定以及浓浓的校园风格。这使得它和美国硅谷一些知名技术公司拥有相似的气质。

可是语音到底什么时候能够产业化并且获得收益?没有人心里有谱。

其实早在20世纪70年代,世界各国就有很多组织开始研究语音技术,包括语音识别、文本朗读、指令判断等。到20世纪80年代,语音就开始被称为“未来5年的技术”,可过了一个又一个5年,它却似乎永远站在远方,离普罗大众的距离从未真正接近过。在国内,20世纪80年代“863计划”也扶持了很多语音实验室进行相关研究,中科大、清华、声学所、语言所等均在其列,只是研究的侧重方向各有不同。

为什么语音技术难以产业化?因为语音技术说白了就是机器对人声音的识别、判断与输出,涉及到不同国家、不同口音的人和大量声学、语言学、数字信号处理知识。作为一项基础技术,它不仅考验语音听和写的能力、搜索能力、语音合成能力,还有复杂得多的与电脑相关的数据库等后台能力。

在单机时代,光是辨别语音所需要的庞大数据库存储和计算能力就让人头疼。要想语音识别准确,就必须有海量数据库进行匹配,还要通过算法来让它实现快捷高效,这几乎是一件不可能完成的任务,硬件的门槛将无数研究者阻挡在技术商用化的门槛之外。

可是从20世纪末开始,一切似乎正在发生变化。互联网的兴起让这样一种模式成为可能:大量的存储计算放在服务器端(云端)来完成,而前端的电脑则只需要采集声音和给出反馈就可以了。只不过网络带宽的限制以及电脑麦克风当时并不普及,语音技术还没获得生根发芽的土壤。

此时的科大讯飞,在拿到第一笔投资、还未能盈利之前,就做出了一项“风险很高”的决定:以企业的方式,与中国在语音研究领域领先或有特色的院校建立联合实验室形成了“产学研”结合的雏形。

它的逻辑很简单:语音技术未来一定很值钱;各个院校拥有不同细分领域的语音技术,融合起来才能具有威力;能将中国最好的做语音研究的人才尽可能网罗到一起。这笔“技术投资”,为讯飞今后的发展提供了坚实的基础,这也是讯飞从技术核心出发的第一项重要决定。

从B到C

心气高、兵马壮的讯飞,几乎在做第一个产品时就遭遇了挫折。“当时我们做了一个面对消费级PC市场的统一输入法,你可以用语音、手写等各种方式输入中文,可产品辛苦研究出来却没有人买账。”江涛说。

对当时的讯飞来说,消费级市场实在是一个难以跨越的坎,因为它意味着要为产品建立一个全国的销售网络、服务网络,光服务成本就入不敷出。再加上2000年初,“统一输入法”这样的产品并没有市场,消费者根本没有对于语音的认知,而键盘和鼠标已经足以满足他们在PC上简单的输入需求。

这时候,刘庆峰做出了第二个重要决定:砍掉辛苦努力了很长时间的B2C业务,专注于B2B企业级服务。

在之前1999年中国国际高新技术成果交易会上,科大讯飞只有几平方米见方的展台上迎来了几位客人,他们对讯飞的产品表现出不同一般的兴趣与了解。这是华为的人,作为移动通讯设备厂商,他们看到了语音对于移动通信产业的意义。双方几乎一拍即合,华为采购语音引擎,讯飞则成为其技术供应商。

好的技术总会有价值,与消费者相比,企业客户更专业、理解力更强,这让几乎全技术班底的科大讯飞不用再去做那些不擅长的事,将精力聚焦在了语音技术本身和运营服务中。

客户接二连三地来,讯飞也终于摆脱了刚开始的茫然,进入有序发展,并接连引入了联想投资、复星资本等投资方。“联想和复兴的风格完全不一样,前者对我们工作很细致,帮助我们建立了管理体系;后者则完全信任,给了我们更强的信心。”2004年依靠B2B,讯飞实现了盈亏平衡。

已经有了一定实力的讯飞开始将目光再次瞄向最终用户,可它却用了一种由企业到用户的曲线方式。它向自己的电信运营商客户如中国电信提出了一项要求:希望从只提供技术引擎,变为自己来直接做运营与维护。这样来与用户发生接触。

与此同时,它还发现了另一个“金矿”,那就是教育市场。学习不过是“听说读写”,其中很多层面涉及语音,通过提供这一垂直场景的带读、朗诵语音评测等技术功能,讯飞已有斩获,基本上对教育市场(学习机)形成了近乎垄断的优势。

2008年,科大讯飞上市。在企业级市场上技术加实干,为它赢得了极大空间,可上市之后干什么?讯飞将目光重新投注在了其初衷上。

当时做统一输入法为什么失败?“不是模式错了,而是模式没有适合当时的背景。”刘庆峰说。而现在,背景环境似乎已经转向。

新基础服务提供商

2007年开始,移动互联网迅速发展。iPhone手机和Android系统的发布让智能手机迅速开始普及,移动带宽到3G时代得到了明显提升,而手机天然的随身性和麦克风等硬件所赋予的良好交互性,为语音类产品发展提供了天然机遇。

讯飞一方面深入语音研究,对技术最前沿能做到什么样心里有底,另一方面,与数千家合作厂商日复一日的密切接触,能让它对产业引爆点的判断更加精准。

传统语音技术,无外乎语音合成、语音搜索、语音听写三类,在准备了很长时间之后,2010年末,讯飞推出了自己的“语音云”平台,将语音能力提供输出接口,让很多移动互联网创业者能由此为自己的应用引入语音能力。而在此之外,讯飞则选择擅长的领域做一些“示范应用”,在第一代语音云上,示范应用是讯飞语音输入法和互联网电视语音搜索。

这是另一片战场,国外谷歌等互联网公司也有提供类似服务,但讯飞在技术上有着过硬的功夫。2006年到2011年,讯飞连续6年获得英文语音合成国际大赛(Blizzard Challenge)第一名,2008年获得国际说话人识别评测大赛(NIST)第一,2009年则又拿下高难度混淆方言测试指标冠军。

到2011年末,一年时间讯飞语音云用户总数超过1000万,而之后三个月,用户总数超过了3000万,合作伙伴超过3100家,每天服务请求量超过700万次。这是一个惊人的数字。

2012年3月22日,讯飞在北京国家会议中心举办新一代“语音云”发布暨语音开发者大会。联想控股董事局主席柳传志来了,创新工场董事长兼CEO李开复来了,小米公司、大众点评、知乎等互联网公司也来了,现场人数达到2300人之多,场面火爆。所有人的目的都只有两个字:语音。

新一代语音云增加了自然语言理解、个性化语音识别、口语评测等新能力特性,而其示范应用,则是一款名为“讯飞语点”的工具。

在试用过程中,讯飞语点虽然还有一些小Bug,但总体表现出了很强的辨识度和易用性。比如当你念出“把张三的手机号码发短信给李四”,语点就能自己识别出人名、指令,并完成相关操作。除此之外,它还能设置日程提醒、手机导航,还能查询天气、股票等信息,甚至可以做算术、讲笑话。这一应用将新的语音云平台能力展露无遗。

毫无疑问,经过10多年发展之后,讯飞有了两块最具价值的资产,那就是语音云和相关技术,再往上,各个实验室是“正在下金蛋的鸡”,而产业合作还在将这些金蛋换成金钱。

据《商业价值》了解,考虑到新一代语音云平台多出了很多新的特性,不仅增加了指令和个性化学习,而且还大幅提升语音识别准确率,讯飞今年年初曾面临两个选择:一个是独享自己的语音云平台,基于它推出新的创新产品,二是直接将升级版的语音云平台向整个行业开放。

在思索一段时间后,讯飞还是决定选择后者,因为作为一种基础能力,开放的语音技术力量将能支撑整个行业用更快的速度前行。

现在,讯飞的想法是自己做10%。“我们做开放平台跟讯飞的特点有关。语音应用无处不在,在每个领域都有前景,能力要和应用场景深度结合才有用,这是一条漫长的路。”刘庆峰说,“我们有最好的嘴巴和耳朵,还有基本思维,可是需要大家一起教育它。”

而相关的应用场景,最主流有三类:手机基础操控类,比如打电话、发短信、设置日程等;助理类,订酒店、问路、问天气等;还有行业伙伴在各个行业的产品中增加听说功能。这已经是一个相当大的布局,讯飞正在向着新一代移动互联网基础服务提供商的位置前行。

有人觉得,科大讯飞的几个发展点都踩得很正,并且符合语音技术产业化的成熟节奏:成立后不久就找到了华为、中兴等移动设备商作为客户,用稳定的收入站稳了第一步;后来又在合适的时间点与移动运营商合作,同时发现教育市场这片金矿,成为其中语音最有影响力的技术产品提供商;2008年上市后,开始从企业级往移动互联网消费端渗透,做讯飞语音输入法并获得一定成功,第一版语音云平台也拥有了3000多个合作者,未来机会很大。

这确实是科大讯飞比较重要的三个发展阶段,但它远远不是全部。

刘庆峰认为,讯飞走的是一条“弯曲的直线”,朝着正确的方向,但中间也有很多不为人知的失败,“我们不是刚好踩到点,只是很多踩不到点的地方大家都看不到而已”。

对他而言,讯飞目前的成果经过了几代人的努力,核心技术持续突破,到如今才真正达到了大规模实用的门槛。而讯飞一直在朝着既定目标前进,那就是让语音真正成为所有人身边能使用的产品。

本文系作者 夏勇峰 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
分享到:

第一时间获取TMT行业新鲜资讯和深度商业分析,请在微信公众账号中搜索「钛媒体」或者「taimeiti」,或用手机扫描左方二维码,即可获得钛媒体每日精华内容推送和最优搜索体验,并参与编辑活动。

夏勇峰
夏勇峰

主笔、编委

评论(16

  • 古拉格群岛 古拉格群岛 2013-10-13 23:59 via pc

    有待成长

    0
    0
    回复
  • lsd0606 lsd0606 2012-05-14 21:23 via pc

    苹果的siri己经走在前面了!加油!

    1
    0
    回复
  • 潘东 潘东 2012-04-19 13:33 via pc

    支持讯飞!

    0
    0
    回复
  • iGevin iGevin 2012-04-18 08:07 via pc

    讯飞如果和媒体公司合作,推出可以定制和播报的新闻产品,也不错。能为不方便看手机和懒的用手机阅读的用户提供便利

    3
    0
    回复
  • 郭巨侠 郭巨侠 2012-04-17 17:50 via pc

    很强大的智能手机输入法,一个可能影响未来搜索格局乃至文明进程的技术。讯飞以及新技术应用的崛起再次证明了社会的进步总会带来新的机会,而真正推动文明发展的,正是这些技术前沿的人。难得的是讯飞作为一家企业发展的还算平稳。这个评论就是用语音识别录入的。

    0
    0
    回复
  • llpdzh llpdzh 2012-04-16 21:26 via pc

    真正得技术企业

    0
    0
    回复
  • tomhay tomhay 2012-04-16 07:33 via pc

    用过,挺赞的,很智能,但是还有好多不识别,相信以后会有改善!

    1
    0
    回复
  • userwj userwj 2012-04-16 06:38 via pc

    希望成为中国人的拳头产品

    2
    0
    回复
  • iGevin iGevin 2012-04-16 00:35 via pc

    我也看好语音,很cool,也很方便

    2
    0
    回复
  • 蛋碎一地 蛋碎一地 2012-04-16 00:13 via pc

    支持迅飞,小心腾讯。

    5
    0
    回复

Oh! no

您是否确认要删除该条评论吗?

分享到微信朋友圈