语音识别是移动互联网的下个入口

摘要: 随着可穿戴设备的火热,可穿戴设备的输入也成为一个问题。智能手表和眼镜使用额外的S-pen一类的辅助工具也并不现实,在当前的条件下看,只有靠语音输入来挑大梁了,但语音输入的实现需要很复杂的技术能力。

这几天,可穿戴设备突然一下热起来了,国内厂商一口气发布了好几款智能手表,有映趣科技的inWatch,土曼科技的TWatch、盛大果壳电子的GeakWatch等,当然,最重头的还是三星在德国举行的发布会上,发布了智能手表Galexy Gear。

智能手表不是新发明的,有很多早就在市面上流行的产品,如索尼的SmatWatch等,就连做芯片的高通也发布了一款智能手表。大家早就看出,这里面是有前景的,是未来的一大趋势,只是如果巨头不出手,这个市场就很难被激活。

智能手表到底是用来做什么的?在当前技术条件下,还只能发短信,拍个照,记录笔记,充当健身辅助设备,在手机的支持下实现通话等,或许未来还可以在NFC的支持下完成近场支付等功能。智能手表的未来,一定不是满足用户的娱乐需求,而是着眼于普通人日常生活领域的诸多实际需求,这是由其自身特点所决定的。但我更关心的是,智能手表靠什么输入文字,传送信息。

智能手表屏幕较小,使用额外的S-pen一类的辅助工具也并不现实,在当前条件下看,唯有依靠语音输入了。语音输入看上去是个不大的基础应用,实现起来却需要非常复杂的技术能力,已经涉及到人工智能AI的范畴,而且这个技术已经进化了几十年,似乎还没得以大规模商用,可见其开发难度。

13年前我曾买过一张IBM的Viavoice光盘,装到电脑上后对着电脑练了一下午,希望其能快速熟悉我的个人口音,哪怕能有90%的识别率,也能为我繁重的文案工作减轻不少负担。这次试验最终还是失败了,却并不令人沮丧,至少领略了世界前沿的语音识别技术,理解到识别自然语言对于计算机而言有多么难了。在当时,Viavoice是世界最尖端的语音识别技术。

Gear中内置了三星自己的S-Voice,另外也和百度合作,将百度语音助手预装了进去。看来百度与三星的关系相当不一般,前有百度云,后有语音助手,对看重安卓更甚iOS的百度,支持力度相当大。不过,还是有理由相信,百度语音助手的技术实力已达到三星所期望的程度,预装其语音产品,可以给智能手表带来更好的用户体验。语音有可能是智能手表的唯一输入方式,在这方面无法做到准确,易用,快捷,是很难让用户买单的,会成为其发展瓶颈。

在周日的下午下载了百度语音助手,进行了一番测试。我发现,普通话方面的语音识别准确率,已经到了令人惊喜的地步。除了一些停顿和转折,机器在识别上仍有一定困难外,基础字词很少会出现错误,只要对自己的普通话有一定自信,基本都能做到99%以上的识别率。

普通话:这是一个新闻头条中的第一句话

之后我还对百度语音助手进行了上海话和英文的测试,发现效果并不理想,用上海话说了一串上海市井小吃的名字,基本无法识别,但在将上海的区县名称挨个念出来后,发现还是有一定的识别率。至于英文,则是基本无法识别。看来,这一版语音助手,仍是以普通话识别为基础的,还没有考虑到更多需求。

英文:To be ornot to be,that is a question

上海话:黄浦区、杨浦区、普陀区、静安区、长宁区、闵行区

上海话:白斩鸡、生煎馒头、素材包、酒酿圆子、红烧烤麸、阳春面、大排面

我不知道这是否代表中文普通话语音识别的最高水平了,其他一些语音识别工具,如搜狗和科大讯飞等产品,是不是也能做到差不多的识别效果。这一次的测试,与13年前的那次从感觉上完全不一样。Viavoice是一种学习型的语音识别软件,你需要适时地对识别结果进行调整,以方便机器下一次识别,积累下来的识别数据要妥善保护,要是因为一次重装系统而导致丢失的话,一切都得重来。从商用角度来看,这还做不到多好的商用体验,而如今的语音识别技术,从体验上明显已能让人看到曙光。

甚至可以认为,只有在语音识别技术取得革命性突破之后,可穿戴设备真正的爆发之日才会到来。设想你可以与智能手表和眼镜实现人机对话,戴着眼镜时不必再傻傻地说句OK

Glass才能开启摄像,只需用生活中最自然的语言即可完成指令发送,之后再由机器将任务完成情况用语音反馈给你,到那时,屏幕的作用将弱化,移动互联网的新入口将诞生。

过去一年,百度在硅谷建立了IDL实验室,进行深度学习方面的研究,在利用软硬件模拟人脑方面试图获得更多成果。而这些工作,在过去印象中总是由IBM,贝尔实验室等大机构所做的,出了能商用的成果,大家去买授权好了,像百度这样的广告公司也来搞这个,着实令人感慨万分。

不过,这些耗费甚巨却见不到短期产出的基础研究项目,使得百度在语音识别技术方面有了相当不错的进步,还没有达到商用化的地步,最起码也已可以进行积极布局,积累用户了。

未来随着手持设备的小型化,甚至穿戴化,各种智能眼镜,手表等层出不穷,谁能在语音输入方面取得领先优势,谁就能掌握了用户的一个基础需求,谁也就能在这个由鼠标键盘、触屏和语音所组成的互联网世界里,占据一个重要入口。

 

【第一时间了解互联网最新观点,请打开微信点击-朋友们--添加朋友--搜号码输入Gejia021,或用微信扫描下方二维码】

本文系作者 葛甲 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
分享到:

第一时间获取TMT行业新鲜资讯和深度商业分析,请在微信公众账号中搜索「钛媒体」或者「taimeiti」,或用手机扫描左方二维码,即可获得钛媒体每日精华内容推送和最优搜索体验,并参与编辑活动。

葛甲
葛甲

新闻网站主编,互联网分析师。 微信号Gejia021

评论(8

  • 笑玩亿 笑玩亿 回复Commology 2014-03-24 19:09 via weibo

    但是实现人机对话的最重要的一点就是语音识别,没有语音识别,机器人就永远无法智能,操作设备就永远无法解放人手,一直需要用手操作的机器设备如果有一天能听懂人话了,像一个忠实的奴仆一样为人服务,那么这天人类就真的是解放劳动力了。

    0
    0
    查看对话
    回复
  • 阿飞 阿飞 2013-09-11 14:33 via pc

    竟然称百度为广告公司,口气忑大了吧

    0
    0
    回复
  • 七米s 七米s 2013-09-11 09:36 via weibo

    火不起来的。识别率是个问题,你不觉得对着手机说话很傻吗?并且使用手机打发时间最多的场合都不适合说话。要么有人干扰,要么会干扰别人。或者隐私会泄露。

    0
    0
    回复
  • 0冰浪0 0冰浪0 2013-09-10 23:36 via weibo

    能识别方言,有进步...

    1
    0
    回复
  • 逆袭网赚 逆袭网赚 2013-09-10 20:45 via weibo

    能读取人的意识就逆天了

    0
    0
    回复
  • 网钰--诚信贸易大商圈 网钰--诚信贸易大商圈 2013-09-10 16:54 via weibo

    趋势经济 让人变得 多动脑子 少动手指

    0
    0
    回复
  • 网钰--诚信贸易大商圈 网钰--诚信贸易大商圈 2013-09-10 16:53 via weibo

    india just a country

    0
    0
    回复
  • Commology Commology 2013-09-10 15:39 via weibo

    不太同意、语音识别的核心潜力;除了车载导航这种被迫无手操作的设备,现在人正在趋向于符号化和图形化,努力回避语言文字。直观、操作、少逻辑。

    0
    0
    回复

Oh! no

您是否确认要删除该条评论吗?

分享到微信朋友圈