喜马拉雅 PC端文章详情页顶部23-26

Siri将改变什么?

Siri绝不仅仅是一种精确的语音输入方式,它将是一次人机互动新革命的序章。

在10月2日的苹果产品发布会上,iPhone 4S的技术升级幅度可谓令业界失望。然而,被苹果定义为“私人语音助理”来做压轴功能发布的Siri应用,仍然是抓足了人们的眼球。在很多“果粉”眼中,它被认为是替换掉iPhone 4的唯一理由。

在发布会上,苹果宣称Siri可以支持自然语言输入与识别,用户可“命令”手机读短信、询问天气、设置闹钟等,并且可以搜寻餐厅、电影院等生活信息,甚至是直接订位、订票;另外其与LBS结合服务的能力也相当强悍,能够依据用户默认的居家地址或是所在位置来判断、过滤搜寻的结果。

Siri目前仍然是beta测试版,并且只支持英语、法语和德语。虽然互联网上一系列折磨Siri的视频端子曾出不穷,但被苹果这样的企业推出进行商用,已经意味着“语音识别”——这一已经不算新鲜的科技,进一步实现了人工智能化进而向“语义识别”又迈出了一大步,同时意味着第一款基于它的改变大众生活的消费级产品已经诞生。

语义识别是人机交互的再一次里程碑,虽然数十年间它的研究进展仅限于对自然语义识别的精确度的提升,但它一直被视为是人类实现非接触式控制机器的第一步。

巧合的是,进入信息时代以来,键盘(命令行)到鼠标(快捷键),鼠标到多点触控——这两次人机交互的里程碑式的革命都是由苹果公司所引爆。如果此次Siri真的能够如苹果所说,在精确识别自然语义的基础上,其智能化程度能够达到替用户精确分析、选择而真正成为助手的地步,那么苹果公司将再次激发人机交互的伟大革命。

语义识别的历史

使机器识别语言是人类早已有之的科技幻想,并且早有实践足迹。早在1920年,美国一家公司所出品的名为“Radio Rex”玩具狗便可以“听从”主人的话而执行走或者停的任务。

不过在这之后相当长的时间里。这项科技的进展仅限于如何更多、更精确地识别各种口音,进而执行诸如文字显示等十分简单的任务。

1952年,贝尔实验室的Davis等人成功研究出了世界上第一个能识别10个英文数字发音的实验系统。大规模的语音识别研究是在进入了上个世纪70年代以后,在孤立词和小词汇量句子的识别方面取得了实质性的进展。

进入80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别。此时语音识别的研究思路也发生了重大变化,即由传统的基于标准模板匹配的技术思路开始转向基于统计模型 (HMM)的技术思路。此外,再次提出了将神经网络技术引入语音识别问题的技术思路,亦即开始了跨学科的人工智能研究道路。

进入90年代以后,语音识别的研究并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展,诸如听写机等基于语音的信息输入设备此时大量出现。

由仅限于定义为输入法功能的语音识别,向包含后台数据分析的语义识别转型的关键推动力量,是美国的DARPA(Defense Advanced Research Projects Agency)计划。

显然,语义识别技术蕴含着着人机互动的远大前景,也因此拥有各方足够高的评价和期许。但它几十年来却缺乏足够的表现。而正是苹果公司往日给社会带来巨大变革的一系列消费级产品,使得当语义识别技术和苹果公司联系到一块的时候,人们不得不重新给予其重大期盼。

实际上,苹果公司对类似工作的开展也不可谓不早。早在1987年,苹果就展开了类似的研究工作。如果你曾经读过李开复的自传《世界因你不同》,就可能会对在《今日美国》节目中,苹果出品的实验性语音识别设备Casper“调戏”女主持的情节记忆犹新。

Siri是从斯坦福大学的SRI国际人工智能中心(International Artificial Intelligence Center)剥离的一个项目,该研究中心隶属于DARPA 的CALO子项目。实际上,Siri的联合创始人兼工程副总裁Adam Cheyer正是CALO项目的首席架构师,而CTO Tom Gruber也是出身斯坦福大学的人工智能、语义网专家。同样孵化于斯坦福SRI的还有知名的语音识别开发公司Nuance。

2010年初,苹果收购Siri,收购价据称是2亿美元。

Siri的无限可能

当苹果刚刚收购Siri之时,人们评价它只是一个更好的语音识别工具。然而,事实并非如此。

多年以来,大众所能接触到的语音识别技术,每年都以缓慢的步伐进步着,不过这种进步的含义仅限于识别准确率,换句话说,它们仅是一种不断提高准确率的输入法。

实际上,在多年以前,IBM 的语音识别软件在 PC 上就有不错的识别率了,而微软名为Tellme的项目也持续了多年。腾讯最新推出的QQ2011版开始支持语音输入,而中国科大讯飞出品的“讯飞语音输入法”更是Android设备用户所追捧的热门工具应用之一。

然而,即使达到100%的准确率,仅限于输入法功用的语音识别也无人机互动的意义,它并不是革命性的。

而Siri所展示出的在准确语音识别的基础之上,进行语义的智能分析判断,并且实现系统功能和后代数据(包括个人偏好和历史记录)的调用,实现所答即所问与服务即所想——真正实现助理的功能,从识别,执行,再到互动之间的飞跃,这些才是Siri的革命性所在。

与谷歌的Voice Actions等相似应用不同,Siri使用户可以抛弃繁琐的语法结构,甚至思维模式也可以混乱,它会结合上下文结构去分析判断,它甚至能理解许多含义模糊或者引申的语义。

要做到这一点,搜狗CEO王小川认为需要五个方面的配合:一是对自然语言理解,归纳为“懂”;二是在人机交互的过程中,需要反问确认来降低误差,这个过程称为“问”;三是人机交互还需要根据上下文进行判断和推测,这可以理解为“猜”;除此之外,整个软件系统还需要具备持续的学习能力和良好的扩展能力。

虽然苹果没有公开Siri更多的技术细节,但是一些实用的例子已经体现出了Siri不仅仅是个语音识别的软件。比如在一段Siri被苹果并购前的演示视频显示,当用户说“ I like a romantic place for Italian food near my office”(我想在办公室附近找一个浪漫的意大利菜餐厅)。

Siri则回答:“I am looking for a Italian restaurants which reviews say are romantic near your wok in San Jose(从大家评论的结果来看,在你公司附近最浪漫的餐厅在圣何塞)…”

这个回答说明 Siri 听懂了 romantic 是个形容词,知道 near my office 是个地方。并且,找到了以前存储的用户的工作地点。更关键的是,他知道怎么判断一个餐馆是否 romantic!——通过Yelp.com的食客评论。

Siri的这种革命将会改变诸多既有格局,并且进一步解放科技力量。首先,从产品的科技属性上说,Siri将肩负起苹果公司引爆第三次人机互动革命的重任。我们完全有理由想象:在键盘、轨迹球相继在移动终端上消失之后,虚拟键盘也即将消失,甚至菜单功能项也一并会消失了。

其次,从产业格局上说,Siri将会成为使苹果公司继续保持优势的利器。目前,从Android 4.0和Windows Phone 7(WP7)的芒果系统来看,谷歌和微软在移动终端领域正在缩小与苹果的距离,而苹果的iPad 2和iPhone 4S却相继使“果粉”失望。这其实也是不可避免的,毕竟硬件的持续创新是有一定极限存在的。

此时,Siri被苹果所适时地祭出,有望再次提高Android和WP7设备和iOS设备进行竞争的门槛。谷歌的Voice Actions也是具有后台功能调用的类似应用,然而,当硅谷编辑们打开 Voice Actions时会说 “send a text to Mike”,而拿到 iPhone4S时他们则会用“ I Love You”在测试Siri的强大功能。在这一点上来看,被用户开心“调戏”的Siri,其实已经领先其他的产品进入智能的阶段。

Siri的威力还将从谷歌的核心业务——搜索中抢夺地盘。比如,你可以通过吩咐Siri来打开 Yelp 的 Reviews 与进行OpenTable 的预定,那还要 Google 搜索干什么?从这个意义上说,Siri 并不是社会化搜索引擎(比如Google收购的aardvark),却胜似社会化搜索引擎。

更为重要的是,Siri将为苹果带来巨量的用户数据。而这些数据是其他竞争对手所无法得到的。也正是基于此,对于苹果公司来说,Siri有望强化它的三个弱项——云计算、社交、家庭娱乐设备。

如果苹果的10万名开发人员在Android开发人员之前得到这些数据,Android和iOS竞争的结局便可想而知。可以肯定的是,Siri将不仅仅是一个应用程序,它同时也是一个自然用户界面系统,它使得服务器端可以整合来自大量开放API的数据。甚至,由于占据用户与数字设备和互联网的第一触点,一个“应用导航”甚至“Siri App Store” 也不是不可能出现——当你说:“我要看关于奥巴马的新闻”,Siri调用出的会是谁的新闻网站或者是新闻应用?这将是很有意思的事情。

在苹果发布Siri之前,Siri的联合创始人Norman Winarsky在接接受媒体采访时如此预言Siri的未来图景:

“毫无疑问,苹果的虚拟个人助理是开创性的,这是一个改变世界的事件。在技术方面,Siri至少领先竞争对手2年,因为这不是个语音识别软件,而是真正的、可商用的人工智能技术。”

本文系作者 葛鑫 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
  • 为何这种技术早就有了,唯独苹果能将其发挥得如火纯青,因为用心,所以专业,所以成就了现在的苹果

    回复 2011.11.11 · via pc
  • 伟大的创举有时候没有对与错

    回复 2011.11.10 · via pc
  • 又是一个革命性的突破啊

    回复 2011.11.11 · via pc
  • 苹果发布iPhone 4S是10月4号吧?

    回复 2011.11.11 · via pc
  • 苹果总是会将一件事做到极致。语音搜索,在中国的对手将是12580有木有,同意的顶:)

    回复 2011.11.10 · via pc
  • 苹果又要掀起一场革命了。。毋庸置疑。

    回复 2011.11.10 · via pc
  • google已经认为siri严重威胁到他们了

    回复 2011.11.10 · via pc
  • 事隔两年 现在这个还有没有

    回复 2014.03.22 · via pc
  • 没用过

    回复 2012.07.14 · via pc
  • siri将改变人们的生活方式。国内的讯飞可能是唯一能与之匹敌的应用了。

    回复 2012.04.27 · via pc
更多评论

快报

更多

20:35

美国3月商品贸易逆差918亿美元

20:35

美国第一季度实际个人消费支出季调后环比折年率初值为2.5%

20:34

美国第一季度核心PCE物价指数季调后环比折年率初值为3.7%

20:33

美国第一季度GDP季调后环比折年率初值为1.6%

20:33

美国上周首次申领失业救济人数为20.7万人

20:29

费尼亚德尔福展示汽车可替换燃料技术,包括氢气、乙醇等解决方案

20:23

良品铺子:一季度净利润6248.28万元,同比下降57.98%

20:18

钛媒体独家|上汽大通郝景贤:新能源MPV今年渗透率预计将达40-50%

20:14

天坛生物:一季度净利润3.17亿元,同比增长20.91%

20:14

惠达卫浴:第一季度归母净利润2838.42万元,同比增长5979.08%

20:13

中央网信办召开全国网络举报工作会议暨一体化机制建设推进会

20:08

港媒:中国内地仍是苹果公司主要生产基地

20:07

4月25日新闻联播速览25条

20:06

北京:规划建设支撑万亿级参数大模型训练需求的超大规模智算集群

20:05

北京:对采购自主可控GPU芯片开展智能算力服务的企业,按照投资额的一定比例给予支持

20:03

北京:大力推动人工智能大模型与自主可控芯片开展适配

20:01

北京:到2027年实现智算基础设施软硬件产品全栈自主可控

20:01

北京:到2025年 智算供给规模达到45EFLOPS

20:00

《北京市算力基础设施建设实施方案(2024—2027年)》正式印发

19:54

默克:一季度净利润47.62亿美元,同比增69%

13

扫描下载App