2024CTIS-文章详情页顶部

智能语音助手背后,哈曼瞄准了麦克风阵列的生意

凡是涉及到语音交互的环节,都离不开对声音的采集和提取,具体到智能音箱中,这是一种被称为“麦克风阵列”的技术。

智能语音助手不是什么新鲜的事物,但它的载体智能音箱成为智能家居的爆品不过是近两年的事情,这得益于两个方面,首先是人工智能的发展诞生了实际的应用场景,其次则是声学识别、语音识别等技术的逐渐成熟。

无论是音箱还是其他消费电子产品,凡是涉及到语音交互的环节,都离不开对声音的采集和提取,具体到智能音箱中,这是一种被称为“麦克风阵列”的技术,同时几乎也是Amazon Echo 和 Google Home 此类产品唯一涉及到硬件层面的创新。 

刚刚过去的CES ASIA期间,哈曼发布了全新的远程语音识别解决方案 SONIQUE™,它将提供有别于传统手动输入的语音输入技术,瞄准的正是消费类语音电子产品对于麦克风阵列的需求。 

从近场识别到远场识别 

几年前,语音交互最典型的代表就是以苹果Siri为代表的智能手机,在这个相对简单且识别距离较近的场景,麦克风系统可以在低噪声、无混响、距离声源很近的情况下获得符合语音识别需求的声音信号。 

但是一旦麦克风距离较远,收音环境就会受到大量噪声、混音甚至反射带来的干扰,导致对声音信号采集和提取的准确率大幅下降,从而影响语音识别的准确率。

“iPhone配备了号称目前世上最好的麦克风,但是如果开扬声器从2米外去打电话,基本上除了噪声什么也听不见”,哈曼嵌入式音响事业部负责人刘苍松认为,“当用户逐渐从手机开始切换到类似Echo等的时候,实际上麦克风的工作环境也变了。”

消费级麦克风阵列的兴起伴随着智能语音助手的大范围应用,最主要的变化其实是用户场景的迁移,这也推动了麦克风阵列领域从近场识别到远场识别的技术大跃进,一旦远场语音交互成为主流,那将和触屏的方式产生真正的差异化。

哈曼嵌入式音响事业部副总裁兼总经理---刘苍松先生

哈曼嵌入式音响事业部负责人刘苍松向钛媒体编辑介绍,“语音识别从近场识别到远场识别跨越的难度非常大,比如从识别声音的距离来看,从2米到3米距离提升50%,但是成本可能增加了两倍,越往上越成几何级增长,是不成比例的,就像发烧音箱一样,10万的音响可能只比1万的音响音质提升了一点点。”

哈曼的多种解决方案

麦克风阵列有很好的抑制噪声和语音增强的能力,又不需要麦克风时刻指向声源方向,所以它被越来越广泛地用到智能音箱乃至其他需要语音交互的场景下。

不过从技术角度看,麦克风数量不同导致它所具备的特征有所差异,也就诞生了多种应用,哈曼嵌入式音响事业部负责人刘苍松表示,根据特定的用户需求,SONIQUE™ 可提供三种不同的解决方案。

第一种为双麦语音解决方案。主要面向以家用电子为主的消费类电子应用,可以灵活地应用于消费类音响,电视机顶盒以及网络路由器等设备,双麦配置可支持最远 4 米的高清远距离拾音需求。

第二种配置为四麦语音解决方案。主要面向高端家用电子产品、企业级应用以及机器人,可支持最远 6 米的高清远距离拾音需求。 

第三种为七麦语音解决方案。主要面向对性能要求高的企业级应用和机器人。通过搭配系列音效算法,七麦语音解决方案可支持最远 8 米的高清远距离拾音需求。

双麦、多麦,哪个更主流

谈及智能音箱,不得不提 Amazon Echo 和 Google Home 这两款产品,如果单纯从硬件层面来看,二者好像都没有什么可炫耀的资本,唯一不同是 Amazon Echo 采用的是6+1环形麦克风阵列,而Google Home 只采用了2个麦克风阵列。

Harman Kardon Invoke

在前不久的微软Build大会上,微软发布了与哈曼合作的智能音箱 Harman Kardon Invoke,作为对标亚马逊和谷歌的产品,Harman Kardon Invoke 同样可以实现播放音乐、管理日历和活动、设置提醒、检查流量等功能,区别在于 Harman Kardon Invoke 采用的是哈曼 SONIQUE™ 七麦的解决方案。 

双麦克和多麦克阵列的一个主要区别,是成本不同。双麦克风阵列的 Google Home 售价129美元,采用的是6+1环形麦克风阵列 Amazon Echo售价为179.99美元,两者相差了50美金。

但同时哈曼嵌入式音响事业部负责人刘苍松也解释道,“其实成本并不是单纯由麦克风的数量决定,实际单个麦克风的硬件成本很低,多麦克风阵列的难度在于体系更复杂,需要花费大量时间在材料、工艺、软件上去调教,是软硬件一体化的系统工程。”

对于目前的智能语音类产品来说,也不存在哪个更主流的问题,而是更强调应用场景。“双麦克风阵列产品应用的场景相对简单,命令也不复杂,对成本要求低,比如电灯开关、窗帘开关,而类似Echo这样的产品则是对识别的准确性要求高,但在数量上都达不到双麦克的出货量”,刘苍松表示。

做人工智能设备的耳朵和嘴巴

哈曼主要为汽车市场、大众消费市场以及专业市场设计、生产和提供各类音响与信息娱乐系统解决方案及软件服务。哈曼嵌入式音响事业部隶属于哈曼四大业务群之一的消费类音响,主要为消费类企业用户提供全方位的音响解决方案,为B2B性质的部门。

哈曼嵌入式音响事业部负责人刘苍松也表示,“哈曼在麦克风领域有超过60年的历史,几十年前唱片音乐流行的时候,世界上一级的录音室都是哈曼的设备,哈曼现在做智能语音麦克风阵列的技术,是水到渠成自然而然的技术积累而做的一个产品。”

对于在这个领域的定位,哈曼也同样十分清晰,刘苍松给钛媒体编辑举了一个十分形象的例子,“哈曼的角色就像是人工智能设备的耳朵和嘴巴,当你对智能音箱说‘我饿了’,这个声音会通过麦克风阵列进行降噪并收集,哈曼的解决方案负责收集用户的输入结果,主要是前端声音的采集和反馈时候声音的表达。”

哈曼的麦克风阵列担当了智能语音入口的性质,“至于人工智能如何思考,自然语言理解、搜索结果反馈等下一步的服务提供则是由那些互联网公司提供。”刘苍松表示道。 

但这个过程中不能忽略的是,语音识别率是在云端测试得到的结果,因此这两个系统必须匹配在一起才能得到最好的效果,为此哈曼进行了非常广泛的合作。

截至目前,SONIQUE™ 远程语音识别解决方案已经能够支持开源的主流语音引擎集成,包括亚马逊 Alexa 以及微软Cortana,并预计在近期内与更多语音引擎厂商开展合作,列表中的名单包括百度、科大讯飞、苹果 Siri,并且还在持续增加。(本文首发钛媒体,记者/李玉鹏)

转载请注明出处、作者和本文链接
声明:文章内容仅供参考、交流、学习、不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
  • 麦克风阵列现在其实已经蛮成熟了,现在就是讲技术应用到各个方面,其实下面评论的问题也很好避免,例如加声纹识别或者软件增加唤醒词功能。我们也不可否认AI在日常生活中发挥的作用越来越大了,语音交互的软件方面像科大讯飞的灵犀,siri这样的如果进一步发掘深层次的应用就更好了。

    回复 2017.06.13 · via pc

快报

更多

22:56

万丰奥威:互动易回复存在误导性陈述,公司及董事会秘书收到浙江证监局警示函

22:54

立案调查14件、多收取的燃气费将全额退款,重庆通报燃气费多计多收问题

22:46

玻璃主力合约日内涨幅扩大至2%,现报1537元/吨

22:42

中印尼高级别对话合作机制举行第四次会议

22:34

派拉蒙环球大涨超11%,索尼与阿波罗洽谈组团对其进行收购

22:32

美联储古尔斯比:将需要更长时间才能将通胀降至2%的目标

22:27

三部门:增强IPv6网络性能和服务质量,推动算力基础设施同步部署IPv6

22:24

中核钛白案处罚落地:对中核钛白实控人、中信与海通等预计罚没合计2.35亿元

22:22

万丰奥威:公司与特斯拉共同组建eVTOL公司并已组建项目团队的传闻不实

22:20

三部门:到2024年末IPv6活跃用户数达到8亿,物联网IPv6连接数达到6.5亿

22:19

上海明确住宿登记流程,严禁住酒店“强制刷脸”

22:14

韵达股份:3月快递服务业务收入同比增长8.84%

22:12

上海浦东发展银行昆明分行高级专家潘岭接受审查调查

22:07

国轩高科:2023年净利润同比增长201.28%,拟10派1元

22:03

海康威视:2024年一季度净利润19.16亿元,同比增长5.78%

22:03

深交所:终止对优巨新材首次公开发行股票并在创业板上市审核

21:50

香港监管机构将调查普华永道在审计恒大账目中的作用

21:48

人工智能概念股美股盘初多数下跌,Meta、英伟达、英特尔至少跌约1%

21:39

IMF:预计OPEC+将从7月开始逐步提高石油产量

21:35

商务部部长王文涛会见英飞凌科技公司首席执行官哈内贝克

1

扫描下载App