分离人声问题的攻破，将会为语音识别领域带来哪些可能性？-钛媒体官方网站

近日在Google Research软件工程师Inbar Mosseri和Oran Lang采用了一个全新的视听模型，为机器深度学习识别分离人声的问题提供了一个合适的解决之道。随着技术落地，当人声分离技术真正应用于市场中会对产品有哪些改变呢？

图片来源：视觉中国

试想一下，在一个嘈杂的鸡尾酒会上，同时存在着许多不同的声源：多个人同时说话的声音、餐具的碰撞声、音乐声等等。如何在酒会上分辨出特定人物的声音，这对于我们人类来说十分简单。

但对于计算机来说，要把一个音频信号分割成多个不同的语音来源，依然有许多棘手的问题需要解决。当许多人的语音交叠在一起的时候，AI时常措手不及。1953年Cherry提出“鸡尾酒会”问题至今，仍然没有人能够解决机器深度学习识别分离人声的问题。

但是，近日在Google Research软件工程师Inbar Mosseri和Oran Lang发表的论文《Looking to Listen at the CocktailParty》中，采用了一个全新的视听模型为“鸡尾酒会”问题提供了一个合适的解决之道。

音频-视觉语音分离模型，解决“鸡尾酒会效应”

为了解决“鸡尾酒会”问题，谷歌从YouTube上搜寻了10万个高质量讲座和演讲视频生成训练样本，通过约2000 个小时的视频片段分析，训练出基于多流卷积神经网络（CNN）的模型，将合成鸡尾酒会片段分割成视频中每个说话者的单独音频流。

该试验中，输入是一名或多名发声对象，同时被其他对象或嘈杂背景所干扰的视频。输出的是将输入视频的音轨分解成纯净的音轨，并对应上相应的说话者。

所谓的音频-视觉语音分离模型，就是加强选中人的语音，同时减弱同一时间其他人的音量。该方法适用于具有单一（主）音轨的常见视频，用户也可以自行选择倾听对象来生成对其的单一音轨，或者基于语境由算法进行对特定发声对象进行选择。

而在模型训练过程中，网络系统（分别）学习了视觉和音频信号的编码，然后将它们融合在一起形成一个音频-视觉表现。通过这种表现，网络系统可以学会为每位发声对象对应输出时频掩码。输出的时频掩码与噪声输入频谱图相乘，随后转换成时域波形，从而形成每一位说话者单独纯净的音频信号。

基于神经网络模型架构

此外，在多人发声的场景下，视觉信号除了有效提升语音分离的质量，还可以把分离之后的音轨和视频里的人物对应起来。此种方式为其后的语音识别领域提供了许多的可能性。

解决“鸡尾酒会效应”这一难题意味着什么？

“鸡尾酒会效应”难题的解决为语音识别领域的许多问题提供了思考路径，同时视觉-音频网络识别系统的提出，也为人声分离提供了视觉+听觉的解决方式。

随着技术落地，当人声分离技术真正应用于市场中会对产品有哪些改变呢？智能相对论分析师柯鸣认为，其在以下四个方面会有较大突破。

一、助力CC（隐藏式字幕）发展

隐藏字幕（Closed Captioning）是电视节目和电影中为有特殊情况或者需要的观众准备的字幕，其可以起到用解释性语言描述画面的作用。

Caption 这个词，有辅助听力障碍的人士用意。Caption一般还包含了效果音的提示，这些声音正常人可以分辨，而对于障碍人士则必须通过字幕。

比如美国的「流言终结者」节目，除了可以看到「TV PG」分级标签以外，也显示了 CC 标志表明节目提供隐藏式字幕，以此来服务那些需要特殊帮助的群体。

《流言终结者》

同样，谷歌人声分离技术对于促进CC发展有较大前景。多通道系统中对于特定人声的分离能够简化节目、电影制作流程，其在语音识别的预处理，以及视频字幕方面能产生良好效果。

对于视频自动字幕加载系统而言，多名发生者同时发声导致的语音重叠现象是一项已知的挑战，与此同时，将音频分离至不同的源也有助于呈现更加准确和易读的字幕。人声分离技术可以在语音原声的基础上直译出各个对话主题的声音，并将其分开，利用AI实现字幕自动化，这极大程度上保证了字幕的同步性与准确性。

二、降低AI同传“乌龙率”

在2018年博鳌论坛上，腾讯AI同传搞了一个大乌龙。除了翻译不准确的问题意外，现场还被曝光翻译系统崩溃“抽风”，出现乱码的情况，让现场相当尴尬。

事后，腾讯指出：出现此种乌龙的原因在于中英双语切换频率的问题。当声源在两种语言之间不断转换时，后台中、英文识别引擎就会同时开始工作，这会导致两种识别引擎互相“掐架”，语音识别混乱。最终翻译结果只能选择一种语言进行输出，导致引发错误。

而人声分离技术的应用，似乎为AI同传中的人声识别提供了一个有效的解决途径。对于多种语言的识别流畅化后，AI同传的质量也相应会得到一定的提高。

三、或可为智能音响提供“保险箱”

智能音箱的问世，使得普通家庭进入了语音互动的时代，其使用的简易性甚至超过了智能手机。有业者认为，智能音箱将会取代智能手机，成为家庭自动化或者智能家居生活的入口，自然语言对话将成为主流和高效率的用户界面。

与此同时，智能音响在应用过程中，也面临着诸多挑战，其主要体现在语音识别技术、声纹识别等诸种技术上。目前，智能音箱的技术难题在于语音识别技术如何在嘈杂的环境中识别语音指令——包括酒吧和体育场等人声鼎沸的场景。

为此，微软在Xbox上部署了一款名为Voice Studio的应用，专门收集人们在玩游戏或看电影时的对话信息。为了吸引用户贡献自己在玩游戏过程中的对话内容，该公司为参与其中的用户提供了各种各样的奖励，包括点卡和游戏道具。

但是，效果并不尽如人意。如何在嘈杂环境识别人声、如何分别多人声音依然是智能音箱的难题。日后，随着智能家居的普及，智能音响成为了物联网环境下与其他家居沟通的“钥匙”，而AI人声分离技术的应用，攻克技术问题的同时也为智能音响提供了一个安全性较强的“保险箱”。

四、为无人驾驶提供仿生启示

“鸡尾酒会效应”在动物界的应用为无人驾驶提供一定启示。以蝙蝠躲避障碍和捕食为例，其在飞行过程中会发射一系列超声波，超声波遇到障碍后反射回来，蝙蝠通过感知反射信号到达两耳的时间差来判断障碍物的方向，通过感知反射信号的强度来判断障碍物的距离。

蝙蝠发出的超声信号一般是在110kHz的一个扫频信号，通过感知不同频率信号的衰减程度，就可以辨别障碍物的材质，进而可以判断障碍物是否为捕食对象。

蝙蝠是如何区分自己和他人发出的超声波信号的呢？科学家通过研究发现，蝙蝠并没有改变发出的超声频率，而是通过叫声变大，持续时间变长，发射频率增多等方式来解决的。

动物界的“鸡尾酒会效应”启示无人驾驶：想提高雷达的定位精度，提高信噪比是根本。比如，蝙蝠叫声变大，相当于提高了信号的能量；而叫声持续时间变长和叫声频率增多，则是增加了信号的样本点数。在噪声不相关的情况下，经过简单的平均就可以降低噪声的影响。

这一点，将会为机器人和无人驾驶汽车带来了新的启发。

无人驾驶的激光雷达探测

此外，视觉-音频语音识别分离模型应用于无人驾驶领域能大程度提高雷达、激光等距离传感器测量出路面信息的性能，而这正是无人驾驶安全保障的基础。

随着日后无人驾驶的普及，人声分离模式或可衍生出“雷声分离”，将雷达误收风险降到最低，从而保证无人驾驶障碍识别方面的安全性。

诚然，新技术的应用需要一段时间。谷歌官方目前也表示：“正在探索使用这个技术到谷歌系列产品中去”。随着“鸡尾酒会”难题的解决，AI语音识别将会有长足进展。具体投入产品后表现怎样，还需要市场来检验。（本文首发钛媒体）

【钛媒体作者：智能相对论（微信id:aixdlun），文/柯鸣】

分离人声问题的攻破，将会为语音识别领域带来哪些可能性？

音频-视觉语音分离模型，解决“鸡尾酒会效应”

解决“鸡尾酒会效应”这一难题意味着什么？

敬原创，有钛度，得赞赏