钛媒体PRO专业版_钛媒体官方网站

第二课：前端处理技术的研究进展

温正棋 / 人机交互技术的发展

第二课：前端处理技术的研究进展

小欣：这节课，温老师会为我们讲解前端处理技术的发展情况。

温正棋：前端处理包括回声消除、噪声抑制、混响抑制等技术。刚开始时研究前端处理的人员并不多，近年来特别是ECHO的推出把一些远场的问题融入到语音识别等系统中，所以这部分的研究在这几年兴起比较快。语音识别的研究从一些简单的数据如手机录音扩展到远场语音识别，这些促进了前端处理技术的发展。

回声消除在远场语音识别中是比较典型的功能。最典型的应用是在智能终端播放音乐的时候远场扬声器播放的音乐会回传给近端麦克风，此时就需要有效的回声消除算法来抑制远端信号的干扰，这是在智能设备如音响、智能家居当中都需要考虑的问题。

比较复杂的回声消除系统：近端通过麦克风阵列采集信号，远端是双声道扬声器输出。因此近端需要考虑如何将播出形成算法跟回声消除算法对接，远端需要考虑如何对立体声信号相关。

噪声抑制可以有多通道的也可以有单通道的，今天主要介绍单通道噪声抑制。单通道语音增强通过DNN的方法进行增强。语音信号有一个谐波结构，通过加入噪声这个谐波结构会被破坏掉。语音增强的主要目的就是抬高波峰降低波谷，这个训练对DNN来说是比较容易的。

但是也有实验研究表明，基于DNN的语音增强对浊音段效果会比较好但对轻音段效果并不是很好，语音的浊音段有显著谐波结构，因此要有目的去训练这个模型。

混响抑制就是声音在房间传输过程中经过墙壁或者其他障碍物的反射后到达麦克风，从而生成混响语音。混响的语音会受到房间大小、声源麦克风的位置、室内障碍物等因素的影响。

大多数房间内混响时间大概在200--1000毫秒范围内，如果混响时间过短声音会发干、枯燥无味、不具备清晰感；混响时间过长会使声音含混不清，因此需要合适的声音才能圆润动听。

前端处理涉及的内容比较多，除了前面提到的还包括多说话人分离、说话人移动过程中的声音采集、不同的麦克风阵列结构、各种噪声和房间模型如何更好的建模等。

小欣：下节课，温老师会为我们讲解语音识别技术的研究进展。

【版权归钛媒体所有，未经许可不得转载】

分享课程：

微信扫码

大家都在学

72问

精品小课

精品小课