邓滨:信号处理+深度学习才能实现语音交互( 五 )


Q&A
Q:前端使用哪些去噪算法?
A:通常降噪有以下几类方法:
1)滤波器降噪:一种较为典型的方案 , 主要通过如维纳滤波这样的自适应滤波对声音进行降噪 。
2)主副麦降噪:主要运用于手机等手持模式上 , 使用位于手机下方的主麦克风与手机背面的副麦克风进行降噪 。
当用户使用手持模式拨打电话时主麦靠在嘴边而副麦朝向外界 , 当外界环境充斥噪声时主麦玉副麦都会收到有效语音与噪声的混合声音 , 但对比两个麦克风 , 主麦收到用户的有效语音信号更强而副麦收到外界的噪声更强 , 使用谱减法将主麦收到的声音减去副麦的噪声 , 留下的就是有效信号;再放大有效信号即可得到清晰的语音 。而智能硬件无法使用副麦降噪 , 如果使用单麦那么我们可借助滤波与噪声估计 , 用估计出噪声的频谱与此噪声对比 , 并使用普减法从原始信号中消除噪声频谱 。在这里需要强调的是我们的降噪处理最终的接收对象是谁 。如果是给机器则不能破坏原始语音的声学特征 , 需要把降噪控制在一定的程度内 。
Q:远场单通道降噪对于收益率有何影响?
A:两年前我们的小鱼在家产品就使用了单麦克风并实现降噪与语音信号放大、回声抑制、远场增强等一系列功能 , 提升十分明显 。我们曾使用讯飞的语音识别引擎与标准接口进行对比实验 , 在没有添加任何其他处理算法的情况下使用讯飞识别引擎测试近场拾音 , 其准确率可达到100% , 一旦将距离增加到1m~3m的远场 , 识别率会大幅度降低至50%~10%;而如果加上远场单通道语音增强算法 , 可将3m时10%的准确率提升至70%左右 , 收益十分明显 。单麦算法的使用需要结合不同场景 , 如果现在绝大多数智能音箱为了比拼识别准确率都用麦克风阵列 , 在成本上则会带来很大压力 , 单麦算法在小型设备或低成本设备的应用前景十分广阔 。
Q:智能音箱的扬声器音量是否不能过大 , 否则会造成强非线性影响AEC?
A:是的 , 这涉及到硬件的选型问题 。我们知道较昂贵的扬声器其声音特性也会更出色 , 主要体现在线性优秀、底噪更低、失真更小、信噪比更高等 。但由于受到产品的限制我们往往无法选择性能如此优秀的扬声器 , 因而扬声器的播放响度控制在不失真的范围内 。如果一味地追求声音大而使播放出的声音信号被麦克风吸收使得频谱失真或造成非常强的非线性 , 那么从算法层面上来说很难解决由此带来的影响 。我认为应该尽可能调试好扬声器的声学参数或从硬件选型进行控制从而达到一个音量与音质的平衡 。