邓滨:信号处理+深度学习才能实现语音交互( 四 )


综上所述 , 深度学习可以解决平稳噪声问题与部分非平稳噪声和混响问题 , 但是丰富其语料模型从而达到良好训练效果的工作量很大;而通过深度学习并不能妥善解决并不具备恒定特性的远场、回声与声源定位问题 , 我们无法从这三者中提取有价值的模型特征的 。语音识别问题归根结底是信噪比问题 , 我们可以把所有的干扰都视为影响原始语音信号信噪比的噪声 , 当信噪比不佳时系统无法从声音中提取有效信号的声音模型 , 语音识别就无法成功 。
4、语音前处理的变革演进
讲完了语音信号处理的前世 , 接下来我们谈一谈语音信号处理的今生 。想必大家听完之前的分享 , 心中可能会产生一个疑问:我们知道语音信号处理是一个有着近百年历史的传统技术 , 那么传统的语音信号处理技术能否直接完美地运用于人机语音交互呢?
我们熟知的语音信号处理主要被应用于通信系统 , 而通信系统的设备处于一个较为可控的应用场景中 , 例如从最早的座机、固定电话到现在的移动电话 , 而移动电话也是从模拟信号发展到到数字电话时代 , 整体主要服务于包括军用步话机在内的通信场景 。我们以手机为例 , 手机有四种通讯模式:手持、免提、插线耳机以及蓝牙耳机 。对于语音信号处理来说 , 经过业界几十年的探索 , 这几种模式的发展都比较成熟 , 大家已经摸索出了应对这几种通讯模式较为典型的语音算法 , 例如免提模式下如何降噪 , 手持模式下可用手机多个麦克风进行降噪等 。
业界应对这些传统方式都有比较成熟的方案 , 但是面对现在以智能音箱为例的新型人工智能硬件设备来说 , 其与手机的结构和应用场景完全不同 , 手机主要用于近场通讯 , 但智能音箱主要运用在中远距离通讯 , 且智能音箱上喇叭的功率与其播放的声音强度比手机高很多;使用距离较远就存在我之前提到的远场声音问题 , 与此同时麦克风所能识别到用户的指令音量也会更小而回声却会更恶劣;由于智能音箱摆放位置的多样性 , 其需要面临的混响环境也会更加复杂;即使智能音箱具备多个麦克风 , 但由于其是作为一个远场设备 , 我们无法使用副麦进行降噪处理 。有信号处理经验的同学可能对此会比较了解 , 副麦降噪依赖于手持模式下主麦在用户嘴边而副麦在手机背面 , 只有当主麦副麦之间拾音差异在6dB以上才能实现副麦降噪 , 那么对于远场设备来说副麦降噪并无理论基础 。
除了以上新型智能音箱人机对话与传统通讯工具手机电话之间的明显差异 , 人脑对语言的理解与机器之间也存在不小差异 。传统的通信是人与人之间的交流 , 而语音识别则是人与机器之间的交流 , 二者本质上存在很大差别 。任何的信号处理过程都会破坏语音信号声学特性 , 也许人能够成功识别这种破坏后的信息但机器却无法处理 。因而我们需要在传统通信的语音信号处理基础上进行改进和创新 , 特别优化匹配语音识别的特性要求 , 从而让人工智能硬件既能听清楚也能讲明白 , 这也是所有人工智能硬件厂家核心科技之所在 。
总结来说 , 就是从前端的信号处理与后端的识别两个层面进行系统性的综合优化 , 才能实现我们期待的与人工智能自然交流的美好愿景 。