邓滨:信号处理+深度学习才能实现语音交互( 二 )


综上所述 , 生活中的种种干扰因素一定会对人机语音交互的性能造成很大的不利影响 , 而某些干扰因素就目前技术而言 , 是无法从根本上解决的 。如果将近场、无噪声、无回声、无混响等理想环境下的语音识别作为天花板 , 那么不同厂商探索的在干扰环境下的高性能语音识别方案 , 则是致力于如何在恶劣环境下更接近这层天花板 。
2、什么是语音前处理
接下来介绍的技术是语音前处理 。这种技术从何而来?因何而生的?其意义是什么?
2.1 原理
我们所谓的人机语音交互实际上是一种仿生模拟 , 上图第一条路径表示的是人类通过生理器官进行拾音的过程 。人耳的生理构造包括耳廓、耳道、鼓膜等 , 外界的声波传播至耳朵 , 耳廓收集声波后通过耳道将其传播至鼓膜并引起鼓膜振动 , 鼓膜振动使声音信号通过听觉神经传递至大脑 , 并由大脑对接收到的声音进行辨别 。这里需要强调的是 , 人的生理器官具有多种处理能力 , 例如人的耳廓与耳道具备滤波器的功能 , 而鼓膜与听觉神经则负责将信号放大 , 从而易于在声音中提炼有效信息;接下来的高级神经与大脑则具备了声纹识别、自然语言理解等语音识别的功能 , 最终经过大脑分捡出的有效信息则指导人类根据语言理解驱动正常的行为 。
第二条路径表示的是机器进行声音拾取的过程 , 首先需要用于声音拾取的麦克风 , 在这里麦克风拾取的是模拟信号 , 系统需通过信号处理对模拟信号进行模数转换 , 从而获得声音的数字信号;与人类听觉系统类似 , 接下来通过数字信号领域的一系列放大、降噪、回声一致等处理 , 声音的清晰度与信噪比会得到显著提升 , 最终这些声学数字信号会被传输至机器的大脑 , 如深度学习或自然语言理解系统从而被转换成机器可以理解的指令 。与人类的听觉系统不同 , 这里的麦克风明显不具备人耳的耳廓、耳道等特性 , 无法对声音信号进行有效的前期处理 , 只能最大限度地实现不失真拾音 。因此我们需要在麦克风拾取原始声音的基础上进行相应的优化也就是语音“前”处理 , 才能得到有利于机器学习理解辨识并作出正确反馈的声学信号 。
2.2 意义
为什么需要语音“前”处理?上图表示一个比较典型的语音信号处理过程:首先 , 我们将麦克风拾取声音信号的过程称为“听到” , 此过程的作用是将声音信息由声波形式转换成数字信号形式;随后声音信息被传输至“语音信号处理”模块 , 此语音数字信号处理模块的功能是“听清” , 也就是对接收到的声音信号进行清晰化处理;经过清晰化处理之后的声音信号会被继续传输至文字信息识别系统 , 我们将文字信息识别系统中的处理过程称为“听懂”——从“听到”、“听清”到“听懂”的整体流程就是机器模拟人听觉生理活动的过程 。在“听懂”部分 , 系统首先会对信号中的声学特征进行提取 , 随后根据之前整个深度学习系统经过大量标准语言训练训练得到的声学模型与语音模型进行匹配与解码 , 最终得到一个较为准确的文字识别结果 。如果在“听到”阶段没有清晰拾得目标音频 , 麦克风拾取到的信号中就会包含我们上文介绍到的各种恶劣环境影响因子例如混响声音、外界噪声、回声、远场声音、衰减声音等等 , 倘若不处理这些混有噪音的声音信号而是直接将其送到文字识别系统就难以根据之前的标准语言训练得到的声学模型对目标声音进行识别与匹配 , 识别效果一定会大打折扣 。因而我们必须在其中添加一个“听清”的过程 , 在语音识别之前加入语音信号处理模块 , 通常我们会把这部分流程我们称为“语音前处理” 。