语音识别——MFCC理解( 三 )


而Mel频率分析就是基于人类听觉感知实验的 。实验观测发现人耳就像一个滤波器组一样,它只关注某些特定的频率分量(人的听觉对频率是有选择性的) 。也就说,它只让某些频率的信号通过,而压根就直接无视它不想感知的某些频率信号 。但是这些滤波器在频率坐标轴上却不是统一分布的,在低频区域有很多的滤波器,他们分布比较密集,但在高频区域,滤波器的数目就变得比较少,分布很稀疏 。

语音识别——MFCC理解

文章插图

语音识别——MFCC理解

文章插图
人的听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度是不同的 。在语音特征的提取上,人类听觉系统做得非常好,它不仅能提取出语义信息, 而且能提取出说话人的个人特征,这些都是现有的语音识别系统所望尘莫及的 。如果在语音识别系统中能模拟人类听觉感知处理特点,就有可能提高语音的识别率 。
梅尔频率倒谱系数(Mel, MFCC)考虑到了人类的听觉特征,先将线性频谱映射到基于听觉感知的Mel非线性频谱中,然后转换到倒谱上 。
将普通频率转化到Mel频率的公式是:
由下图可以看到,它可以将不统一的频率转化为统一的频率,也就是统一的滤波器组 。
语音识别——MFCC理解

文章插图
在Mel频域内,人对音调的感知度为线性关系 。举例来说,如果两段语音的Mel频率相差两倍,则人耳听起来两者的音调也相差两倍 。
四、Mel频率倒谱系数(Mel-)
我们将频谱通过一组Mel滤波器就得到Mel频谱 。公式表述就是:log X[k] = log (Mel-) 。这时候我们在log X[k]上进行倒谱分析:
1)取对数:log X[k] = log H[k] + log E[k] 。
2)进行逆变换:x[k] = h[k] + e[k] 。
在Mel频谱上面获得的倒谱系数h[k]就称为Mel频率倒谱系数,简称MFCC 。
语音识别——MFCC理解

文章插图
现在咱们来总结下提取MFCC特征的过程:(具体的数学过程网上太多了,这里就不想贴了)
语音识别——MFCC理解

文章插图
这时候,语音就可以通过一系列的倒谱向量来描述了,每个向量就是每帧的MFCC特征向量 。
语音识别——MFCC理解

文章插图
这样就可以通过这些倒谱向量对语音分类器进行训练和识别了 。
参考博客:
【语音识别——MFCC理解】参考PPT : 卡内基梅隆大学的某语音识别的课程ppt: