MFCC虚拟指南
免责声明1:本文仅是MFCC功能的介绍,适用于需要快速,轻松地了解它们的人。 没有讨论详细的数学和复杂性。 我自己从未在语音处理领域工作过,对“ MFCC”一词(在同行中经常使用)之以鼻,这使我缺乏足够的理解,即它是从音频信号中提取的一种特定“功能”的名称(类似于构成从图像中提取的一种特征的边缘)。 我花了许多时间从多个来源进行阅读,以掌握新手对MFCC功能的理解。 因此,我决定以一种易于理解的方式来整理我收集的信息,以帮助需要帮助的同胞。 让我们开始扩展首字母缩写词MFCC- 梅尔频率倒谱系数。 听说过倒谱这个词吗? 可能不会。 与规格相反的规格 ! 为什么呢 对于非常基本的了解,倒频谱是频谱带变化率的信息。 在常规的时间信号分析中,任何周期分量(例如回波)在相应的频谱(即傅立叶频谱)中都显示为尖锐的峰值。这是通过对时间信号进行傅立叶变换获得的。 可以在下图中看到。 在获取该傅立叶频谱的幅度的对数后,再通过余弦变换获取此对数的频谱(我知道这听起来很复杂,但是请多多包涵!),我们在存在周期性元素的地方观察到一个峰值在原始时间信号中。 由于我们对频谱本身进行了变换,因此得到的频谱既不在频域也不在时域,因此Bogert等人。…