免责声明1:本文仅是MFCC功能的介绍,适用于需要快速,轻松地了解它们的人。 没有讨论详细的数学和复杂性。
我自己从未在语音处理领域工作过,对“ MFCC”一词(在同行中经常使用)之以鼻,这使我缺乏足够的理解,即它是从音频信号中提取的一种特定“功能”的名称(类似于构成从图像中提取的一种特征的边缘)。
我花了许多时间从多个来源进行阅读,以掌握新手对MFCC功能的理解。 因此,我决定以一种易于理解的方式来整理我收集的信息,以帮助需要帮助的同胞。
让我们开始扩展首字母缩写词MFCC- 梅尔频率倒谱系数。
听说过倒谱这个词吗? 可能不会。 与规格相反的规格 ! 为什么呢 对于非常基本的了解,倒频谱是频谱带变化率的信息。 在常规的时间信号分析中,任何周期分量(例如回波)在相应的频谱(即傅立叶频谱)中都显示为尖锐的峰值。这是通过对时间信号进行傅立叶变换获得的。 可以在下图中看到。
在获取该傅立叶频谱的幅度的对数后,再通过余弦变换获取此对数的频谱(我知道这听起来很复杂,但是请多多包涵!),我们在存在周期性元素的地方观察到一个峰值在原始时间信号中。 由于我们对频谱本身进行了变换,因此得到的频谱既不在频域也不在时域,因此Bogert等人。 决定将其称为quefrency域 。 并将时间信号频谱的对数频谱称为倒谱 (ta-da!)。
下图是上述步骤的摘要。
倒频谱首先被引入来表征由于地震引起的地震回波。
音调是语音信号的特征之一,被测量为信号的频率。 梅尔音阶是将音调的感知频率与实际测量频率相关的音阶。 它缩放频率以更紧密地匹配人耳可以听到的声音(人更擅长识别较低频率下语音的细微变化)。 该量表是从关于人类受试者的一系列实验中得出的。 让我给您直观的解释梅尔秤的捕获情况。
人耳的听觉范围是20Hz至20kHz。 想象一下300 Hz的音乐。 这听起来像座机电话的标准拨号音。 现在想象一下400 Hz的音调(略高的拨号音)。 现在比较一下两者之间的距离,无论您的大脑可能会感知到多少。 现在想象一个900 Hz的信号(类似于麦克风的反馈声音)和一个1kHz的声音。 尽管实际差异是相同的(100Hz),但是这两种声音之间的感知距离可能看起来大于前两种。 梅尔音阶试图捕捉这种差异。 可以使用以下公式将以赫兹(f)为单位的频率转换为梅尔刻度:
人类产生的任何声音都取决于其声道的形状(包括舌头,牙齿等)。 如果可以正确确定此形状,则可以准确表示产生的任何声音。 语音信号的时间功率谱的包络表示声道和MFCC(仅是构成梅尔频率倒谱的系数) 准确地代表这个信封。 下面的框图是我们逐步到达MFCC的逐步摘要:
在这里,滤波器组是指mel滤波器(覆盖到mel标度),而倒谱系数仅是MFCC。
TL; DR — MFCC功能代表音素(不同的声音单位),因为其中明显体现了声道的形状(负责声音的产生)。
免责声明2:所有图片均来自Google图片。