MFCC虚拟指南电视电影小迷妹 TVco.cn

免责声明1：本文仅是MFCC功能的介绍，适用于需要快速，轻松地了解它们的人。没有讨论详细的数学和复杂性。

我自己从未在语音处理领域工作过，对“ MFCC”一词（在同行中经常使用）之以鼻，这使我缺乏足够的理解，即它是从音频信号中提取的一种特定“功能”的名称（类似于构成从图像中提取的一种特征的边缘）。

我花了许多时间从多个来源进行阅读，以掌握新手对MFCC功能的理解。因此，我决定以一种易于理解的方式来整理我收集的信息，以帮助需要帮助的同胞。

让我们开始扩展首字母缩写词MFCC- 梅尔频率倒谱系数。

听说过倒谱这个词吗？可能不会。与规格相反的规格！为什么呢对于非常基本的了解，倒频谱是频谱带变化率的信息。在常规的时间信号分析中，任何周期分量（例如回波）在相应的频谱（即傅立叶频谱）中都显示为尖锐的峰值。这是通过对时间信号进行傅立叶变换获得的。可以在下图中看到。

在获取该傅立叶频谱的幅度的对数后，再通过余弦变换获取此对数的频谱（我知道这听起来很复杂，但是请多多包涵！），我们在存在周期性元素的地方观察到一个峰值在原始时间信号中。由于我们对频谱本身进行了变换，因此得到的频谱既不在频域也不在时域，因此Bogert等人。决定将其称为quefrency域 。并将时间信号频谱的对数频谱称为倒谱（ta-da！）。

下图是上述步骤的摘要。

倒频谱首先被引入来表征由于地震引起的地震回波。

音调是语音信号的特征之一，被测量为信号的频率。 梅尔音阶是将音调的感知频率与实际测量频率相关的音阶。它缩放频率以更紧密地匹配人耳可以听到的声音（人更擅长识别较低频率下语音的细微变化）。该量表是从关于人类受试者的一系列实验中得出的。让我给您直观的解释梅尔秤的捕获情况。

人耳的听觉范围是20Hz至20kHz。想象一下300 Hz的音乐。这听起来像座机电话的标准拨号音。现在想象一下400 Hz的音调（略高的拨号音）。现在比较一下两者之间的距离，无论您的大脑可能会感知到多少。现在想象一个900 Hz的信号（类似于麦克风的反馈声音）和一个1kHz的声音。尽管实际差异是相同的（100Hz），但是这两种声音之间的感知距离可能看起来大于前两种。梅尔音阶试图捕捉这种差异。可以使用以下公式将以赫兹（f）为单位的频率转换为梅尔刻度：

人类产生的任何声音都取决于其声道的形状（包括舌头，牙齿等）。如果可以正确确定此形状，则可以准确表示产生的任何声音。语音信号的时间功率谱的包络表示声道和MFCC（仅是构成梅尔频率倒谱的系数）准确地代表这个信封。下面的框图是我们逐步到达MFCC的逐步摘要：

在这里，滤波器组是指mel滤波器（覆盖到mel标度），而倒谱系数仅是MFCC。

TL; DR — MFCC功能代表音素（不同的声音单位），因为其中明显体现了声道的形状（负责声音的产生）。

免责声明2：所有图片均来自Google图片。