什么是音乐识别软件,它如何工作?

您是否曾经听过一首歌,想知道是谁唱歌的? 随着音频识别软件的出现,您可以轻松地通过按钮轻松识别歌曲,旋律,广告甚至电影。

Shazam Entertainment Limited由Chris Barton和Philip Inghelbrecht于1999年首次成立,并于2002年在手机上推出了他们的音乐识别应用Shasham。 用户必须拨入并保持30秒钟的录音才能以短信形式接收其结果。 Shazam直到2008年才成为iPhone 2.0应用商店中的智能手机应用。 多年来,Shazam看到了越来越多的用户,甚至与Spotify和Apple达成了合作伙伴关系,导致Apple在2018年9月以4亿美元的价格收购了它们。

—识别计算机歌曲的挑战是什么?

人们不是通过将听到的每个声音与记忆的声音进行比较来识别声音,而是我们连续地识别触发我们记忆的特定和弦。 计算机只能按字面意义比较数据,而无法轻易地隐式识别模式。 作为工程师,我们需要定义和量化这些模式以使计算机匹配。 这是频谱图音频指纹派上用场的地方。

—什么是频谱图和音频指纹?

频谱图是沿x和y轴随时间变化的声音频率的可视化图,带有颜色渐变以表示频率的幅度。 然后,一个人可以拍摄两个声谱图,一个是现场录音,另一个则在歌曲数据库中,然后进行比较以查看它们是否匹配。 如果他们这样做,那么您可以仅从其频谱图中识别这首歌。 将频谱图转换成计算机可以理解的数据将需要太多的数据以实际地向上扩展,因为存在太多的信息,将它们与存储在数据库中的每个人进行比较是不现实的。

— Shazam如何处理这种模式识别?

Shazam通过采用频谱图并将其转换为音频指纹 (类似于图形上的点)来处理此问题。 然后,每个点将代表特定时间点的最高幅度频率。 通过转换为音频指纹,可以大大减少代表特定声音所需的数据量。 Shazam进一步简化了音频指纹,并保存了由频率编号表示的声音片段,并将其存储在哈希表中。 通过使用哈希表 ,搜索歌曲就像在数据库中找到具有足够匹配片段的歌曲一样容易。 更高的效率意味着查找时间更短,并且如今与人打交道时,获得结果所需的时间更长,这意味着他们更有可能感到沮丧并停止使用您的应用程序。

—音频识别还有哪些其他技术/用途?

可以在Shazam应用程序中识别歌曲之外的方式使用音频指纹识别。 例如,YouTube可以通过将音频指纹与不属于内容提供商的歌曲进行匹配,来在其视频上运行算法并检查是否侵犯版权。 Twitch还是另一家与AudibleMagic合作自动静音用户视频音频的公司,AudibleMagic帮助识别未经授权使用的歌曲。

尽管类似于音频指纹,但语音识别是另一个迅速成为主流的领域。 Google Home和Amazon的Echo只是语音识别的一些示例。 通过使用声学建模,人工神经网络和音频指纹,可以创建复杂的系统来即时交互和解释人类语言。