在美国脱口秀广播中检测重复内容

在Cortico,我们已使谈话广播变得可搜索,以帮助在全国范围内传达代表性不足的声音。 使用谈话广播,我们可以了解当地人在谈论什么。 但是,事实证明,谈话广播中有很多重复的内容,从联合内容(例如,在其所有成员电台播放的NPR片段)到商业广告。 这不仅使我们的搜索空间以及热门术语的结果变得混乱,而且使在全国广播内容下听到本地声音变得更加困难。 因此,我们开始了一段旅程,以了解如何自动检测重复的音频内容。 寻找解决方案 由于我们正在转录所有无线电数据,因此我们已经有了基于文本的重复检测的概念。 但是,基于转录本的重复检测会随转录精度而变化,而转录精度又会随背景噪声而变化。 此外,转录仅限于英语,有时在口音上有困难。 因此,我们想看看是否存在不依赖文本的解决方案,该解决方案可能会补充我们的抄本重复检测。 我们不仅要提高重复检测的准确性,还希望更多地了解谈话广播的状况。 联合广播内容中有多少谈话广播? 是否有广播相同内容的广播电台集群? 音频指纹 我们决定尝试的解决方案是音频指纹识别。 音频指纹识别为我们提供了一种通过散列(“指纹”)识别音频文件部分的方法。 然后可以将此哈希与其他音频文件的其他部分进行比较。 该技术由Shazam发布,看起来像这样:…