在美国脱口秀广播中检测重复内容

在Cortico,我们已使谈话广播变得可搜索,以帮助在全国范围内传达代表性不足的声音。 使用谈话广播,我们可以了解当地人在谈论什么。 但是,事实证明,谈话广播中有很多重复的内容,从联合内容(例如,在其所有成员电台播放的NPR片段)到商业广告。 这不仅使我们的搜索空间以及热门术语的结果变得混乱,而且使在全国广播内容下听到本地声音变得更加困难。 因此,我们开始了一段旅程,以了解如何自动检测重复的音频内容。 寻找解决方案 由于我们正在转录所有无线电数据,因此我们已经有了基于文本的重复检测的概念。 但是,基于转录本的重复检测会随转录精度而变化,而转录精度又会随背景噪声而变化。 此外,转录仅限于英语,有时在口音上有困难。 因此,我们想看看是否存在不依赖文本的解决方案,该解决方案可能会补充我们的抄本重复检测。 我们不仅要提高重复检测的准确性,还希望更多地了解谈话广播的状况。 联合广播内容中有多少谈话广播? 是否有广播相同内容的广播电台集群? 音频指纹 我们决定尝试的解决方案是音频指纹识别。 音频指纹识别为我们提供了一种通过散列(“指纹”)识别音频文件部分的方法。 然后可以将此哈希与其他音频文件的其他部分进行比较。 该技术由Shazam发布,看起来像这样:…

使用Go和AWS Lambda管理Spotify库

Spotify公开了一个健壮的API,可用于管理您(或其他人)音乐库并使用它进行各种有趣的操作。 一旦设置了OAuth 2身份验证并准备就绪,应用程序就可以代表用户与Spotify API进行持续交互,以执行任何操作,从获取有关用户的基本信息到寻找当前播放的歌曲中的位置。 在本文中,我们将逐步设置在AWS Lambda上托管的Go应用程序,该应用程序将执行一些涉及Discover Weekly播放列表的简单库管理。 具体来说,我们的lambda每周运行一次,并从“发现每周”播放列表中添加一周中所有“喜欢”的歌曲,并将它们添加到另一个播放列表中。 我一直手动进行此操作已经有一段时间了,因为我想跟踪我从“发现周刊”中翻阅过的所有歌曲,而不保留整个播放列表的副本。 这是对Spotify API的很好的介绍,因为它足够简单,可以快速上手,但是它确实使用了一些不同的Spotify端点,并且做了一些逻辑来正确放置东西。 该示例的所有源代码都托管在GitHub上,并且可在Apache-2.0许可下获得。 设置一个Spotify应用程序 首先要做的是登录到Spotify开发人员控制台并通过选择“创建应用程序”注册一个新应用程序: 按照他们的指示注册新应用程序,完成后,您将进入应用程序主页,您将在其中看到您的客户ID和客户密码: 我们稍后将在应用程序中使用它们。 最后一步-使用Spotify应用程序进行身份验证要求应用程序在登录后知道应该将用户重定向到的位置。稍后,我们将在本地运行此操作以生成令牌。 因此,从您的应用程序页面,转到“…