广播节目由什么组成? 从广播制作中获取更多数据

英国广播公司每周播出数百小时的广播内容。 我们使用内部生产商和独立生产公司来创建此内容。 我们的许多广播内容都是从我们自己的工作室现场直播的。 我们想了解如何通过这些工作室创建更多更好质量的节目元数据来最好地为公众服务。

元数据的定义是“提供有关另一组数据的信息的数据”。 在BBC广播节目中,相关数据集就是您所收听的音频。 元数据是有关该音频的事实的列表。 元数据可以和程序名称一样简单。 或者,它可能与所谈论的主题,相关主题,或所播放音乐的详细信息一样复杂。

在数字摄影中,每张照片都嵌入了元数据(Exif元数据)。 这些元数据中有很多是技术细节,可告诉我们如何捕获图像。 一个例子可能是镜头的光圈有多宽(或f光圈)。 另一个可能是快门速度(几分之一秒)。 从实际照片中得出这些测量值是不可能的(或者至少是非常不可行的)。 捕获此数据的最简单方法是从相机本身记录设置。

英国广播公司(BBC)具有大量有关节目的元数据。 程序的结构特别有趣-组成程序的组成部分以及与这些部分相关的元数据。 我们将其称为“细分”,James Calendar撰写了有关用于存储这些细分的API的信息。 Radio 4的杂志节目“女人的小时”或“您和您的小时”可以“章节”的形式进行细分。 以音乐为重点的节目,例如与Annie Mac一起播放的Radio 1的Future Sounds,可能包含音乐曲目和访谈的混合物,也可能包含独家的DJ混音。

其中的某些片段已经自动创建,例如,音乐曲目是由我们的音频播放系统自动创建的。 但是,必须手动输入其他类型的细分。 尽管有供生产者手动输入此数据的内部工具,但这样做的额外工作量非常大-我们的生产者已经在计划计划时以其他形式创建了此信息。 但是,有时程序与计划有偏差-通常以明确的方式,但即使如此-仅仅将计划的内容视为事实并不一定表示所创建和发布的程序的准确表示。

显然,我们需要有关计划和实际发生的数据的混合,以便构建有关程序的准确的元数据集。

直到最近,这种“实际发生的”方面还是难以捉摸的。 现代音频制作技术-混音器和音频播放系统-现在可以通过IP网络发送有关其当前正在执行的遥测数据。 遥测数据可以告诉我们有关这些系统运行情况的测量数据–该技术广泛用于其他领域,例如飞机上,飞机中传感器和控件的测量结果存储在“黑匣子”飞行记录器中,可用于重建发生事故或故障时的确切情况,以了解它是如何发生的。 或像前面提到的数码相机一样,我们知道创建音频的机器的状态,我们可以记录下来。

面临的挑战是将遥测数据转换为描述程序内容的有意义的元数据,而不是简单地由工作室操作员创建程序的方法。 为此,我们需要查看音频信号本身。

遥测数据可以告诉我们程序的创建方式,而音频内容包含有关语音形式的内容的信息。 越来越精确的语音到文本算法的出现使从音频信号中导出元数据的前景更加平易近人。

使用到工作室的音频接口,我们可以通过IP音频网络上的流访问每个单独的音频源,因此可以隔离每个源并分别处理它们。 这意味着我们可以通过向其提供纯净的语音音频而没有背景“噪音”(或音乐,有时也称为音乐)来提高算法的准确性。 就像试图理解在嘈杂的酒吧或酒吧中与朋友的对话一样,当语音与其他不相关的声音混合时,语音到文本算法很难表现良好。 这是一个问题,许多语音转文本算法在检测到其他声音(如音乐)时会故意关闭自身,因此在通过算法运行之前,我们越能消除这些多余的声音就越好。

如果我们将这些自动生成的成绩单作为自然语言处理,情感分析以及多种分析文本内容的算法方法的输入,我们就可以开始理解程序或程序段中正在谈论的主题。

如果将其与我们有关节目计划的数据结合起来,我们就可以真正真正地开始确切地理解广播节目的组成,并且使用技术可以自动构建许多元数据,而无需付出额外的精力-因此我们制作人可以自由地专注于为观众创建最佳内容,而不是花费宝贵的时间填写表格。

我们一直在与Segment API团队合作开发工具,这些工具将使广播制作人能够实时准确地表示自己的节目,并提供尽可能多的自动协助,同时使制作人可以最终控制其元数据输出。 然后,我们可以将其提供给可能希望利用此功能的各种BBC产品(既可以增强在线受众的体验,也可以提供内部工具)—使用BBC可用的整个基础设施来大规模地提供此产品。

尤其重要的是,确保将“人在循环中”作为流向受众的任何自动元数据的一部分。 这确保我们不仅保留内容本身的编辑控制权,还保留与之相关的元数据的编辑控制权。 为此,我们需要开发对生产过程不具有干扰性的工具,但要使其功能强大到足以使生产者对他们正在生产的元数据有完整的了解。

最终,所有程序都被存档了,它们的元数据也被存档了。 无论我们采用哪种记录元数据的方式,都需要尽可能地独立于技术,以确保元数据的有效寿命远远长于用于生成元数据的系统。 此外,节目的元数据在广播后可能会发生变化(例如,随着更好的工具的出现,或者必须纠正错误),这带来了一系列新的挑战

归档的主题范围很广,从开发用于存储元数据的标准到确保在我们所有当前技术都已过时并应有其自己的博客文章时确保数据可读性而言!

我们正在努力为我们的计划创建并提供更多的元数据。 我们有多种工具可以做到这一点-其中许多工具可以通过机器辅助,使我们能够提供比创建它所需的成比例努力更多的价值,这将为我们的制作人提供新颖且创新的方式来展示BBC内容对我们的听众。