由 Rocket Studio 的 Fabrice Delaporte 和 Anthony D. 撰写 。

Rocket Studio是音乐家使用的一种解决方案,可以通过移动设备录制和分享精彩表演的视频。 在本文中,我们希望阐明所有这些事情是如何自动发生的。
- 妮娜·西蒙妮(Nina Simone)将入选“摇滚名人堂”
- 与The Walk Man走进过去的爆炸
- 维修空调的最佳方法
- 奥普拉与上帝之约翰:关于奥普拉为何*试图*说服世界“放手”迈克尔·杰克逊的爆炸性假设理论-第一部分
- 我的林肯公园回忆录
从Rocket Studio获取音乐视频需要3个步骤:您录制,创建视频并共享。

录制发生在我们的移动应用程序(iOS和Android)上。 您乐队中的每个人的口袋里都有一部智能手机吗? 因此,请继续并同时使用它们。 使用Rocket Studio,您可以拍摄手边拥有的智能手机来拍摄尽可能多的相机角度。
完成录制(和播放!)后,Rocket应用程序会自动将音频和视频素材发送到我们的平台,并且您可以在系统运行时放松身心。 它将通过组装各种可用媒体来创建您的剪辑。
剪辑可用后,应用程序会下载该剪辑,以便您可以在自己喜欢的社交媒体上共享它。
我们以明确的使命构建了视频创建平台:在移动场景中自动化创建音乐视频所涉及的所有手动任务。 仅举几例:将所有材料放在硬盘上,调整视频fps(每秒帧数-继续阅读以了解为什么这是必需的步骤),校准视频特征(颜色,亮度,对比度等),以及将所有材料放到一个项目中进行剪切和渲染。
对于人类而言,从最便宜到最昂贵的软件,都有大量的软件可用于组合视频和处理声音。 在最初设计流程时,我们问自己是否想要(或必须)自己构建音频/视频软件。 这些都是非常大而复杂的软件(即使是最简单的软件),因此我们努力重用已经存在并经过验证的功能,而不是从头开始重建。 当您考虑将这种类型的软件集成到自动化过程中时,您的选择就开始急剧减少。 最后但并非最不重要的一点是,在经过战斗测试之前,不要相信您编写的程序。 这意味着我们希望能够进入自动化过程并手动修复问题,因此排除了纯命令行工具。 经过一段时间的谷歌搜索和尝试后,我们决定解决 :

搅拌机
Blender是功能完善的开源3D软件,在市场上广为人知。 但是Blender也可以用作相当不错的视频音序器。 关键是Blender可以使用Python完全编写脚本。 这是一个主要的好处,因为它意味着您可以在我们可以运行的计算机程序中写下自己会做的所有事情。
收割者
选择Reaper作为我们的数字音频工作站(DAW)的基本原理相似。 我们必须找到足够开放的软件,以便可以在自动化过程中使用它,但功能强大到足以为我们提供进行专业混音的正确工具(对于专业人士,我们还可以进行多轨音频!)。 有了Reaper,您将获得带有VST主机的专业DAW,该主机具有轻巧的吸引力,主项目文件是一个简单的结构化文本文件,您可以使用记事本(或与此相关的自动计算机程序)打开该文件。 还有更多的功能,因为“收割者”也可以编写脚本。
这样够了吗? 并不是的。 Rocket平台需要3个步骤来创建视频。 一旦所有原始记录都已上传,它就会开始。

这是火箭队最技术性的部分。 此步骤的目的是为Blender和Reaper准备工作。
我们的输入是:
- 艺术家录制的几个视频文件
- 音频记录(例如从调音台aux out)
将视频文件转换为30 fps视频
一方面,大多数智能手机使用可变帧频(VFR)录制视频。 另一方面,大多数视频编辑软件不支持VFR。 实际上,有时它们甚至不支持导入的素材帧速率,并根据项目级别设置的fps处理您的素材。 假设您要使用Blender制作30 fps的视频,然后将一小时50fps的视频放到Blender中进行编辑。 好吧,您会惊讶地发现视频长度现在是1h40min。 这是因为Blender读取视频的速度(30fps)比录制视频的速度(50fps)慢。 但是,您可以做的一件事是固定帧速率,然后再使用ffmpeg将其导入到Blender中。 当从50fps降低到30fps时,由于ffmpeg必须选择要丢弃的帧,并且帧率差异足以让您的眼睛察觉,因此您会在视频中产生伪像。 值得庆幸的是,在我们的应用程序中,我们将智能手机配置为以30fps的速度录制。 由于他们仍在使用VFR来提高效率,因此您最终获得的视频的总fps在29.9fps和30.01fps之间。 这种差异很小,但足够大,您会在视频和外部音频源之间引入同步问题(请记住,Blender始终以30.0fps的速度读取视频)。 好消息:原始视频和我们要制作的视频的整体FPS之差很小,以至于您无法感知ffmpeg生成的伪像。 就是这样,我们首先将所有内容固定为30fps。
同步视频和音频录制
这是需要一点工程的地方,如果有的话。 当您要进行声音检查时,无论如何都不想聚集所有人并同步手机。 我们想要启用的是一个无同步过程。 只需将智能手机放到风景优美的地方即可录制,启动应用程序并播放最佳音乐。 这意味着我们没有时间码来同步视频和音轨。 为了解决该问题,我们编写的那段代码中发生了很多事情,足以说明这是一项正在申请专利的技术,它产生了我们需要正确对齐和同步所有内容的元数据,以便Blender / Reaper可以执行某些操作那讲得通。
创建Blender和Reaper项目文件
现在已经准备好轨道,我们可以创建具有所有必需轨道和属性的Blender和Reaper项目。 几乎准备渲染!

让我们配置搅拌器项目,以充分利用您提供的录音。 该过程的这一部分是手动的,在每个付费视频上执行,免费用户随机执行。
视频校正:考虑到解决方案和所用设备的性质,有时我们会使视频的某些序列无效(有人出现在摄像机前面),并对图像进行一些调整:色彩平衡,对比度和亮度。
序列持续时间:最终视频中序列的默认持续时间为3秒。 换句话说,每隔3秒钟,我们将切换相机角度。 例如,当存在很多视频轨道时,可能必须自定义此持续时间,具体取决于音乐类型。
每首歌一个项目:如果录音的总持续时间是整个音乐会,我们可能希望将其切成一组歌曲,因此每首歌使用Blender项目。
简介,结尾和预告片:我们使用艺术家的徽标,名称和任何给定的材料来创建视频的开场和闭幕顺序。 由于Rocket Studio视频主要用于宣传,因此我们还可以从完整的表演中构建30至45秒的预告片。
过滤器:我们通常会根据节目的美感,将类似Instagram的过滤器应用于视频。

我们都准备好了,Blender和Reaper可以开始其渲染工作,以创建最终视频和母带音轨!
当然,与任何技术驱动产品一样,Rocket Studio仍在开发中。 我们目前的主要重点是使REVIEW步骤自动化,更具体地说,是找到一种随着时间的推移对每个视频轨道进行排名的方法。 也就是说,我们希望改善在编辑剪辑时平台在可用摄像机角度之间进行选择的方式/时间。
我们的排名机制阐明了以下信息:
- 视频随时间推移对图像进行分类的人数(舞台对近景)
- 人数突然变化
- 随时间变化的图像质量(图像烧毁或模糊)
- 乐器检测
为了检测人员数量及其随时间的变化,我们正在测试一种基于TensorFlow对象检测API的方法,该方法具有fast_rcnn_resnet101_coco模型。

对于整体图像质量和特性,我们使用了更传统的图像处理方法。
对于乐器检测以及向前迈出的第一步,我们将增强应用程序中的记录过程,以从用户那里获取更多信息,以便我们可以在Rocket平台中使用更丰富的元数据。
希望您喜欢阅读的内容! 这只是对Rocket技术工作原理的一瞥。 敬请期待更多的信息。