
最近,我偶然发现了Kaggle上的一个小型数据集,其中包含2018 Spotify百强榜单的元数据。 乍一看,它是那些“向左滑动”的数据集之一。 第二秒钟,我关闭了浏览器选项卡,就像“什么鬼东西”一样,让我们深入研究这个小数据集,看看它必须揭示什么。
(*小,我的意思是说非常小,例如16个特征x 100行。)
通过仔细查看数据集,我们可以提取以下特征组(由我定义):
- 跟踪元数据(即名称,Spotify URL,艺术家)
- 跟踪动态(例如,琴键,模式,节奏等)
- 跟踪功能(例如,可跳舞性,活力等)
我将仔细研究这些小组中的每个小组。 以下几行描述了我在分析过程中遇到的一些重点。
从如此小的数据集中可以学到什么?
我非常喜欢音乐,因此,我对音乐的各种事实都感兴趣。 这是我尝试回答的一些可能的结果或目标:
- 前100名中哪些艺术家和哪种曲目?
他们是谁? 每个艺术家的前100名中有多少首曲目?
就轨道动态而言,前100名中有哪些类型的轨道? - 进入前100名需要什么?
就轨道特征而言,轨道应该具有什么? 它不应该有什么? - 赛道功能的最佳表现在哪里?
我们可以识别出某种模式吗?
这些是我试图回答的问题,以便对数据集有一个很好的了解。
前100名中哪些艺术家和哪种曲目?

除了几位拥有多个前100名作品的艺术家之外,从曲目的名称或流派中提取的也很少。 凭借我对主流音乐的基本了解,并且没有在数据集中添加任何其他数据,我可以说Top 100不是纯粹的EDM或Rap或Pop或其他任何东西。
通过查看其他轨道动力学属性,除了“关键”功能(是的,实际上称为“关键”)之外,我们无法从中得到很多好处。

该图显示了按“关键字”分组的前100名曲目的数量。 这实际上很有趣。 粗略的“关键”转化为曲目的气氛。 因此,我们可以在某种程度上确定某条曲目是快乐,乐观还是悲伤和黑暗。
通过咨询互联网以了解每个键在情绪或特征方面的含义,我发现了两个极端(C#和D#)的以下方面:
- C#:Pen悔感叹,与上帝,生活的朋友和相遇的亲密交谈[…]
- D#:[…]如果鬼可以讲话,他们的讲话将接近此键。
通过查看这些评估以及浏览其他键,我不得不承认,在查看前100名的分布时,这是完全有意义的。
进入前100名需要什么?
这个问题试图回答如何感知轨道。 轨道是不是很声学? 还是现场录音? 还是跳舞? 还是大声? 等等。

在开始之前,我试图对这些功能的链接方式有一个大概的了解。 通过查看图可以看出,没有很多相关的要素。 需要仔细观察的一些功能称为:能量,键,响度,化合价。
数据集中的大多数特征都具有某种规模。 作为分析的一部分,我尝试将它们归一化并分类为-1(较低比例的33%),0(其他所有比例),1(较高比例的33%)。 使用MinMaxNormalization对功能进行了标准化。 因此,得分为0.22的轨道将为此功能分配-1。 其背后的想法是使它们更易于绘制和计数。 -1可以解释为“不重要”,而1则可以解释为“重要”。

通过查看上面的图,我们可以看出诸如“工具性”,“生动性”,“言语性”之类的功能实际上并不重要,或者可能成为进入前100名的交易的突破点。
赛道功能的最佳表现在哪里?
那么,最佳地点在哪里? 要显示在前100名中,赛道需要具备什么条件?
回答此问题的一种方法是将所有先前学到的东西放在一起:

通过计算每个功能的-1、0和1的数量,我们可以确定哪个分类出现得最多。 然后,将计算结果绘制在上表中。
这张雷达图(或蜘蛛图)显示了两个重要的方面。 旁注:该图不显示是否存在具有此功能的轨道。 该图显示了轨迹中常见的特征。
- 前100名中的曲目响亮,充满活力,可跳舞且非常愉快。
- 语音,声学,乐器或现场曲目在前100名中并未真正体现。
长话短说:
如果您想进入前100名,请大声,跳舞,充满活力和快乐。 尽量避免使用乐器轨道或原声轨道,也不要以为您的轨道实时录制会跻身前100名。
我希望你们喜欢阅读我的分析报告。 如果您想了解更多信息,我将为您推荐我的完整Jupyter笔记本。
有关https://github.com/nsiicm0/Spotify-2018-Top-100-Analysis的更多详细信息