电影是好是坏? 您最喜欢的类型如何叠加? 董事的经验会更好吗?

在我的数据科学之旅中,我想研究电影的IMDB评级。 电影既是我的个人激情,也是我的职业激情-我看了很多电影。 更不用说,最近人们对电影收视率(尽管更多的是评论家方面)及其对票房表现的影响进行了严格的审查。 这种分析是另一回事了。 IMDB数据集非常丰富,但更重要的是易于访问。 可以以TSV文件格式下载所使用的数据集(可在以下位置找到:https://www.imdb.com/interfaces/),然后合并在一起以创建电影,流派,导演和导演的非常深入的图片。他们相关的评分。 在可供下载的7个文件中,我决定仅使用其中4个。 主要是为了限制我正在使用的数据量,还因为我发现其他文件对于查看电影和流派的平均收视率是多余的。 此外,还有关于其他许多类型的内容的数据,例如电视连续剧,视频游戏等。包括这些其他类型的数据会给数据增加很多干扰(尤其是在看导演时),并且没有添加任何内容。我想要的叙述。 因此,我过滤掉了其他标题类型以隔离电影。 我确实快速浏览了按内容类型分类的收视率,只是为了看电影的比较方式(左图)。 有趣的是-尽管很不幸-看到平均而言,电影是收视率最低的内容类型。 在查看数据集时,我需要解决一个问题,然后再开始分析。 有时会合并各种类型,例如“戏剧,幻想,科幻”。在开始了解各个类型的比较之前,我需要将这些类型分成独特的类别。 最后,我想尝试通过此分析回答的主要问题: IMDB的平均评分如何按年份变化? IMDB的平均收视率如何随着流派而变化? 而且,某些最受欢迎的流派的IMDB收视率每年如何变化?…