电影是好是坏? 您最喜欢的类型如何叠加? 董事的经验会更好吗?

在我的数据科学之旅中,我想研究电影的IMDB评级。 电影既是我的个人激情,也是我的职业激情-我看了很多电影。 更不用说,最近人们对电影收视率(尽管更多的是评论家方面)及其对票房表现的影响进行了严格的审查。 这种分析是另一回事了。

IMDB数据集非常丰富,但更重要的是易于访问。 可以以TSV文件格式下载所使用的数据集(可在以下位置找到:https://www.imdb.com/interfaces/),然后合并在一起以创建电影,流派,导演和导演的非常深入的图片。他们相关的评分。 在可供下载的7个文件中,我决定仅使用其中4个。 主要是为了限制我正在使用的数据量,还因为我发现其他文件对于查看电影和流派的平均收视率是多余的。

此外,还有关于其他许多类型的内容的数据,例如电视连续剧,视频游戏等。包括这些其他类型的数据会给数据增加很多干扰(尤其是在看导演时),并且没有添加任何内容。我想要的叙述。 因此,我过滤掉了其他标题类型以隔离电影。 我确实快速浏览了按内容类型分类的收视率,只是为了看电影的比较方式(左图)。 有趣的是-尽管很不幸-看到平均而言,电影是收视率最低的内容类型。

在查看数据集时,我需要解决一个问题,然后再开始分析。 有时会合并各种类型,例如“戏剧,幻想,科幻”。在开始了解各个类型的比较之前,我需要将这些类型分成独特的类别。

最后,我想尝试通过此分析回答的主要问题:

  1. IMDB的平均评分如何按年份变化?
  2. IMDB的平均收视率如何随着流派而变化? 而且,某些最受欢迎的流派的IMDB收视率每年如何变化?
  3. 导演的经历与等级之间有何关系(例如,导演制作的电影越多,导演的等级是否会提高)?

所以,让我们跳入…

1.平均收视率每年如何变化?

从40年代到2000年左右,电影收视率一直在下降。自2000年以来,我们看到了相当大的增长,尤其是在过去的2-3年中。

我在下面绘制每年的投票数,因为我想看看是否存在数量问题。 我认为近年来票数增加可能会使评级上升。 取而代之的是,在1930年代至1990年代的小幅下调评级期间,电影的“受欢迎程度”(每部电影的平均票数)似乎在稳步增长。 然后,突然之间,我们看到了平均票数的大量涌入,这与平均收视率的提高相吻合。 但是,从2000年到现在,评级与平均票数之间存在反比关系。

在进行一些外部研究时,上述受欢迎程度下降的答案非常明确。 IMDB始于1990年左右,与图表中每部电影的平均票数激增相吻合。 但是,其他评级网站(如烂番茄和Metacritic)则始于2000年左右,这很可能解释了该时期平均投票数的下降。

将三个数据源(IDMB,RT,Metacritic)结合起来,看看每部电影的平均票数是如何变化的,将是很有趣的。 它还可能提供更强大的收视率数据集,因为仅看IMDB可能会丢失某些受众。 我也很好奇地想找出一个在过去40至50年中对电影进行投票的人的样本,并观察他们如何评价这些电影,即,如果我们能够控制同一观众,我们是否能够更好地评估电影是否变得好还是坏?

2. IMDB的平均收视率如何随着流派而变化?

如前所述,我必须使用数据集才能获得独特的体裁。 即使我只看电影,数据中仍然有很多杂音。 有趣的是,如果允许包括所有影片而不考虑其受欢迎程度,则可以将影片“伪装”或篡改到数据集中。 有些电影(如“恐怖”中的“红色阿甘”)获得了相当多的票数,但是当您查看实际数据时,票数很高,评分为10,而实际评论却很少。 我的理论是,某种形式的投票操纵正在发生。 付钱给选民的电影对这部电影给予很高的评价。 为了消除这些离群值,我对票数少于1万的影片进行了过滤,结果数据集更加整洁。

隔离平均大小和模式差异较大的较小影片,看看它们的评级是否为伪造,将是很有意思的。 我想尝试确定我是否可以深入查看审阅者的评分,我可以预测或确定哪些评论是假的? 例如,左侧是IMDB中Red Forrest的最高评价,这似乎意味着有很多虚假评价使电影获得了完美的评价。

所有流派的流派评分和投票数

在按流派进入平均评分之前,对数据的最后一种解释。 给出的平均收视率数字是针对每部电影的,而不是可以访问的每部电影的评价。 这使我们的数据集更易于管理,但我们牺牲了按流派查看收视率真实分布的能力。 因此,请记住以下可视化,我们正在查看电影平均收视率的平均值。

上方的箱线图显示了按类型划分的电影的平均评分,按每种类型的平均评分进行排序。 在光谱的低端有许多离群值,表明胶片质量存在很大差异。 我没有像在下面的投票箱数图中那样删除异常值,因为我认为看到这种变化很重要。

对于票数,我决定显示每种类型电影的票数中位数,因为有很多离群值将均值向上倾斜。 下面最受欢迎的流派上的某些误差线很大,尤其是动画和科幻电影。

尽管科幻电影是第三差的类别,但就每部电影的票数中位数而言,它是最受欢迎的类别之一。 也许科幻迷比一般的电影迷更发声和挑剔。 似乎确实有一些轶事证据表明科幻电影可以发展出追随者(Blade Runner(8.2),Road Warrior(7.6)等)。稍后,我们将研究科幻电影随着时间的变化如何确定如果情况有所好转,这也可能助长了流派的变化。

通常,这种受欢迎程度的度量是有意义的; 我希望科幻,冒险,幻想,动画和动作片将是最受欢迎的电影,因为这些类型最近在戏剧发行中变得最为流行。

有趣的是,长长的尾巴拉低了大多数这类音乐的平均值。 如果您将Sci-Fi隔离(如上),则有趣的是查看收视率的分布情况。 作为科幻一个巨大的风扇,这是一个有点痛心地看到这么多的差距从平均值,即质量是所有的地方。 当模式接近6时,Sci-Fi的平均值为5.3。Sci-Fi电影的长尾巴确实将其平均值从其模式下拉了下来。 虽然此处未显示,但动作是另一种类型,在均值和众数之间存在很大差异。 平均值约为5.8,但根据直方图,该模式较高,约为6.5。

除了科幻电影外,纪录片电影也是另一种有趣的类型,因为它的收视率很高,但平均每部电影票数却很少(与科幻电影相反)。 该类型的均值和众数非常接近,并且呈现出非常正态的分布。 纪录片类型中有很多低端电影,但不足以拖累均值。

对于一些比较流行的类型,IMDB的收视率每年如何变化?

令人惊讶的是,在过去的15年左右的时间内,最重要的流派都显示出收视率的提高。 最激烈的转变似乎是《科幻/幻想》,我认为这是有道理的,因为20年前,该技术还不能用于导演以与现在相同的程度制作这些史诗级和未来主义的作品。 然而,戏剧是最稳定的,从40年代到00年代的跌幅最小。 根据这张图表,这似乎也是戏剧电影的最佳时机,因为我们已经达到了戏剧等级的新高。

看到“戏剧”在平均收视率中居于中间,我感到非常惊讶。 但是,在查看上述类型的逐年突破情况时,您可能会期望戏剧是一个不断完善的类别,可能会成为收视率最高的类别之一,或者如果我们仅查看过去20年,则可能会更多高度评价。

3.董事的经验与评级如何相关?

令人惊讶的是,对于所有董事,随着更多的经验,其平均评分略有下降。 更令人惊讶的是,导演执导的第一部电影之后似乎急剧下降,然后趋于逐渐下降。 超过150部电影的数据中会有更多的噪音,这可能是因为制作这么多电影的导演人数较少。

从以上的结果可以看出,导演并没有用更多的经验来制作更好的电影。 实际上,他们似乎在自私的努力下(第二部电影)的成绩显着下降。 我的理论是,导演的第一部电影可能更像是一个激情项目,并且奉献了更多的奉献精神,然后,一旦这部电影表现出色,他们就可以制作更多的电影,但不能拥有相同的奉献精神。 这可能有点麻烦。 也可能是有很多导演出道之前就曾在该行业工作过多年,担任过助理导演,电影摄影师,演员/女演员。 因此,他们会有更多的经验,因此他们的第一部电影比没有其他经验的人想要的要好。

数据的波动性极大地分散了超过100部电影的注意力,但这主要是因为没有多少导演制作那么多电影。 通常,查看约100部电影的趋势线不是很有用,尽管下面我将介绍其中一些导演来尝试介绍他们的身份。

左侧平均评分的对数图确认,随着导演经验的增加,评分会下降。 但是,右侧的图表显示了平均投票数,并确定了一个引人入胜的新观点。 导演的职业生涯开始时,导演的知名度一直稳定增长,但在8到9部电影之间达到顶峰,然后稳步下降。 也许需要8到9部电影的观众才能开始看到导演的素质下降,这是由平均收视率下降和更多经验所证明的?

也许最受欢迎的导演拍的电影不超过10部? 在最受欢迎的100位导演中,评分最高的导演是一个名叫Lee Unkrich的人。 他只有8个学分,全部是皮克斯的头衔。 我真正喜欢的一位新锐的导演是达米安·查泽尔(Damien Chazelle),但到目前为止,他只有6个导演学分。 您可能会惊讶地发现,我最喜欢的导演克里斯托弗·诺兰(Christopher Nolan)只有14个学分。 塔伦蒂诺(Tarantino)有21个学分。 因此,该理论可能存在一些道理,因为它们都是相当多产且广受赞誉的导演。 话虽这么说,但还有其他一些离群值反驳了这种说法,例如像斯皮尔伯格这样的导演凭借58部电影获得了好评。 需要进行额外的分析,以检验理论上最好的导演平均而言可能不会拍很多电影,因为质量往往会受到影响,而且要继续保持流行很困难。

导演人数超过175部的导演人数很少

导演经验图结尾的波动性是因为制作这么多电影的导演很少。 看起来有些日语,但IMDB上有关其标题的信息并不多。 萨姆·纽菲尔德(Sam Newfield)看起来是一位多产的“西方”导演。 对这些特定导演的进一步深入研究可以告诉我们,为什么这么少的导演制作了这么多电影,或者当几乎所有其他导演制作的电影少于100部时,他们如何能够制作这么多电影。

下一步

这种分析有很多地方,因为我认为它为开始添加更多数据奠定了坚实的基础。 首先,将IMDB与RottenTomatoes和Metacritic结合使用以获得完整的评级图是很有意义的。 这将在规范标题名称方面带来很多挑战-网站之间的不一致。 但是,这将是一个更强大的数据集,并且可以在线捕获大多数用户评论。

如开头所述,将这些数据与票房数据结合起来将使我们能够确定收视率与票房成功之间的相关性-周末开放或周末开放的倍数。 我还认为比较生产/分销公司的评级会很有趣。 随着Netflix最近从其网站上删除了所有分级的概念,很有趣的是,看看其内容的评级是否比通过影院上映的电影的评级更高或更佳。 最后,我认为有一种方法可以查看类型信息,以识别服务不足的类型并显示未来的内容制作机会。