业余打发时间看电影是个不错的选择,但是如果看了一部无聊糟心的电影就得不偿失了,所以一些电影方面的榜单就出现了,可以为这些选择困难患者提供一个不错的指南,那些是经典是值得看的,而那些电影不值得你浪费一两个小时的时间。在电影榜单方面,国外最出名的自然是IMDB Top250,这个榜单收集了全球观众评选出的最好看的 250 部电影,国内最知名的榜单应该是豆瓣电影 Top250, 主要反映了国内观众的观影品味,当然可能也受到了豆瓣用户群体倾向的影响。对于这两个榜单,虽然对部分电影的排名多少有些争议,但是总体来说大家觉得对着这个榜单看电影,碰到烂片的概率还是较小的。
但是豆瓣榜单的一个问题是,没有提供对这些电影的筛选功能。如果我想看 Top250 榜单中克里斯托弗·诺兰的电影是有几部,分别是那几部,我不得不对着榜单一个一个找。此外,豆瓣评分只是一个平均化的指标,光依据这个评分去选电影通常是有偏差的。受到 https://www.v2ex.com/t/368861 这篇文章的启发,我决定用我搜集到的豆瓣电影数据,额外计算几个指标,让我们可以更完整的理解电影的评分状况。这几个指标是:
- 平均星级:使用豆瓣电影上给出的各个星级评分所占的比例,计算加权平均的星级,可以判断电影的总体评分情况;
- 总星级:用电影的平均星级乘以参与评分的总人数,综合了电影的星级与评分人数两个指标。一般而言,对于两部同样评分的电影,如果一部电影的评分人数显著高于另一部,则前者的评分应该更加可靠。当然,这也可能只说明,前者比较符合大众口味;
- 星级标准差,使用计算出来的平均星级,可以计算所有星级评分的标准差,这反映了这部电影评分的一致性,如果标准差较大,则反映这部电影的评分比较两极分化。如果这个指标较小,那么这部电影是真正的好电影与差电影的可能性就更高。250 部电影中,标准差最小的五部电影分别为《肖申克的救赎》、《控方证人》、《霸王别姬》、《美丽人生》与《辛德勒的名单》,说明这五部大家的意见比较一致,确实也是非常好看的电影。标准差最大的五部分别为《穆赫兰道》、《秒速五厘米》、《这个男人来自地球》、《萤火虫之墓》与《初恋这件小事》。看了下评论,这五部电影因为各种各样的原因确实评论口碑不一,评分有较大争议。
所有数据放在这个网址: https://data.metaquant.org/ , 欢迎大家围观。分析有什么问题,欢迎大家指出。另外大家也可以分享一下观看榜单中电影的观后感,方便没有看过电影的朋友们参考~