Python爬取4000条猫眼评论,带你围观2021最烂院线电影

2021/4/10 18:12:27

本文主要是介绍Python爬取4000条猫眼评论,带你围观2021最烂院线电影,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

之前对挺多典型影视作品做过数据解读,有好片也有烂片。

烂片能烂的让人记住的其实也不多,比如《富春山居图》、《上海堡垒》、《爵迹》之类。它们往往头顶着豆瓣2~3的评分,然后引发各种争议讨论,但其目标人群(明星粉丝)还是愿意掏腰包支持的。

图片

大概一年前,我曾经写的【看韩国人如何评价韩国电影《寄生虫》?】一文中,就提到了一个观点。

这与国内的情况也是相似的,同一部电影猫眼淘票票的分数普遍比豆瓣上要高。

毕竟真金白银去看电影的人,肯定会认为它是一部好片子才去看。

只要不像被《爱情公墓》一样诈骗,基本观众的分数不会太低。

3年后,《爱情公寓》大电影终于后继有人。一部打着开心麻花团队旗号的电影,玩起了诈骗式营销,喜获猫眼评分3.2

图片

在我的印象里,大部分电影在豆瓣可能6分左右,在猫眼上8分多。

那猫眼3.2分,究竟是什么概念呢?

这么说吧,毕志飞导演的神作——《逐梦演艺圈》即使在豆瓣上逼近2分!

但猫眼评分还有6.8分呢。

图片

今天小五就带大家扒一扒这部2021最烂院线电影——《日不落酒店》。

爬虫大法好

这次爬虫目标选取了猫眼,原因有二:一是目前豆瓣只能获取500条评论,二是这次最大的争议竟然出现在猫眼评论区

首先,我们来爬取猫眼电影上的评论数据,但网页版只能看到猫眼上的几条评论,所以我们要借助别人抓取的app接口来爬取,我发现小二之前做过类似的爬虫,就参考了一番。

接口格式如下:

http://m.maoyan.com/mmdb/comments/movie/movieid.json?_v_=yes&offset=15&startTime=xxx

两个参数说明如下:[1]

  • movieid:网站中每部影片的唯一 id
  • startTime:当前页面中第一条评论的时间,每页共有 15 条评论

经过一番爬虫,成功获取了将近4000条猫眼电影评论。

图片

不得不说,跟其他院线电影动辄几万、几十万条评论相比,《日不落酒店》显得寒碜多了。不得不服现在的观众们,避坑能力越来越强了。

毕竟当初《爱情公寓》当初还有个“情怀加成”。《日不落酒店》差评成这样还接着去看图啥呢?为了看沈腾的纸片人吗?

诈骗式营销

让我们看看观众们是怎么评价的?

先是看评分:远超一半的观众给出了一星的评价,但仍有10%的观众给出了高分的评价,标准烂片评分分布。

图片

其中在猫眼上给出评分的男性观众比例远高于女性观众。

图片

其实我们还获取了评论时间以及地域等数据信息,但其实意义不大,本文就不再展开讲述。

下面将利用python制作一个词云图,看看各位观众老爷们都表达了哪些看法?

# 绘制词云图
def gen_stylecloud(text, file_name):
    stylecloud.gen_stylecloud(text=' '.join(text), max_words=300,
                              collocations=False,
                              font_path=r'‪C:\Windows\Fonts\msyh.ttc',
                              icon_name="fas fa-thumbs-down",
                              size=800,
                              output_name=f'{file_name}.png'
                             )
    
gen_stylecloud(text=text1, file_name='词云图') 
Image(filename="词云图.png")

轻松制作词云图

图片

扑面而来的就是各种差评字句,还有人用到了李诚儒老师的名言来形容自己的观后感:如坐针毡、如芒刺背、如鲠在喉

词云图中提到最多的就是沈腾,这也是猫眼大规模差评的导火索。

小五这里截图一张《日不落酒店》的海报,你们看看这个人物比例,真·重新定义特别出演。

图片

很多观众也在评论中透露,自己是因为有沈腾才去看的这部电影,谁能知道他在电影中只是一个人形立牌,也就是“纸片人”,并且只出现了不到3分钟。

被消耗的沈腾

细数开心麻花团队的电影作品,《夏洛特烦恼》上映于2015年,也是当年影院中最大的一匹黑马,让沈腾成为日后的“票房保障”。

图片

之后连续推出了《羞羞的铁拳》《西虹市首富》,所获得的成绩也相当不错。接下来的《李茶的姑妈》成了开心麻花的“滑铁卢”,豆瓣只有4.7分。

而且它的主演与《日不落酒店》的一样,都是黄才伦

不知道有没有影响,原本2019年春节档上映的《日不落酒店》,四次改档,直到今年的3.19日才上映。也许是自己极度不自信,才在宣传物料上各种“碰瓷”开心麻花和沈腾。

图片

而后,《日不落酒店》的导演发了一篇长道歉信,澄清了几件事,其一,电影《日不落酒店》和开心麻花没关系;其二,沈腾就是客串,但出品方和宣传团队非要强行宣传“主演”;其三,我们这拍的不是喜剧片。

目前沈腾已成为中国影史票房第一的演员,累计票房突破200亿元。

图片

现在他也经常被笑称为喜剧片的“票房保障”,网友甚至会说影片的“含腾量”如何如何。

但观众的信任感也是有限的,如果一而再、再而三地被拿来充当抢救票房的“烂片万金油”,声誉和路人缘也会总会被挥霍耗尽,失去其本应有的含金量[2]

剧情好到哪里了吗

其实一开始制作的评论词云图中,还有一个关键词——“剧情”很突出!

那抛开被“纸片人”欺骗的感受,单论剧情有没有好一些呢。

重新使用python筛选并截取涉及剧情的评论,具体方法如下所示

图片

然后重新制作评论剧情相关的词云图。

图片

大家把上图中的各种用词与“剧情”拼接起来,大概也就明白了单论剧情,仍然是一片骂声。

剧情无聊、剧情尴尬、剧情乱七八糟、剧情太烂、剧情垃圾、剧情难看、剧情无厘头等等,这就很离谱。

但客观的说,确实有好评中提到了剧情搞笑等正向词汇。

注:在计算中,关键词“不搞笑”和“搞笑”是区分开统计的,所以并非由于“不搞笑”的评论而导致“搞笑”词云占比大。

写在最后

上个月我说《唐探三》是电影票房榜上的烂片!更多是想说它的影片质量配不上它的票房。

但这次则是另一种烂,拼个散装剧本,然后找个开心麻花的演员当主演,最后搞个沈腾参演当噱头。

这种套壳营销方法,前有《爱情公寓》后有《日不落酒店》。

但最终观众们都用差评表达了自己的心声!




这篇关于Python爬取4000条猫眼评论,带你围观2021最烂院线电影的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!


扫一扫关注最新编程教程