看豆瓣數據如何評價劉若英導演的電影《後來的我們》

所有代碼托管在Github。

最近有一部“懷舊”題材的電影——《後來的我們》。青春,愛情,夢想,一直是“懷舊”題材的核心要素,那麼他的口碑怎麼樣呢?借助這個問題,我嘗試使用python爬取豆瓣數據並可視化瞭數據結果,“我最大的遺憾,就是你的遺憾,與我有關”,下面就一起來感受一下吧。

一、爬取數據

1.1 代理ip

代理IP的作用是把我們自己變成偽裝者,套上保護色,在夜色中叩開豆瓣大門的時候豆瓣並不知道門外來的是誰,宛如薛定諤的貓一樣讓豆瓣丈二和尚摸不著頭腦,他以為來的是張三,其實是我老李;他以為來的是李四,其實還是我老李手動微笑。

那我們首先從爬取IP開始,工欲善其事必先利其器嘛,代理IP提供瞭隱身的可能性,加上代理ip我們可以像不會騎掃把的胖女巫一樣擁有繞過豆瓣反爬蟲機制的能力。我這裡用瞭西刺(ci)網,我剛開始以為是西剌網,想起瞭王小波的花剌子模信使那個故事,哈哈哈哈對不起扯遠瞭。

首先裝載一下必要的庫,設置好cookie和useragent,可以通過chrome的F12鍵在網絡裡查看到這些信息,直接拷貝過來就行。

import requests
import re
import pandas as pd

url = 'http://www.xicidaili.com/'
cookie = {
'Cookie': '_free_proxy_session=BAh7B0kiD3Nlc3Npb25faWQGOgZFVEkiJTAwMTNiMmQ5MGQ0NGMzMzFkNzk0ZmE4ODk4MmMzMzEyBjsAVEkiEF9jc3JmX3Rva2VuBjsARkkiMXBXK0NNcHRENlhVUUh1YTFQTXYvUE1qdmJCaklYalJtbGFFME56MU84Ulk9BjsARg%3D%3D--7deda3a0bc1e4e26c36fb37dfeb5caf7003df150; Hm_lvt_0cf76c77469e965d2957f0553e6ecf59=1525346941; Hm_lpvt_0cf76c77469e965d2957f0553e6ecf59=1525347052'
}

useragent = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'
}

赞(0)