1. 程式人生 > >用python爬蟲方式:刷文章閱讀量

用python爬蟲方式:刷文章閱讀量

利用python爬蟲來抓取你要的網頁內容,實際上是對該內容的一次閱讀,這樣可以帶來閱讀量的增加。這次以爬去CSDN部落格為例,其他的網站也許要另外設定。

使用python第三方包有:bs4、requests、time
這裡間歇時間設定為2秒
採用headers來隱藏,原因是:CSDN設定了防爬蟲的措施。採用headers可以避開,成功獲取CSDN網頁內容。

程式碼如下:


from bs4 import BeautifulSoup
import requests
import time


url =('http://blog.csdn.net/googdev/article/details/52575079'
) headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'} for i in xrange(10000): time.sleep(2) req = requests.get(url,headers =headers ) soup = BeautifulSoup(req.text,'lxml') rank = soup.select('#blog_rank') view = soup.select('.article_manage .link_view .title'
) print view print i

若是你想採用這個程式碼,只需要對headers修改即可。關於如何獲取headers可以百度下或谷歌下。方法很簡單的,相信你也能學會這個很簡單的方法。