技術 | Python從零開始系列連載（二十九）

阿新 • • 發佈：2018-11-16

寫爬蟲防止被封的關鍵有以下幾點：

●  偽裝請求報頭（request header）
●  減輕訪問頻率，速度
●  使用代理IP

一般第一點都能做到，第二點減輕訪問頻率就會大大增加任務時間，而使用代理就能在不增加任務時長避免被封的關鍵（實際情況卻是任務時間因為代理的使用而增加的，但這裡不細說，知道就好）。

下面我們從國內高匿代理IP 獲得代理IP資料。

import os
import time
import requests
from bs4 import BeautifulSoup

#num獲取num頁 國內高匿ip的網頁中代理資料 

def fetch_proxy(num):

   #修改當前工作資料夾

   os.chdir(r'/Users/apple888/PycharmProjects/proxy IP')

   api = 'http://www.xicidaili.com/nn/{}'

   header = {

   'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/'

                 '537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36' 
}

   fp = open('host.txt', 'a+', encoding=('utf-8'))

   for i in range(num+1):

       api = api.format(1)

       respones = requests.get(url=api, headers=header)

       soup = BeautifulSoup(respones.text, 'lxml')

       container = soup.find_all(name='tr' 
,attrs={'class':'odd'})

       for tag in container:

           try:

               con_soup = BeautifulSoup(str(tag),'lxml')

               td_list = con_soup.find_all('td')

               ip = str(td_list[1])[4:-5]

               port = str(td_list[2])[4:-5]

               IPport = ip + '\t' + port + '\n'

               fp.write(IPport)

           except Exception as e:

               print('No IP！')

       time.sleep(1)

   fp.close()

我們準備抓國內高匿代理IP網的十個頁面的代理

fetch_proxy(10)

86c56a9b62c6a4518f5cce7ba6cebc2bf24fcf9d

當前工作目錄下的檔案，你看！！有host.txt

82cee61dee47eaa2dfa344d01c79862ce4cc6a77

開啟host.txt,收集到了很多代理IP

但是有代理IP還不行，因為我們不知道這代理能不能用，是否有效。

下面我們用百度網進行檢驗（大公司不怕咱們短時間內高頻率訪問），上程式碼：

import os
import time
import requests
from bs4 import BeautifulSoup
def test_proxy():

   N = 1

   os.chdir(r'/Users/apple888/PycharmProjects/proxy IP')

   url = 'https://www.baidu.com'

   fp = open('host.txt', 'r')

   ips = fp.readlines()

   proxys = list()

   for p in ips:

       ip = p.strip('\n').split('\t')

       proxy = 'http:\\' + ip[0] + ':' + ip[1]

       proxies = {'proxy': proxy}

       proxys.append(proxies)

   for pro in proxys:

       try:

           s = requests.get(url, proxies=pro)

           print('第{}個ip：{} 狀態{}'.format(N,pro,s.status_code))

       except Exception as e:

           print(e)

       N+=1

執行該程式碼，效果如下

8061f9392c974737de6b860e45bf3741714144fd

代理Ip池生成函式

#生成代理池子，num為代理池容量
def proxypool(num):

   n = 1

   os.chdir(r'/Users/apple888/PycharmProjects/proxy IP')

   fp = open('host.txt', 'r')

   proxys = list()

   ips = fp.readlines()

   while n<num:

       for p in ips:

           ip = p.strip('\n').split('\t')

           proxy = 'http:\\' + ip[0] + ':' + ip[1]

           proxies = {'proxy': proxy}

           proxys.append(proxies)

           n+=1

   return proxys

下面開始爬豆瓣電影的電影資料，我們要獲取電影名、演員、評分。

電影標籤頁 https://movie.douban.com/tag/

88b674f7efebca22ce19241916265cbb109e4b8e

爛片詳情頁https://movie.douban.com/tag/爛片

12b44bdcc7c32d3bd81a06d36ffd5c1517d25af2

爛片詳情頁

我們就只爬爛片標籤頁的部分資料吧，網頁連結規律如下

第一頁https://movie.douban.com/tag/爛片?start=0
第二頁https://movie.douban.com/tag/爛片?start=20
第三頁https://movie.douban.com/tag/爛片?start=40
開始上程式碼

def fetch_movies(tag, pages, proxys):

   os.chdir(r'/Users/apple888/PycharmProjects/proxy IP/豆瓣電影')

   url = 'https://movie.douban.com/tag/愛情?start={}'

   headers = {

   'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/'

                 '537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Mobile Safari/537.36'}


   #用csv檔案儲存資料

   csvFile = open("{}.csv".format(tag), 'a+', newline='', encoding='utf-8')

   writer = csv.writer(csvFile)

   writer.writerow(('name', 'score', 'peoples', 'date', 'nation', 'actor'))


   for page in range(0, pages*(20+1), 20):

       url = url.format(tag, page)

       try:

           respones = requests.get(url, headers=headers, proxies=random.choice(proxys))

           while respones.status_code!=200:

               respones = requests.get(url, headers=headers, proxies=random.choice(proxys))

           soup = BeautifulSoup(respones.text, 'lxml')

           movies = soup.find_all(name='div', attrs={'class': 'pl2'})

           for movie in movies:

               movie = BeautifulSoup(str(movie), 'lxml')

               movname = movie.find(name='a')

               # 影片名

               movname = movname.contents[0].replace(' ', '').strip('\n').strip('/').strip('\n')

               movInfo = movie.find(name='p').contents[0].split('/')

               # 上映日期

               date = movInfo[0][0:10]

               # 國家

               nation = movInfo[0][11:-2]

               actor_list = [act.strip(' ').replace('...', '') for act in movInfo[1:-1]]

               # 演員

               actors = '\t'.join(actor_list)

               # 評分

               score = movie.find('span', {'class': 'rating_nums'}).string

               # 評論人數

               peopleNum = movie.find('span', {'class': 'pl'}).string[1:-4]

               writer.writerow((movname, score, peopleNum, date, nation, actors))

       except:

           continue

       print('共有{}頁，已爬{}頁'.format(pages, int((page/20))))

執行上述寫好的程式碼

import time
start = time.time()

proxyPool= proxypool(50)

fetch_movies('爛片', 111, proxyPool)
end = time.time()

lastT = int(end-start)

print('耗時{}s'.format(lastT))

Perfect

原文釋出時間為：2018-11-16

本文來自雲棲社群合作伙伴“燈塔大資料”，瞭解相關資訊可以關注“燈塔大資料”。

技術 | Python從零開始系列連載（二十九）

寫爬蟲防止被封的關鍵有以下幾點： ● 偽裝請求報頭（request header） ● 減輕訪問頻率，速度 ● 使用代理IP 一般第一點都能做到，第二點減輕訪問頻率就會大大增加任務時間，而使用代理就能

Python從零開始系列連載（2）——jupyter的常用操作

前文說了學Python先安裝anaconda的環境我們現在來看看安裝完之後怎麼用我已經迫不及待寫程式碼了洋洋灑灑幾千行喂，烙鐵，你的口水都流出來了，快醒醒【用力拍】有需要Python學習資料的小夥伴嗎?小編整理一套Python資料和PDF，感興趣者

Python從零開始系列連載（5）——Python的基本運算和表示式（上）

變數變數是什麼意思？還記得之前講過的裝菜的盤子和碗麼？不記得就回去看看咯如果你學過其他語言，使用變數先要定義，或者在定義的同時賦值而派森的變數不需要單獨定義，你直接在賦值的過程中完成了定義有需要Python學習資料的小夥伴嗎?小編整理一套Python資料和PD

Python從零開始系列連載（14）——Python特色資料型別（字典）（下）

字典的操作字典提供了很多方法對字典操作： 1.dict.keys() 作用：返回包含字典所有key的列表 2.dict.values() 作用：返回包含字典所有value的列表 3.dict.items() 作用：返

Python從零開始系列連載（18）——Python特色資料型別（函式）（中）

無返回值的函式之前說了好多，都是有返回值的函式，那有沒有沒返回值的函式呢？這個可以有！函式中變數的作用域變數的作用域就是在程式中能對這個變數操作的區域範圍有點像初高中學的函式的定義域 Python允許同名變數的出現

Python從零開始系列連載（17）——Python特色資料型別（函式）（上）

函式說到函式，如果你沒有程式設計基礎，可能馬上會想到初高中學過的： y = f（x）例如：y = x +1 當我們 x = 1時，y = 2 x = 2，y = 3 小明：老溼，我們不是初中生！函式可以將問題簡化，我們可以重複使用這個函式解決

Python從零開始系列連載（22）——Python檔案操作（下）

檔案寫入之前講過了檔案開啟建立和關閉，我們接著來談談檔案寫入之前我們說了使用open（）加上檔案的絕對路徑或者相對路徑可以開啟檔案這裡我們講一個更簡單的方法我們匯入os模組 os模組是和作業系統相關的模組在Python中這樣操作：

Python從零開始系列連載（24）——Python的time模組簡單使用

time模組在之前的課程中我們已經匯入過常用模組，比如 os 模組我們在這節課中，要學習time模組的匯入和使用 time，顧名思義，是時間相關的模組~ 和 os 模組匯入方法相同 import 模組名即可匯入模組那什麼是模組

Python從零開始系列連載（1）——安裝環境

前言人生苦短，我選Python！ ★★★★直奔主題！！！安裝環境現在，我帶大家裝anaconda，而不是裝Python。因為Python英文是蟒蛇，anaconda是水蟒。大家和我一起搜尋一下anaconda：在首頁我們可以看到： P

Python從零開始寫爬蟲（二）BeautifulSoup庫使用

Beautiful Soup 是一個可以從HTML或XML檔案中提取資料的Python庫， BeautifulSoup在解析的時候是依賴於解析器的，它除了支援Python標準庫中的HTML解析器，還支援一些第三方的解析器比如lxml等。可以從其官網得到更詳細的資訊：http://beau

Python從零開始寫爬蟲（一）requests庫使用

requests是一個強大的網路請求庫，簡單易用-讓 HTTP 服務人類。可以參考這個網站的介紹：http://cn.python-requests.org/zh_CN/latest/index.html 直接使用pip install requests安裝此模組之後，開始吧。

機器學習從零開始系列連載(2)——線性迴歸

作者：張磊編輯：趙一帆本週剩餘內容： 2. 建模方法回顧 2.0 偏差與方差 2.1 線性迴歸-Linear Regression 2.1.1 模型原理 2.1.2 損失函式 2.2 支援向量機-Support Vector Machine

python從零開始寫爬蟲（1）-- 開發環境搭建

我是一點都不會python,但為了寫爬蟲，所以就硬幹了。。。 1.windows下搭建python環境直接參考這個就行了安裝指南 2.透過pip安裝套件：1)pip install requests;2)pip install BeautifulSoup4 具體操

python從零開始寫爬蟲（5）-- 資料入庫

寫好的爬蟲，現在就讓他跑起來，把資料load到資料庫具體操作： 1.安裝python 連結mysql的庫:pip install PyMySql 2.新建資料庫及表： DROP TABLE IF

python Scrapy 從零開始學習筆記（二）

在之前的文章中我們簡單瞭解了一下Scrapy 框架和安裝及目錄的介紹，本章我們將根據 scrapy 框架實現部落格園首頁部落格的爬取及資料處理。我們先在自定義的目錄中通過命令列來構建一個 scrapy 專案目錄 scrapy startproject scrapyCnblogs 生成一下目錄

從零開始學HTTP （二） HTTP結構與基礎

現象 encode 伸縮協議 for 服務端例如 lis 格式 HTTP結構與基礎這篇文章中，我們主要針對HTTP\1.1版本進行介紹請求報文和響應報文請求報文請求報文由客戶端發出，其格式為：請求方法請求URI 協議版本可選的請求首部字段和內容實體，

從零開始學演算法（二）選擇排序

從零開始學演算法（二）選擇排序選擇排序演算法介紹演算法原理演算法簡單記憶說明演算法複雜度和穩定性程式碼實現選擇排序程式碼是Javascript語言寫的（幾乎是虛擬碼）演算

從零開始學習Matplotlib（二）

文章目錄新增圖例 Annotation 標註添加註釋 annotate 添加註釋 text tick 能見度有深度學習需求的小夥伴請點選原文連結【教程】第二章：圖例與標註，線上除錯程式碼，玩轉資料

從零開始學USB（二、基礎知識2）

1.USB相關的硬體 USB裝置，從物理上的邏輯結構來說，包含了主機Host端和裝置Device端。其中，主機Host端，有對應的硬體的USB的主機控制器Host Controller，而裝置端，連線的是對應的USB裝置。 1.1. USB控制器型別：OHCI，UHCI，

從零開始學caffe（二）：caffe在win10下的安裝編譯

環境要求作業系統：64位windows10 編譯環境：Visual Studio 2013 Ultimate版本安裝流程 step1：檔案的下載從GitHub新增連結描述中下載Windows版本的caffe，並進行解壓到電腦中。 step2:檔案修改將壓縮包

技術 | Python從零開始系列連載（二十九）

寫爬蟲防止被封的關鍵有以下幾點：

下面我們從 國內高匿代理IP 獲得代理IP資料。

下面我們用百度網進行檢驗（大公司不怕咱們短時間內高頻率訪問），上程式碼：

代理Ip池生成函式

下面開始爬豆瓣電影的電影資料，我們要獲取 電影名、演員、評分。

Perfect

相關推薦

下面我們從國內高匿代理IP 獲得代理IP資料。

下面開始爬豆瓣電影的電影資料，我們要獲取電影名、演員、評分。