2017.08.10 Python爬蟲實戰之爬蟲攻防篇

阿新 • • 發佈：2017-08-10

5.1 inux ice 一個 1.0 ninja 多網站 alt bject

1.封鎖user-agent破解：

user-agent是瀏覽器的身份標識，網站就是通過user-agent來確定瀏覽器類型的。有很多網站會拒絕不符合一定標準的user-agent請求網頁，如果網站將頻繁訪問網站的user-agent作為爬蟲的標誌，然後加入黑名單該怎麽辦？

（1）首先在meiju項目下，settings.py的同級目錄創建middlewares目錄，進入middlewares目錄，創建__init__.py，將middlewares目錄變成一個Python模塊

（2）創建資源文件resource.py和中間件文件customUserAgent.py：

技術分享

（3）將多個瀏覽器的user-agent放入資源文件resource.py中加入列表待用：

#!/usr/bin/env python
#-*- coding: utf-8 -*-
UserAgents = [
  "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
  "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)",
  "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
  "Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)",
  "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
  "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
  "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
  "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
  "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
  "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
  "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",
  "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5",
  "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6",
  "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
  "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20",
  "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 Version/11.52",
]


（4）修改customUserAgent，將資源文件中的user-agent隨機選擇一個出來，作為Scrapy的user-agent。

#!/usr/bin/env python
#-*- coding: utf-8 -*-

from scrapy.contrib.downloadermiddleware.useragent import UserAgentMiddleware
from meiju100.middlewares.resource import UserAgents

import random

class RandomUserAgent(UserAgentMiddleware):
    def process_request(self, request, spider):
        ua=random.choice(UserAgents)
        request.headers.setdefault(‘User-Agent‘,ua)

（5）最後修改settings.py文件，將RandomUserAgent加入DOWNLOADER_MIDDLEWARES

技術分享

2.封鎖IP破解：在反爬蟲中，最容易被發覺的實際上是IP，同一IP短時間內訪問同一站點，如果數量少，管理員可能會以為是網吧或者大型的局域網在訪問，但是數目多了，很定就是爬蟲了

解決這個難題的方法，就是準備一個代理池，從中隨機選擇一個代理使用：

（1）在之前創建的middlewares目錄中，在resource.py文件中加入一個IP池，也就是代理服務器的列表：

技術分享

（2）創建一個中間件，customProxy.py，這個中間件的作用就是讓Scrapy爬取網站時隨機使用IP池中的代理：

#!/usr/bin/env python
#-*- coding: utf-8 -*-

import random

from meiju100.middlewares.resource import PROXIES

class RandomProxy(object):
    def process_request(self,request,spider):
        proxy=random.choice(PROXIES)
        request.meta[‘proxy‘]=‘http://%s‘%proxy
        

（3）最後修改settings.py文件，將customProxy加入到DOWNLOADER_MIDDLEWARES：

DOWNLOADER_MIDDLEWARES = {
    ‘meiju100.middlewares.customProxy.RandomProxy‘:10,
    ‘meiju100.middlewares.customUserAgent.RandomUserAgent‘: 30,
    ‘scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware‘:None,
    ‘scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware‘:20
}

2017.08.10 Python爬蟲實戰之爬蟲攻防篇

2017.08.10 Python爬蟲實戰之爬蟲攻防

ebs 1-1 間隔 ima pic setting fin 數據 del 1.創建一般的爬蟲：一般來說，小於100次訪問的爬蟲都無須為此擔心（1）以爬取美劇天堂為例，來源網頁：http://www.meijutt.com/new100.html，項目準備： scrapy

2017.08.10 Python爬蟲實戰之爬蟲攻防篇

5.1 inux ice 一個 1.0 ninja 多網站 alt bject 1.封鎖user-agent破解： user-agent是瀏覽器的身份標識，網站就是通過user-agent來確定瀏覽器類型的。有很多網站會拒絕不符合一定標準的user-agent請求網頁，如果

2017.08.04 Python網絡爬蟲之Scrapy爬蟲實戰二天氣預報

font size 項目執行 weather html time art show 1.項目準備：網站地址：http://quanzhou.tianqi.com/ 2.創建編輯Scrapy爬蟲： scrapy startproject weather scrapy

2017.08.04 Python網絡爬蟲之Scrapy爬蟲實戰二天氣預報的數據存儲問題

sql語句 city amd64 ces img href asp encoding primary 1.數據存儲到JSon：程序閱讀一般都是使用更方便的Json或者cvs等待格式，繼續講解Scrapy爬蟲的保存方式，也就是繼續對pipelines.py文件動手腳（1）創

2017.08.11 Python網絡爬蟲實戰之Beautiful Soup爬蟲

文件的華僑定位 spa 文件目錄 lxml odi nco unicode 1.與Scrapy不同的是Beautiful Soup並不是一個框架，而是一個模塊；與Scrapy相比，bs4中間多了一道解析的過程（Scrapy是URL返回什麽數據，程序就接受什麽數據進行過濾

python應用之爬蟲實戰1 爬蟲基本原理

協議針對應用領域原理 error data target 資訊搜索知識內容: 1.爬蟲是什麽 2.爬蟲的基本流程 3.request和response 4.python爬蟲工具參考：http://www.cnblogs.com/linhaifeng/arti

Python爬蟲實戰之Requests+正則表示式爬取貓眼電影Top100

import requests from requests.exceptions import RequestException import re import json # from multiprocessing import Pool # 測試了下這裡需要自己新增頭部否則得不到網頁 hea

Python爬蟲實戰之爬取鏈家廣州房價_04鏈家的模擬登入(記錄)

問題引入開始鏈家爬蟲的時候，瞭解到需要實現模擬登入，不登入不能爬取三個月之內的資料，目前暫未驗證這個說法是否正確，這一小節記錄一下利用瀏覽器(IE11)的開發者工具去分析模擬登入網站(鏈家)的內部邏輯過程，花了一個週末的時間，部分問題暫未解決。思路介

Python爬蟲實戰之爬取B站番劇資訊(詳細過程)

目標：爬取b站番劇最近更新輸出格式:名字+播放量+簡介那麼開始擼吧~ 用到的類庫： requests:網路請求 pyquery:解析xml文件，像使用jquery一樣簡單哦~ 1.分析頁面佈局，找到需要爬取的內

Python爬蟲實戰之抓取淘寶MM照片（一）

背景 Python爬蟲系列教程的一次實戰，然而淘寶進行過頁面改版，現在已經沒有淘寶MM這個版面，取而代之的是淘女郎。改版後，頁面是使用JS渲染的，並不能直接通過url來切換頁碼。該系列教程後續講到

Python爬蟲實戰--WeHeartIt爬蟲

前言：通過上次的小豬短租爬蟲實戰，我們再次熟悉的使用requests傳送一個網頁請求，並使用BeautifulSoup來解析頁面，從中提取出我們的目標內容，並將其存入文件中。同時我們也學會了如何分析頁面，並提取出關鍵資料。下面我們將進一步學習，並爬去小豬短租的詳情頁面，提取資料。 J

Python爬蟲實戰--TripAdvisor爬蟲

目標站點分析目標URL：https://www.tripadvisor.cn/Attractions-g60763-Activities-New_York_City_New_York.html#FILTERED_LIST 明確內容：在圖中，我們明確爬去的內容為：title，commen

爬蟲實戰之模擬登陸Github

這裡不討論用 Github API 的情況，僅僅以 Github 來說明模擬登陸先嚐試用真實瀏覽器登陸，登陸成功後在開發者工具的 Network 選項卡中捕獲 Session 檔案。可以看到，登陸所需要的資料不僅僅是 email（或使用者名稱）和密碼，還需要其它的 3 個欄位，而這

Java 爬蟲專案實戰之爬蟲簡介

Java 爬蟲專案實戰之爬蟲簡介 0. 前言今年三四月份學習Hbase，瞭解到openTSDB的底層儲存使用到了Hbase，於是乎，學習openTSDB，在閱讀openTSDB原始碼【其原始碼使用java編寫】的過程中，發現裡面全是I/O，多執行緒，httpclient等。

[python3.6]爬蟲實戰之爬取淘女郎圖片

原博主地址：http://cuiqingcai.com/1001.html 原博是python2.7寫的，並且隨著淘寶程式碼的改版，原博爬蟲已經不可用。參考 http://minstrel.top/TaoBaoMM 這位博主跟我一樣最近正在學習爬蟲。 1 定個小目標 l

python3 爬蟲實戰之爬取網易新聞APP端

（一）使用工具這裡使用了火狐瀏覽器的user-agent外掛，不懂的可以點這裡火狐外掛使用（二）爬蟲操作步驟：百度網易新聞並選擇步驟一：步驟二：步驟三：步驟四：最後一步：注意點：（1

Python進階之爬蟲url去重（可用於檔案去重）

主要介紹幾個常用和目前瞭解的，當然還有其他方法，這裡只說目前本人自己能實現的幾種方法的基本思想:基於Hash演算法的儲存。對每一個給定的URL，都是用一個已經建立好的Hash函式，對映到某個實體地址上。當需要進行檢測URL是否重複的時候，只需要將這個URL進行Hash對映，如

爬蟲實踐之爬蟲框架Scrapy安裝

1.爬蟲框架Scarpy Scrapy 是一個快速的高層次的螢幕抓取和網頁爬蟲框架，爬取網站，從網站頁面得到結構化的資料，它有著廣泛的用途，從資料探勘到監測和自動測試，Scrapy完全用Python實現，完全開源，程式碼託管在Github上，可執行在Linux，Windows，Mac和BS

爬蟲分析之WebMagic框架篇：牛刀小試

引用轉載請註明出處，Thanks！ 1 本文適合群體： a.剛接觸爬蟲還不知道如何下手的同學 b.學完爬蟲苦於沒有框架的同學 c.簡言之老少皆宜，共同進步 2 WebMagic介紹： WebMagic一款簡單靈活的爬蟲框架。基於它你可以很容易的編寫一個爬

Python 新手實戰之機器學習實現簡單驗證碼識別(一)：用PIL簡單繪製驗證碼

驗證碼生成 from PIL import Image, ImageDraw, ImageFont import random, os def draw(): #隨機生成背景顏色 (RGB顏色範圍為0-255，越高越接近白色)，背景顏色不宜過深，

2017.08.10 Python爬蟲實戰之爬蟲攻防篇

相關推薦