Python破解反爬蟲的兩種方法

阿新 • • 發佈：2018-12-04

Python破解反爬蟲的兩種方法

由於有很多企業為了減輕網頁負荷，抵禦爬蟲愛好者，設定了許多方法阻擋爬蟲，本人也只是個菜雞，

目前只會兩種方法繞過反爬蟲機制，本文也就只列出這兩種方法。

1.偽裝瀏覽器

由於爬蟲多直接由python指令碼直接訪問網頁，部分企業也就由此建立了識別來訪者是否為Python指令碼訪問，所以，我們可以使用偽裝瀏覽器的方式對此種防禦方式進行破解。

from urllib.request import urlopen
from urllib import  request

url = "http://www.cbrc.gov.cn/chinese/jrjg/index.html"
# 如何偽裝成瀏覽器訪問?
# 1. 定義一個真實瀏覽器的代理名稱
user_agent = "Mozilla/5.0 (X11; Linux x86_64; rv:45.0) Gecko/20100101 Firefox/45.0"
# 2. 寫到請求頁面的header裡面去
req = request.Request(url,headers={'User-Agent': user_agent} )
#  3. 開啟網頁， 獲取內容
print(urlopen(req).read().decode('utf-8'))

關於 user-agent 需要你檢視你的瀏覽器，調出如下圖所示，右側User-Agent即為。
在這裡插入圖片描述

2.IP代理

由於爬蟲常常需要多次爬取某一網站，網站則會根據訪問次數判斷是否為爬蟲，若次數很多時，將會封禁此時使用的IP，應對方法為尋找代理IP，若封禁某一IP，則使用代理IP繼續爬取。
實現步驟：

1). 呼叫urllib.request.ProxyHandler(proxies=None)； — 類似理解為Request物件
2). 呼叫opener— 類似與urlopen，這個是定製的
3). 安裝opener
4). 代理IP的選擇

from  urllib import  request
from urllib.error import URLError
# url = 'https://www.whatismyip.com/'
url = 'https://httpbin.org/get'
proxy = {'https':'171.221.239.11:808', 'http':'218.14.115.211:3128'}
user_agent = 'Mozilla/5.0 (X11; Linux x86_64; rv:45.0) Gecko/20100101 Firefox/45.0'
# 1).呼叫urllib.request.ProxyHandler(proxies=None)；  --- 類似理解為Request物件
proxy_support = request.ProxyHandler(proxy)
# 2).呼叫Opener - -- 類似與urlopen， 這個是定製的
opener = request.build_opener(proxy_support)
# 偽裝瀏覽器
opener.addheaders = [('User-Agent',user_agent)]
# 3).安裝Opener
request.install_opener(opener)
# 4).代理IP的選擇
response = request.urlopen(url)
content  = response.read().decode('utf-8')    #content即為爬取結果

Python破解反爬蟲的兩種方法

Python破解反爬蟲的兩種方法由於有很多企業為了減輕網頁負荷，抵禦爬蟲愛好者，設定了許多方法阻擋爬蟲，本人也只是個菜雞，目前只會兩種方法繞過反爬蟲機制，本文也就只列出這兩種方法。 1.偽裝瀏覽器由於爬蟲多直接由python指令碼直接訪問網頁，部分企業也就由此建立

Python實現獎金計算兩種方法的比較

position class pla nbsp font fault and dem 100萬應發獎金計算簡述：企業發放的獎金根據利潤提成。利潤(profit)低於或等於10萬元時，獎金可提10%；利潤高於10萬元，低於20萬元時，低於10萬元的部分按1

python 生成隨機數的兩種方法

1. 使用 random 包生成隨機數可以生成均勻分佈，高斯分佈，（包括正態分佈）指數分佈，（與泊松分佈有區別：泊松分佈表示一段時間發生多少次，而指數分佈表示兩次發生的時間間隔）貝塔分佈，韋布爾分佈的隨機數由此可見，random 包支援的隨機分佈比較有限，功能較少.

Python操作Hive的兩種方法總結

方法一：使用PyHive庫安裝依賴包：其中sasl安裝可能會報錯，可以去https://www.lfd.uci.edu/~gohlke/pythonlibs/#sasl下載對應版本安裝。 pip install sasl pip install thrift pip install thr

此Python破解反爬蟲例項，曾幫助過我成長，你也會對它表示感謝！

通過用JS在本地生成隨機字串的反爬蟲機制，在利用Python寫爬蟲的時候經常會遇到的一個問題。希望通過講解，能為大家提供一種思路。以後再碰到這種問題的時候知道該如何解決。（如果缺乏學習資料的同學，文末已經給你提供！）破解有道翻譯反爬蟲機制 web端的有道翻譯，在之前是直接可以爬的。也就是說

兩種方法實現Python二分查詢演算法兩種方法實現Python二分查詢演算法

兩種方法實現Python二分查詢演算法一. ? 1 2

Python檔案操作的兩種方法快速入門

python內建函式 1.試著向檔案中寫一句話路徑：“C:/Users/thinkpad/Desktop/demo.txt” 開啟方式：寫（‘w’） # -*- encoding: UTF-8 -*- fp = open("C:/Users/thinkpad/

Centos7破解密碼的兩種方法--技術流ken

Centos7忘記密碼在工作或者自己練習的時候我們難免會大意忘掉自己的root密碼，有些同學忘掉密碼竟然第一選擇是重灌系統，工作中可萬萬使不得！本篇部落格將講解兩種最常用的破解centos7忘掉密碼的解決方案。第一種方法：設定

python 開啟程序的兩種方法、以及查詢子程序與父程序

方法1 先輸出主程序，再輸出子程序是因為 p.start() 只是給系統傳送就緒訊號有延時，所以主程序都執行完了，可能子程序才到他開始執行 from multiprocessing import Process # 建立程序的模組 def

python爬蟲使用Cookie的兩種方法

場景：當我們以未登入身份使用瀏覽器訪問一個看書的相關網址時，只顯示了亞馬遜的購買連結。隱藏了書籍的下載連結。但是當我們登入以後，下載連結會顯示出來，這樣在爬蟲的時候，可以把下載連結解析出來使用。登入前後網頁Headers-Request Headers顯示的Cookie不同。

python爬蟲之scrapy中user agent淺談（兩種方法）

user agent簡述 User Agent中文名為使用者代理，簡稱 UA，它是一個特殊字串頭，使得伺服器能夠識別客戶使用的作業系統及版本、CPU 型別、瀏覽器及版本、瀏覽器渲染引擎、瀏覽器語言、瀏覽器外掛等。開始（測試不同型別user agent返回值）手機use

Python Scrapy反爬蟲常見解決方案（包含5種方法）

ins 都是可能自定義輸入 src stx 用戶 play 爬蟲的本質就是“抓取”第二方網站中有價值的數據，因此，每個網站都會或多或少地采用一些反爬蟲技術來防範爬蟲。比如前面介紹的通過 User-Agent 請求頭驗證是否為瀏覽器、使用 Jav

使用Python生成源文件的兩種方法

mob zhang mod pri tid 串接數字能夠 package 利用Python的字符串處理模塊，開發者能夠編寫腳本用來生成那些格式同樣的C、C++、JAVA源程序、頭文件和測試文件，從而避免大量的反復工作。本文概述兩種利用Python string類生成

python開啟進程的兩種方法

調用父類結果 __init__ 當前 ini color pro print 一個 1.開啟進程的方法一 from multiprocessing import Process import time def work(name): #定義一個函數 print

python連接redis的兩種方法

con utc style 需要絕對路徑 core usr detect 負載均衡日常寫代碼過程中，經常需要連接redis進行操作。下面我就介紹下python連接redis的兩種方法方法一、使用host 和 port 連接請看代碼： 1 #!/usr/bin/

利用Python進行圖片發送與接收的兩種方法---包含客戶端和服務器端代碼

list() tmp span 客戶端 time() failed pri ucc out 第一種方法 opencv、requests、flask 此方法比較耗費時間 600毫秒左右客戶端代碼 #coding:utf-8 import cv2 import json i

兩種方法實現Python二分查找算法

進行 n) == bsp highlight log range pre arr 一. arr=[1,3,6,9,10,20,30] def findnumber(l,h,number): mid=(l+h)//2 if arr[mid]==number:

破解CentOS7 的root口令的兩種方法

exit borde root 模式 entos family ini 光標移動文件 1>.破解CentOS7 的root口令方法一啟動時任意鍵暫停啟動按e鍵進入編輯模式將光標移動到linux16開始的行，添加內核參數

python 日誌輸出模塊--兩種方法

bug nco format file dha fig bytes 兩種 lena 第一種方法：（推薦） import logging.handlers LOG_FILE = r‘tst.log‘ handler = logging.handlers.

python中執行shell的兩種方法總結

sleep follow 命令執行 inux 接收以及 Go ber BE 這篇文章主要介紹了python中執行shell的兩種方法，有兩種方法可以在Python中執行SHELL程序，方法一是使用Python的commands包，方法二則是使用subprocess包，這

Python破解反爬蟲的兩種方法