Python常見反爬蟲機制解決方案

阿新 • • 發佈：2020-06-02

1、使用代理

適用情況：限制IP地址情況，也可解決由於“頻繁點選”而需要輸入驗證碼登陸的情況。

這種情況最好的辦法就是維護一個代理IP池，網上有很多免費的代理IP，良莠不齊，可以通過篩選找到能用的。對於“頻繁點選”的情況，我們還可以通過限制爬蟲訪問網站的頻率來避免被網站禁掉。

proxies = {'http':'http://XX.XX.XX.XX:XXXX'}
Requests：
 import requests
 response = requests.get(url=url,proxies=proxies)
Urllib2：
 import urllib2
 proxy_support = urllib2.ProxyHandler(proxies)
 opener = urllib2.build_opener(proxy_support,urllib2.HTTPHandler)
 urllib2.install_opener(opener) # 安裝opener，此後呼叫urlopen()時都會使用安裝過的opener物件
 response = urllib2.urlopen(url)

2、時間設定

適用情況：限制頻率情況。

Requests，Urllib2都可以使用time庫的sleep()函式：

import time
time.sleep(1)

3、偽裝成瀏覽器，或者反“反盜鏈”

有些網站會檢查你是不是真的瀏覽器訪問，還是機器自動訪問的。這種情況，加上User-Agent，表明你是瀏覽器訪問即可。有時還

會檢查是否帶Referer資訊還會檢查你的Referer是否合法，一般再加上Referer。

headers = {'User-Agent':'XXXXX'} # 偽裝成瀏覽器訪問，適用於拒絕爬蟲的網站
headers = {'Referer':'XXXXX'}
headers = {'User-Agent':'XXXXX','Referer':'XXXXX'}
Requests：
 response = requests.get(url=url,headers=headers)
Urllib2：
 import urllib,urllib2  
 req = urllib2.Request(url=url,headers=headers)
 response = urllib2.urlopen(req)

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

Python常見反爬蟲機制解決方案

1、使用代理適用情況：限制IP地址情況，也可解決由於“頻繁點選”而需要輸入驗證碼登陸的情況。

python爬蟲爬取淘寶商品比價(附淘寶反爬蟲機制解決小辦法)

因為評論有很多人說爬取不到，我強調幾點 kv的格式應該是這樣的： kv = {‘cookie\':‘你複製的一長串cookie\',‘user-agent\':‘Mozilla/5.0\'}

Python列表巢狀常見坑點及解決方案

1.巢狀列表 Python中有一種內建的資料型別叫列表(list)，它是一種容器，可以用來承載其他的物件（準確的說是其他物件的引用），列表中的物件可以稱為列表的元素，很明顯我們可以把列表作為列表中的元素，這就是所謂的

使用Python 爬取京東，淘寶。商品詳情頁的資料。（避開了反爬蟲機制）

以下是爬取京東商品詳情的Python3程式碼，以excel存放連結的方式批量爬取。excel如下

Python SSL證書驗證問題解決方案

這篇文章主要介紹了Python SSL證書驗證問題解決方案,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python修改列表值問題解決方案

由於慣性思維，導致使用for迴圈修改列表中的值出現問題首次嘗試： def make_great(original):

Selenium常見異常解析及解決方案示範

pycharm中匯入selenium報錯現象: pycharm中輸入from selenium import webdriver,selenium標紅原因1: pycharm使用的虛擬環境中沒有安裝selenium,

JS常見記憶體洩漏及解決方案解析

記憶體洩漏？官方解釋：記憶體洩漏（Memory Leak）是指程式中己動態分配的堆記憶體由於某種原因程式未釋放或無法釋放，造成系統記憶體的浪費，導致程式執行速度減慢甚至系統崩潰等嚴重後果。

Python flask框架埠失效解決方案

大家可能有這樣的體驗，好比在程式裡面我明明寫了app.run(port=8001)，結果程式還是在5000埠輸出，我們右鍵點選py程式，直接執行。

Python devel安裝失敗問題解決方案

環境：Linux-CentOS8，Python3.6 如果你遇到python-devel無法安裝的問題，發現如下錯誤：

Python專案跨域問題解決方案

1.可以通過settings/dev.py的ALLOWED_HOSTS,設定允許訪問 # 設定哪些客戶端可以通過地址訪問到後端

Python pip使用超時問題解決方案

引言之前有位群友在群裡發了個問題，說使用pip安裝第三方包遇到\"Read timeout\"。我相信很多時候，大家在使用pip都會遇到這個問題，所以，我想有必要寫一遍文章來總結一下。

Idea安裝python顯示無SDK問題解決方案

開發工具：IDEA 第一步：第二步：第三步：第四步： Install JetBrains plugin...按鈕，安裝官網外掛

Python定時任務輕量解決方案---Schedule

寫後端的同學們可能都知道，工作中可能需要週期性執行一些任務，俗稱定時任務。Linux環境下，可以藉助於系統自帶的crontab完成定時任務。但是很多時候，開發的同學們可能並沒有許可權去操作crontab，所以就催生了一些

Python pip下載過慢解決方案

pip是一個python的包安裝與管理工具，安裝python時候可以選擇是否安裝，如果安裝了pip可以使用命令檢視版本

Python request中文亂碼問題解決方案

Pythonrequest獲取網頁中文亂碼問題 r = requests.get(“http://www.baidu.com“) **r.text返回的是Unicode型的資料。

前端常見瀏覽器相容性問題解決方案

市場上瀏覽器種類很多，不同瀏覽器的核心也不盡相同，所以各個瀏覽器對網頁的解析存在一定的差異。瀏覽器核心主要分為兩種，一是渲染引擎，另一個是js引擎，核心更加傾向於說渲染引擎。

詳解Selenium-webdriver繞開反爬蟲機制的4種方法

之前爬美團外賣後臺的時候出現的問題，各種方式拖動驗證碼都無法成功，包括直接控制拉動，模擬人工軌跡的隨機拖動都失敗了，最後發現只要用chrome driver開啟頁面，哪怕手動登入也不可以，猜測driver肯定是直接被識別

python-opencv-Rng隨機數問題(解決方案python-cpp擴充套件復現)

技術標籤：Python 我嘗試用python復現,發現python沒有uint,網上的ctypes也試了 import cv2

記憶體吞金獸(Elasticsearch)的那些事兒 -- 常見問題痛點及解決方案

系列目錄記憶體吞金獸(Elasticsearch)的那些事兒 -- 認識一下記憶體吞金獸(Elasticsearch)的那些事兒 -- 資料結構及巧妙演算法