爬蟲出現403錯誤解決辦法

阿新 • • 發佈：2019-01-06

轉載自https://blog.csdn.net/jsqfengbao/article/details/44594985

在python寫爬蟲的時候，html.getcode()會遇到403禁止訪問的問題，這是網站對自動化爬蟲的禁止，要解決這個問題，需要用到python的模組urllib2模組

urllib2模組是屬於一個進階的爬蟲抓取模組，有非常多的方法

比方說連線url=http://blog.csdn.net/qysh123

對於這個連線就有可能出現403禁止訪問的問題

解決這個問題，需要以下幾步驟：

<span style="font-size:18px;">req = urllib2.Request(url)
req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36")
req.add_header("GET",url)
req.add_header("Host","blog.csdn.net")
req.add_header("Referer","http://blog.csdn.net/")</span>

其中User-Agent是瀏覽器特有的屬性，通過瀏覽器檢視原始碼就可以檢視到

然後html=urllib2.urlopen(req)

print html.read()

就可以把網頁程式碼全部下載下來，而沒有了403禁止訪問的問題。

對於以上問題，可以封裝成函式，供以後呼叫方便使用，具體程式碼：

#-*-coding:utf-8-*-
import urllib2
import random
url="http://blog.csdn.net/qysh123/article/details/44564943"
my_headers=["Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36"

,
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36",
"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0"
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14",
"Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)"
]
def get_content(url,headers):
'''''
@獲取403禁止訪問的網頁
'''
randdom_header=random.choice(headers)
req=urllib2.Request(url)
req.add_header("User-Agent",randdom_header)
req.add_header("Host","blog.csdn.net")
req.add_header("Referer","http://blog.csdn.net/")
req.add_header("GET",url)
content=urllib2.urlopen(req).read()
return content
print get_content(url,my_headers)

其中用到了random隨機函式，自動獲取已經寫好的瀏覽器型別的User-Agent資訊，在自定義函式中需要寫出自己的Host,Referer,GET資訊等，解決這幾個問題，就可以順利訪問了，不再出現403訪問的資訊。

當然如果訪問頻率過快的話，有些網站還是會過濾的，解決這個需要用到代理IP的方法。。。具體的自己解決

爬蟲出現403錯誤解決辦法

轉載自https://blog.csdn.net/jsqfengbao/article/details/44594985在python寫爬蟲的時候，html.getcode()會遇到403禁止訪問的問題，這是網站對自動化爬蟲的禁止，要解決這個問題，需要用到python的模組u

Navicat Premium 出現2059錯誤解決辦法

leg pass exp sql 分享圖片 ive nbsp tps 默認 1，登陸後可查詢默認加密規則，鍵入 use mysql; select user,plugin from user where user

Navicat連線MySql8+出現2059錯誤解決辦法

今天使用Navicat連線mysql的時候報了2059的錯誤，為了解決這個看似不難的問題，我也是試了不少方法，在這裡給大家分享下我的經驗。首先出現2059這個錯誤的原因是因為在mysql8之前的版本中加密規則為mysql_native_password。但是在mysql8以後的加密規則

訪問圖片出現403的解決辦法

在寫小程式的時候,訪問一個網址獲取圖片,但是顯示會出現403(防止盜鏈)的錯誤. 總結了一下,有兩種方法是可以解決這個問題的: 使用images.weserv.nl方案使用no-referrer方案第一種:使用images.weserv.nl方案 ge

安裝mysql出現1067錯誤解決辦法

安裝mysql遇到1067錯誤，如圖安裝MYSQL後，先去更改了ROOT的密碼，才想起來用net start mysql，結果就遇到了這樣的問題。找了半天解決辦法，使用以下命令後 c:\mysql\bin\mysqladmin -u root -p shut

Qt Creator 編譯 ROS 包出現連結錯誤解決辦法

若編譯過程中,出現 cannot find -ltf cannot find -lroscpp ... 主要是因為 Qt 編譯 ROS 後連結環節出現問題,主要原因是 Qt 啟動時沒有載入 ROS 相關的環境變數,解決辦法如下: sudo vim /usr/share/ap

nginx 訪問圖片上傳伺服器出現403錯誤解決方案

近期在nginx+ftp搭建圖片上傳伺服器的時候，在瀏覽器訪問圖片路徑出現403錯誤，經蒐集各位大神的回答，整理以下內容：大家可以按下面的介紹，一一排除自己的問題，歡迎大家指正！ 1、首先檢視nginx的配置檔案 vi /usr/local/nginx/conf/ng

python用open()函式開啟.py等文件時出現編碼錯誤解決辦法

UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 94: illegal multibyte sequence 出現

提交程式到AppStore出現證書錯誤解決辦法

Dear Developer, We have discovered one or more issues with your recent binary submission for "蝦米FM". Before your app can be reviewed, the following issues

angular.min.js 在iis服務上 post方法出現 500錯誤解決辦法

原因請求 Content-Type 不一樣修改一下就可以了 a.module("login", [], function($httpProvider) { // 修改請求Content-T

androidstudio git專案到github出現的錯誤解決辦法

error1: Push rejected: Push to origin/master was rejected 意思是push被拒絕這是因為你在github上建立的那個repository裡面的

Navicat連結mysql8.0版本出現1251錯誤解決辦法

首先找到你安裝mysql服務的目錄當時我安裝的是：C:\Program Files\MySQL\MySQL Server 8.0\bin按Windows+r執行cmd然後切入安裝mysql服務的目錄cd C:\Program Files\MySQL\MySQL Server

django post提交表單資料出現403錯誤解決

解決辦法是：在檢視檔案views.py裡面使用@csrf_exempt 或者在setting.py裡面註釋掉CSRF那一行出現這個錯誤的原因主要是，跨站請求偽造。簡單來說就是，django框架為我們提供了一箇中間件，用於處理跨站請求偽造

搭建AD域環境時出現錯誤：未能為域xx.xx.xx建立GPO 出現擴充套件錯誤解決辦法

今天在Window Server 2003 SP2 企業版搭建Active Directory （活動目錄）時，建立到一半，就報錯，錯誤資訊如下：由於以下原因，操作失敗：未能為域 oayaling.oa.cn 建立GPO。 “出現了擴充套件錯誤。” 從安裝Ｄ

django中使用jquery ajax post資料出現403錯誤的解決辦法(兩種方法)

方法一：在傳送post請求的html頁面前加入{% csrf_token %} 方法二：在處理post資料的view前加@csrf_exempt裝飾符例如 @csrf_exempt de

django中使用CSRF出現403錯誤的解決辦法

一.什麼是 csrf ? 簡單的說，它的中文名叫做“跨域請求偽造。複雜的可以看這裡二.Django中如何使用csrf? 2.1新手的常犯錯誤如果你是初學Django,那你很可能

linux 下nginx+ftp搭建圖片伺服器在本機訪問出現403錯誤的解決辦法

nginx+ftp搭建圖片伺服器修改nginx 配置檔案中root路徑403錯誤進入配置檔案目錄 cd /usr/local/nginx/conf/ nginx+ftp搭建圖片伺服器修改nginx

向 mysql 數據庫中寫入datetime 類型數據時出現全是0的錯誤解決辦法

bsp mysq string date time 類型 -m nbsp 數據 imp Date date = new Date();//獲得系統時間. SimpleDateFormat sdf = new SimpleDateFormat( "

php程序上傳網站logo出現錯誤解決辦法

文件夾權限 php程序設置 emp nbsp warn ror ora 文件夾創建工作中遇到的問題，我都會一一解決，並把解決辦法發到這裏來。上傳網站logo出現錯誤：php warning: file upload error unable to creatr a

執行HBase shell時出現ERROR: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet錯誤解決辦法（圖文詳解）

cep ESS 關註 align comm util code ade dap 　　不多說，直接上幹貨！ [kfk@bigdata-pro01 bin]$ jps 1968 NameNode 2385 ResourceManager 2259 Jou

爬蟲出現403錯誤解決辦法

相關推薦