python爬蟲解決403禁止訪問錯誤

阿新 • • 發佈：2019-01-09

在python寫爬蟲的時候，html.getcode()會遇到403禁止訪問的問題，這是網站對自動化爬蟲的禁止，要解決這個問題，需要用到python的模組urllib2模組

urllib2模組是屬於一個進階的爬蟲抓取模組，有非常多的方法

比方說連線url=http://blog.csdn.net/qysh123

對於這個連線就有可能出現403禁止訪問的問題

解決這個問題，需要以下幾步驟：

<span style="font-size:18px;">req = urllib2.Request(url)
req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36")
req.add_header("GET",url)
req.add_header("Host","blog.csdn.net")
req.add_header("Referer","http://blog.csdn.net/")</span>

其中User-Agent是瀏覽器特有的屬性，通過瀏覽器檢視原始碼就可以檢視到

然後html=urllib2.urlopen(req)

print html.read()

就可以把網頁程式碼全部下載下來，而沒有了403禁止訪問的問題。

對於以上問題，可以封裝成函式，供以後呼叫方便使用，具體程式碼：

#-*-coding:utf-8-*-

import urllib2
import random

url="http://blog.csdn.net/qysh123/article/details/44564943"

my_headers=["Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36",
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36",
"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0"
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14",
"Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)"
	
]
def get_content(url,headers):
	'''
	@獲取403禁止訪問的網頁
	'''
	randdom_header=random.choice(headers)

	req=urllib2.Request(url)
	req.add_header("User-Agent",randdom_header)
	req.add_header("Host","blog.csdn.net")
	req.add_header("Referer","http://blog.csdn.net/")
	req.add_header("GET",url)

	content=urllib2.urlopen(req).read()
	return content

print get_content(url,my_headers)

其中用到了random隨機函式，自動獲取已經寫好的瀏覽器型別的User-Agent資訊，在自定義函式中需要寫出自己的Host,Referer,GET資訊等，解決這幾個問題，就可以順利訪問了，不再出現403訪問的資訊。

當然如果訪問頻率過快的話，有些網站還是會過濾的，解決這個需要用到代理IP的方法。。。具體的自己解決

python爬蟲解決403禁止訪問錯誤

在python寫爬蟲的時候，html.getcode()會遇到403禁止訪問的問題，這是網站對自動化爬蟲的禁止，要解決這個問題，需要用到python的模組urllib2模組 urllib2模組是屬於一個進階的爬蟲抓取模組，有非常多的方法比方說連線url=http://b

爬蟲發起抓取被服務器拒絕訪問返回403禁止訪問解決方案

http white 抓取 ray 現在情況訪問 creat exception 現在很多網站的api接口返回httpcode返回碼是403提示禁止訪問。如果您也遇到這樣的情況,請先不要急著去修改網站相關的參數第一、先進api的網站。用瀏覽器訪問，如果瀏覽器訪問該a

IIS7中釋出網站到公網技巧與排錯--伺服器錯誤 403-禁止訪問：訪問本拒絕。

為了最大化發揮硬體的優勢，把客戶的伺服器升級到了Windows Server 2008，面臨把SharePoint 應用和ASP.NET網站遷移到IIS7中，從新發布到公網。這裡就談談如何在IIS7釋出ASP.NET網站到公網。為了順利遷移，首先搭建了一個VMware虛擬機

http錯誤403禁止訪問

403 禁止訪問：訪問被拒絕403.1 禁止訪問：執行訪問被拒絕403.2 禁止訪問：讀取訪問被拒絕403.3 禁止訪問：寫入訪問被拒絕403.4 禁止訪問：需要使用 SSL 檢視該資源403.5 禁止訪問：需要使用 SSL 128 檢視該資源403.6 禁止訪問：客戶端的 IP 地址被拒絕403.7 禁止訪

解決Wampserver在win8下出現403禁止訪問問題

在Windows 8下安裝完Wampserver後，瀏覽器輸入localhost，報了403錯誤，只有輸入127.0.0.1才能訪問。解決方案如下： 1、開啟httpd.conf檔案，定位（有的不需要做這一步） Options FollowSymLinks

yii2 中gii/debug訪問時出現403禁止訪問

主要是因為訪問的地址限制，預設只能本地測試訪問。本來這些除錯資訊也不應該在正式環境中展示。但是需要使用，也可以特別申明訪問地址允許使用。地址是指訪問的客戶端地址，不是伺服器地址!!! tips:我使用的是yii2 advanced版本，在config/main-l

Python爬蟲——解決urlretrieve下載不完整問題且避免用時過長

在這篇部落格中：http://blog.csdn.net/Innovation_Z/article/details/51106601 ，作者利用遞迴方法解決了urlretrieve下載檔案不完整的方法，其程式碼如下： def auto_down(url,filename): t

Python爬蟲--timeout設定--防止訪問時間過長造成假死

爬蟲有時候會因為爬去某些網頁速度極慢，影響效能。所有可以設定超時時間。 timeout單位秒設定超時時間為0，使用try語句。 #coding:utf-8 **urllib2** 超時可以通過

python爬蟲-解決網頁中取不到的資訊-”真假網頁“

首先介紹一下我所理解的“真假網頁”，“真網頁”就是我們可以直接通過網址（URL），獲取這個“真網頁”上的任何內容。“假網頁”就是我們通過URL爬取網頁資訊時得到的結果為空，這一點相信大家在寫爬蟲程式時會經常遇到。比如我們想獲取一個網頁的資訊，利用requests的get方法對

python爬蟲解決趕集網掃碼獲取手機號

（1）正常的抓取頁面：不需要掃碼，需要點選檢視的但是沒有這個必要，我們仔細看html程式碼：發現裡面就已經包含了手機號碼；點選檢視手機號只是個擺設。（2）需要掃碼的一個頁面，網址

開啟II6伺服器 403禁止訪問訪問被拒絕您無權使用所提供的憑據檢視此目錄或頁面

403 - 禁止訪問: 訪問被拒絕。您無權使用所提供的憑據檢視此目錄或頁面。開啟網站的某個欄目，突然提示伺服器錯誤，403-禁止訪問：訪問被拒絕，這種情況，一般是由於伺服器上對網站的許可權設定，導致的無法訪問下邊我給大家介紹下在雲主機上的操作: 1.我們開啟 IIS

python 爬蟲禁止訪問解決方法（403）

在上一篇部落格中說到，程式使用一段時間後會遇到HTTP Error 403: Forbidden錯誤。因為在短時間內直接使用Get獲取大量資料，會被伺服器認為在對它進行攻擊，所以拒絕我們的請求，自動把電腦IP封了。解決這個問題有兩種方法。一是將請求加以包裝，變成瀏覽器請求

HTTP 錯誤 403.1 禁止訪問：禁止執行訪問解決方法

HTTP 403.1 禁止訪問：禁止可執行訪問Internet 資訊服務原因是執行許可權不夠，解決的方法是：開啟“管理工具”的“Internet 資訊服務”，右鍵選擇“WEB站點屬性”的“主目錄”選項卡，把“執行許可”的選項從“無”改為“純指令碼”就好了。

python爬蟲訪問https網站報錯解決方案ERROR:ssl_client_socket_impl.cc(1098)] handshake failed

報錯資訊： [3488:1356:0512/211222.342:ERROR:ssl_client_socket_impl.cc(1098)] handshake failed; returned -1, SSL error code 1, net_error -101 Chrome瀏覽器解決方

python爬蟲：從頁面下載圖片以及編譯錯誤解決。

#!/usr/bin/python import re import urllib def getHtml(url):page = urllib.urlopen(url)html = page.read()return html def getImage(html):reg

Python爬蟲 403解決辦法

寫爬蟲的時候先看看要爬的網頁的狀態碼 print urllib.urlopen(url).getcode() 200正常訪問 301重定向 404網頁不存在 403禁止訪問（禁止用一個User-Agent快速多次訪問） ** 403解決辦法 **

爬蟲出現403錯誤解決辦法

轉載自https://blog.csdn.net/jsqfengbao/article/details/44594985在python寫爬蟲的時候，html.getcode()會遇到403禁止訪問的問題，這是網站對自動化爬蟲的禁止，要解決這個問題，需要用到python的模組u

python——爬蟲&問題解決&思考（四）

參數多層得到簡單 odi 用兩個 src http 輸出　　繼續上一篇文章的內容，上一篇文章中已經將url管理器和下載器寫好了。接下來就是url解析器，總的來說這個模塊是幾個模塊中比較難的。因為通過下載器下載完頁面之後，我們雖然得到了頁面，但是這並不是我們想要的結果

針對windowsserver 創建iis站點訪問出錯的解決方案（HTTP 錯誤 500.19 - Internal Server Error）

intern strong 原因對話資源由於代碼技術分享 spa 錯誤如下：服務器錯誤 Internet信息服務 7.0 錯誤摘要HTTP 錯誤 500.19 - Internal Server Error 無法訪問請求的頁面，因為該頁的相關配置數

用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）

enc 用途 css選擇器狀態 csv文件表格 area 加密重要用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）在進行爬取前，首先要了解： 1、什麽是CSS選擇器？每一條css樣式定義由兩部分組成，形式如下： [code] 選擇器{樣式} [/code

python爬蟲解決403禁止訪問錯誤

相關推薦