爬蟲通過URL請求403錯誤

阿新 • • 發佈：2019-01-02

之前獲取網站資料，本來是已經完成了，今天一試發現包403了。整理了一天

先說主要程式碼

import urllib.request

# Cookie = "rxVisitor=15186102248518I5BJAVPSPA24S0U5I8RB59VE82158HN; CmLocation=100|100; CmProvid=bj; WT_FPC=id=2a5a17bd31f889e7e761499577321364:lv=1528894831117:ss=1528894326945; saplb_*=(J2EE204290020)204290050"

url = "########"

headers = {
    'User-agent' 
: 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36',
    # 'Cookie': Cookie,
    'Connection': 'keep-alive',
    'Accept': '*/*',
    # 'Accept-Encoding': 'gzip, deflate, br',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Host': '######',
    'Referer' 
: '#########'
}

data={"page.currentPage":"2","page.perPageSize":"20"}
data = urllib.parse.urlencode(data) 
data = data.encode('utf-8')  
req = urllib.request.Request(url,headers=headers,data=data)
response = urllib.request.urlopen(req)
the_page = response.read()
print(the_page.decode("utf8"))

問題1：

按照網上要求添加了headers，也傳了引數，執行是還是403。

最後發現需要對data經行轉碼，編譯

data = urllib.parse.urlencode(data) #首先對data進行轉碼，轉化成str型別
data = data.encode(‘utf-8’) #post請求只支援byte型別，所以要進行再次編碼

通過除錯可以看到，網路請求是POST
這裡寫圖片描述

post引數
這裡寫圖片描述

問題1，白天一直沒解決，於是想通過Selenium模擬瀏覽器方式解決，但是一直卡在翻頁上面，初步判斷是頁面內ajax分頁，需要重新載入頁面元素
有一個By Actions方式

WebElement element = driver.findElement(By("element_path"));
Actions actions = new Actions(driver);
actions.moveToElement(element).click().perform();

問題2：

執行的時候結果報錯：UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0x8b in position 1: invalid start byte

上網查詢，是因為表頭中有一條：
“’Accept-Encoding’: ‘gzip, deflate, br’”
意思就是gzip需要解壓，瀏覽器可以完成，本地解析就不可以，所以直接註釋掉。
（參考：https://blog.csdn.net/Hudeyu777/article/details/76023441）

問題3：

網站不需要登陸，於是直接把Cookie也註釋掉

爬蟲通過URL請求403錯誤

之前獲取網站資料，本來是已經完成了，今天一試發現包403了。整理了一天先說主要程式碼 import urllib.request # Cookie = "rxVisitor=15186102248518I5BJAVPSPA24S0U5I8RB59VE

django post請求 403錯誤解決方法

get django tag test http 原因 sof 配置 logs --摘　　第一次用Django做項目，遇到了很多問題。　　今天遇到的問題是Django在處理post請求時多次出現403錯誤。　　我先描述一下問題出現的環境：我用Django寫了一個web

django post請求 403錯誤解決方法 django post請求 403錯誤解決方法

django post請求 403錯誤解決方法 --摘　　第一次用Django做專案，遇到了很多問題。　　今天遇到的問題是Django在處理post請求時多次出現403錯誤。　　我先描述一下問題出現的環境：我用Django寫了一個web服務端，姑且

Laravel 通過Url確定返回錯誤資訊格式阿星小棧

路徑：專案/app/Exceptions/Handler.php public function render($request, Exception $exception) { if(!empty($exception)){ $url = URL

C#通過Url請求路徑獲取返回的json資料

/// <summary> /// 載入Http請求 /// </summary> /// <param name="Url"></param> /// <returns>

Laravel 通過Url確定返回錯誤資訊格式阿星小棧

public function render($request, Exception $exception) { if(!empty($exception)){ $url = URL::current(); $urlData =

Spring MVC Post請求返回403錯誤，Get請求卻正常？

【轉載自：https://blog.csdn.net/t894690230/article/details/52404105 】原因分析：如果在專案中加入了 Spring Security 做安全控制，那麼 CSRF 保護預設是開啟的，那麼在 POST 方式提交表單的時候就必須驗證 T

爬蟲出現403錯誤解決辦法

轉載自https://blog.csdn.net/jsqfengbao/article/details/44594985在python寫爬蟲的時候，html.getcode()會遇到403禁止訪問的問題，這是網站對自動化爬蟲的禁止，要解決這個問題，需要用到python的模組u

Scrapy: 爬蟲返回403錯誤

問題抓取資料時，通常除錯資訊是：DEBUG: Crawled (200) <GET http://www.techbrood.com/> (referer: None)如果出現DEBUG: Crawled (403) <GET http://www.tech

Jquery通過jsonp請求方式判斷URL是否有效(URL有效性檢測)

<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>URL有效性檢測</title> <script src="js

遇到前端資料互動post請求，後臺返回403錯誤。

今天莫名奇妙就遇到過一次，資料互動post請求，後臺返回403錯誤。首先我在web.xml檢查了下過濾器，發現沒有問題，然後檢查了java方法上的對映url 也沒有問題，但是前端的兄弟訪問我後臺的時候報403，百思不得其解。折騰了半天，後來我用postMan這個工具

[大型網站優化技術] -- 減少HTTP請求之將圖片轉成二進位制並生成Base64編碼,可以在網頁中通過url檢視圖片

1 <?php 2 $pathinfo = pathinfo($_SERVER['SCRIPT_FILENAME']); 3 define('ROOT', $pathinfo['dirname']); 4 5 function generateIcon_

使用cors解決跨域，ionic打包到android手機上發post請求報403錯誤

如題，百度了一圈也沒有找到答案，最後翻了個牆，最終找到了外國友人的答案： My backend is using Tomcat, one of the tomcat filters is designed for handle CORS request, it named

SpringMVC啟動tomcat時URL請求不會進入Controller,導致404錯誤

先貼出測試類的整體結構: 目的很明顯：在dispatcher-servlet.xml中設定註解方式，通過註解讓url請求進入不同的頁面. 例如要訪問WEB-INF/page/second.jsp．在啟動tomcat後（主頁正常），url處輸出請求

通過URL的方式請求WebService服務

1.建立服務端package com.test;import javax.jws.WebMethod;import javax.jws.WebService;import javax.xml.ws.Endpoint;@WebServicepublic class WebTes

Python爬蟲基礎(一)--簡單的url請求

#encoding:UTF-8 import urllib import urllib.request # data是一個字典，然後通過urllib.parse.urlencode()將data轉換為

通過URL參數請求不同的後端服務器

配置 ade pro lua _for temp lse 如果 fault 內網通過K8S搭建多個分支測試環境，可是如果外網需要訪問而且域名都是一致的情況下，這個時候變得麻煩了。如何通過不同的請求參數訪問不同的後端環境呢，答案是可以的，通過lua可以達到。入口: http

Scrapy shell調試返回403錯誤

ack shell env lac set pre div col attr (1):第一種方法是在命令上加上-s USER_AGENT=‘Mozilla/5.0‘ (2):第二種方法是修改scrapy的user-agent默認值找到Python的:安裝目錄下的defau

c#獲取url請求的返回值

web c# new mar string htm http class dto /// <summary> /// 獲取url的返回值 /// </summary> /// <param name="url">eg:htt

ssh項目訪問路徑及url請求書寫

host 找不到 mes 進行方式 html 必須路徑和註意在ssh項目中配置好Struts後，一般可以采用兩種方式進行後臺請求： 1、html形式，包括a標簽，form表單，ajax等。此時的訪問鏈接必須寫全路徑，可以是相對路徑，也可以是絕對路徑　　相對路徑方式

爬蟲通過URL請求403錯誤

問題1：

問題2：

問題3：

相關推薦