scrapy 爬蟲的時候遇到的轉碼問題

阿新 • • 發佈：2020-10-28

問題描述

'gbk' codec can't decode byte 0x80 in position 10: incomplete multibyte sequence
json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)

解決過程

編寫scrapy的時候，在解碼response.body的時候一直出錯
最開始是這樣寫的

def parse(self, response):
    js = json.loads(response.body.decode('gbk'))

出現了這樣的錯誤

'gbk' codec can't decode byte 0x80 in position 10: incomplete multibyte sequence

然後我把decode方式改了一下

def parse(self, response):
    js = json.loads(response.body.decode('gbk', 'ignore'))

結果出現了這樣的錯誤

json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)

打印出response的編碼方式，結果是gb18030

print(response.encoding)  # gb18030

然後修改瞭解碼方式：

def parse(self, response):
    js = json.loads(response.body.decode(response.encoding, 'ignore'))

還是不對，依然出現上面第二個錯誤
最後回憶了一下以前為什麼能拿到資料，突然拿不到了，然後突然亂碼了，發現是自己加了請求頭的部分內容

headers = {
    'Accept': '*/*',
    'Accept-Encoding': 'gzip, deflate, br',
    'Accept-Language': 'en-US,en;q=0.5',
    'Connection': 'keep-alive',
    'Host': 'club.jd.com',
    'Referer': 'https://item.jd.com/%s.html' % self.product_id,
    'User-Agent': random.choice(self.USER_AGENTS),
},

總結

本來是隻用了user-agent的，但是後來某東把根據referer限制了資料(返回狀態碼200但是body是空的)，就加上了上面的一些引數。最後只保留了Host Referer User-Agent三個引數。我認為就是上面三個Accept.*這幾個引數的問題。具體什麼問題呢，多半是因為伺服器反爬措施吧，沒有再深入研究了，能跑起來就行了。

scrapy 爬蟲的時候遇到的轉碼問題

問題描述 \'gbk\' codec can\'t decode byte 0x80 in position 10: incomplete multibyte sequence json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)

python爬蟲中或者字串中或者js檔案中遇到“\x”的解決方法，轉碼方法

技術標籤：python爬蟲python爬蟲字串亂碼最近在做Python爬蟲時，遇到這麼一個問題，在抓取的js檔案中會有如下的字串：

python3 Scrapy爬蟲框架ip代理配置的方法

什麼是Scrapy？　　Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架，非常出名，非常強悍。所謂的框架就是一個已經被集成了各種功能（高效能非同步下載，佇列，分散式，解析，持久化等）的具有很強

Python字元編碼轉碼之GBK,UTF8互轉

一、Python字元編碼介紹 1、須知：在python 2中預設編碼是 ASCII，而在python 3中預設編碼是 unicode

如何通過JS實現轉碼與解碼

這篇文章主要介紹瞭如何通過JS實現轉碼與解碼,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

java使用ffmpeg實現上傳視訊的轉碼提取視訊的截圖等功能(程式碼操作)

ffmpeg視訊採集功能非常強大，不僅可以採集視訊採集卡或USB攝像頭的影象，還可以進行螢幕錄製，同時還支援以RTP方式將視訊流傳送給支援RTSP的流媒體伺服器，支援直播應用。ffmpeg能解析的格式和不能解析的格式都一一

scrapy爬蟲:scrapy.FormRequest中formdata引數詳解

1. 背景在網頁爬取的時候，有時候會使用scrapy.FormRequest向目標網站提交資料（表單提交）。參照scrapy官方文件的標準寫法是：

Jmeter中unicode轉碼問題處理

介面中返回的報文，有些是unicode形式的，如下圖，不方面寫斷言或者做正則表示式提取，這時候就需要將unicode編碼轉義成中文。

Scrapyd 在centos下線上部署Scrapy爬蟲

什麼是scrapyd scrapyed = scrapy + deploying 把scrapy程式釋出到線上的一套python服務步驟

<scrapy爬蟲>Spiders的用法

1、能夠建立scrapy專案、編寫個簡單的蜘蛛並執行蜘蛛；2、能夠簡單的使用scrapy shell 除錯資料；3、能夠使用scrapy css選擇器提取簡單資料；4、除了能夠提取一頁資料，還要能提取下一頁、在下一頁。

python cv2獲取視訊第一幀，並轉碼

安裝Python庫sudo pip install opencv-python 或者sudo pip install opencv-python -i https://pypi.douban.com/simple/

接著上一篇，既然環境搭建好了，那我們就開始落盤爬蟲===第一個scrapy爬蟲

1.爬蟲專案廠建立成功後大致的目錄結構如下: commands：大家可以暫時不給予考慮，這是在一個scrapy框架中啟動多個爬蟲的解決方案，大家有需要請關注本部落格的動態

jmeter之處理返回結果Unicode轉碼為中文

1、問題舉例下圖是介面返回的結果，為Unicode 2、解決操作步驟：在http請求下新增BeanshellPostProcessor[後置處理器]（如下圖），並加入程式碼：

爬蟲之打碼平臺（驗證碼破解）

# 1 驗證碼破解影象處理 # 2 專業打碼平臺，破解驗證碼（收費） # 申請超級鷹，註冊

在vue中使用Base64轉碼的案例

在vue專案中有時會使用到Base6464轉碼，現將自己使用的一種方法記錄，以供參考

es6轉碼和package.json中的配置

線上實時轉換需要babel-register .babelrc中： { "presets": [ "es2015" ] } 專案中main.js配置：

JavaFX桌面應用-視訊轉碼工具（支援愛奇藝qsv轉mp4）

最近由於需要將在愛奇藝下載的視訊(qsv)轉化了mp4，用JavaFX開發一個視訊轉碼工具，算是JavaFX開發的第一個應用吧。

scrapy爬蟲專案(1)：scrapy基本使用

之前在寫爬蟲時，都是自己寫整個爬取過程，例如向目標網站發起請求、解析網站、提取資料、下載資料等，需要自己定義這些實現方法等

Python 中的字串處理詳解（原始字串、分割、轉碼等）

字串 Python 中沒有單獨的字元型別，字串屬於不可變型別： >>> str = \'abc\'

爬蟲遇到驗證碼？Python實戰講解彈窗處理和驗證碼識別！

前言在我們寫爬蟲的過程中，目標網站常見的干擾手段就是設定驗證碼等，本就將基於Selenium實戰講解如何處理彈窗和驗證碼，爬取的目標網站為某儀器預約平臺