關於在python中scrapy模組的scrapy shell中通過xpath無法查詢到相應的元素的問題

阿新 • • 發佈：2020-10-19

前言

某天打算使用scrapy shell爬取prts上資訊的時候複製了元素的xpath卻在scrapy shell中無法查詢到相應的結果，得到的結果是一個空列表，如圖：
cmdline中顯示的結果
但是在某些網站的某些元素卻是可以成功查詢到有效的結果，比如說百度網站的“百度一下”按鈕
“百度一下”按鈕的查詢結果

正文

在網上搜索結果後主要有兩種觀點，第一種是Chrome的複製xpath會自動新增<tbody>標籤，即使原始碼上不存在這個標籤，這樣自然無法查詢到正確有效的結果，但是我爬取的prts的元素恰好有<tbody>標籤，所以不是這個原因。
第二種是某些網頁的原始碼會使用Javascript，這時使用python引擎的scrapy shell就無法識別了（大概？

附上在StackOverflow上大佬的回答：

You browser renders Javascript code and this leads to change in HTML code. So, in this case, you need to use a Javascript engine for requests in Scrapy. Please look at scrapy-splash to render JS and get same results as in browser.

Google翻譯結果：
您的瀏覽器呈現Javascript程式碼，這會導致HTML程式碼的更改。因此，在這種情況下，您需要對Scrapy中的請求使用Javascript引擎。請檢視scrapy-splash以呈現JS並獲得與瀏覽器相同的結果。

我想我的問題大概是這個原因，這時候使用JavaScript來作為引擎來處理請求大概可以解決問題了？
以上為個人的總結筆記，如果有錯誤還請大佬指教ww

參考資料網站：
https://blog.csdn.net/dta0502/article/details/82118524
https://stackoverflow.com/questions/56968124/xpath-on-browser-and-response-are-different

關於在python中scrapy模組的scrapy shell中通過xpath無法查詢到相應的元素的問題

前言

正文

關於在python中scrapy模組的scrapy shell中通過xpath無法查詢到相應的元素的問題

python 3.7.5 Scrapy 架構中的代理IP和隨機User-Agent 配置

Python中pymysql 模組的使用詳解

在python shell中執行python檔案的實現

Python中six模組基礎用法

python中通過selenium簡單操作及元素定位知識點總結

詳解python中的模組及包匯入

python中struct模組之位元組型資料的處理方法

對python中 math模組下 atan 和 atan2的區別詳解

Python中實現輸入超時及如何通過變數獲取變數名

Python使用urllib模組對URL網址中的中文編碼與解碼例項詳解

Python中sys模組功能與用法例項詳解

Python中os模組功能與用法詳解

Python IDLE或shell中切換路徑的操作

淺談Python中os模組及shutil模組的常規操作

scrapy爬蟲:scrapy.FormRequest中formdata引數詳解

python中wx模組的具體使用方法

python中Ansible模組的Playbook的具體使用

淺談Python中的模組

13 Python 中的模組

關於在python中scrapy模組的scrapy shell中通過xpath無法查詢到相應的元素的問題

前言

正文

相關推薦