Scrapy+Splash爬取京東python書本資訊（遇到的問題記錄）

阿新 • • 發佈：2018-12-17

今天用splash進行京東的圖書的爬蟲。有了以下幾點的錯誤總結:

（1）按照參考書上的方式，寫好lua_script檔案。但是自己在lua_script檔案後面加了幾個中文註釋，結果執行時一直出錯，後來意識到了問題，將這些中文註釋給刪除了，這時候才沒有提示剛剛出現的錯誤。

（2）後來在執行lua_script檔案總是提示我的javascript檔案出錯，一直百思不得其解。其實自己剛開始按照書上的提示在網路監聽中輸入同樣的jQuery語言時，也會出現提示的錯誤，這個問題我沒有解決。後來在程式的執行中，不知道是不是因為網路的緣故，再次在網路監聽的Console中輸入同樣的jQuery語言時，已經不提示任何的錯誤資訊了。我在jQuery中執行的語句是：document.getElementsByClassName('page')[0].scrollIntoView(true)

這句話的目的是，將頁面下拉到後面，因為是爬取京東的書籍，而書籍是通過下拉的方式加載出後半部分的，所以通過執行該語句加載出全部的書籍。剛開始出現的錯誤，在後面執行該語句時又沒有問題了，而且執行python程式碼也能夠將書本的基本資訊爬取下來，具體是什麼問題我也不知道，可能真的是網路的奧祕吧。

（3）後面在爬取的過程中也有問題存在，主要的問題還是，使用下拉方式觸發資料的載入有時會失敗，即有時候通過lua_script程式碼中的執行載入不能成功。這個問題暫時還不知道是什麼願意，難道又是因為網路的問題？？？，希望有誰能告訴我啊。。。。

（4）在儲存資料時，發現了資料不是按照網頁上的順序進行儲存的，而是亂序儲存的，這個問題我上網查找了相關的答案，有解釋比較通的就是因為scrapy是多執行緒爬蟲，所以爬下來一般都是亂的。可以在爬取後，單獨對json檔案裡的資料重新排序的。

（5）最後總結：任重而道遠啊，一步步踏實的走下去，遇到問題真的是很痛苦，但是解決問題也會很開心。其中還有很多很多未知的問題等著自己去發掘。菜鳥記錄，大神看到了如果略知一二，不吝賜教。

Scrapy+Splash爬取京東python書本資訊（遇到的問題記錄）

Scrapy+Splash爬取京東python書本資訊（遇到的問題記錄）

使用scrapy框架,用模擬瀏覽器的方法爬取京東上面膜資訊,並存入mysql,sqlite,mongodb資料庫

Python資料爬蟲學習筆記（21）爬取京東商品JSON資訊並解析

python簡單爬蟲多執行緒爬取京東淘寶資訊教程

python scrapy框架爬取知乎提問資訊

Python的網路爬蟲小系統——爬取京東商城商品資訊

利用Eclipse-Python簡單爬取京東商城書籍資訊進行視覺化

Scrapy ：爬取培訓網站講師資訊

scrapy利用scrapy-splash爬取JS動態生成的標籤

分散式scrapy+redis 爬取房天下租房資訊

python爬蟲爬取非同步載入網頁資訊（python抓取網頁中無法通過網頁標籤屬性抓取的內容）

c# 爬蟲爬取京東所有商品資訊

【Python】【爬蟲】爬取京東商品使用者評論（分析+視覺化）

Scrapy-Splash爬取淘寶排行榜（三）

利用scrapy-splash爬取JS生成的動態頁面

scrapy實戰爬取電影天堂相關資訊

scrapy框架爬取京東商城商品的評論

python爬蟲-使用多程序爬取美圖-人工智慧語言（高效爬蟲）

python爬蟲爬取百度貼吧（入門練習）

scrapy爬取京東商城某一類商品的資訊和評論（二）

Scrapy+Splash爬取京東python書本資訊（遇到的問題記錄）

相關推薦