scrapy框架--新建調試的main.py文件
阿新 • • 發佈:2018-08-18
調試 path 們的 pyc scrapy 路徑 roo pychar 網站
一.原因:
由於pycharm中沒有scrapy的一個模板,所有沒辦法直接在scrapy文件中調試,所有我們需要寫一個自己的main.py文件,在文件裏面調用命令行,來實現scrapy的一個調試。(在scrapy中可以調試,可以讓我們的開發效率高)
二.註意點:
字爬蟲文件中設置斷點,但是需要在自己寫的main.py文件中用debug進行調試,然後返回到爬蟲文件觀看調試結果即可。
三.編寫main.py文件:
from scrapy.cmdline import execute #調用此函數可以執行scrapy的腳本
import sys
import os
# 用來設置工程目錄,有了它才可以讓命令行生效
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
#os.path.abspath(__file__) 用來獲取當前py文件的路徑
#os.path.dirname() 用來獲取文件的父親的路徑
#調用execute()函數執行scarpy的命令 scary crawl 爬蟲文件名字
execute([‘scarpy‘,‘crawl‘,‘jobbole‘])
我們可以看一下scarpy命令行 :scarpy crawl 爬蟲文件名字 (下圖截取了部分運行之後的代碼)
四.修改setting,py問價中的一個參數:因為scrapy默認會讀取每個網站的root協議,會把不符合root協議的url過濾掉,所有我們需要設置scrapy不需要遵守root協議。
scrapy框架--新建調試的main.py文件