1. 程式人生 > >scrapy框架--新建調試的main.py文件

scrapy框架--新建調試的main.py文件

調試 path 們的 pyc scrapy 路徑 roo pychar 網站

一.原因:

  由於pycharm中沒有scrapy的一個模板,所有沒辦法直接在scrapy文件中調試,所有我們需要寫一個自己的main.py文件,在文件裏面調用命令行,來實現scrapy的一個調試。(在scrapy中可以調試,可以讓我們的開發效率高)

二.註意點:

  字爬蟲文件中設置斷點,但是需要在自己寫的main.py文件中用debug進行調試,然後返回到爬蟲文件觀看調試結果即可。

三.編寫main.py文件:

from scrapy.cmdline import execute   #調用此函數可以執行scrapy的腳本

import sys
import os

# 用來設置工程目錄,有了它才可以讓命令行生效
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
#os.path.abspath(__file__) 用來獲取當前py文件的路徑 #os.path.dirname() 用來獲取文件的父親的路徑 #調用execute()函數執行scarpy的命令 scary crawl 爬蟲文件名字 execute([‘scarpy‘,‘crawl‘,‘jobbole‘])

  我們可以看一下scarpy命令行 :scarpy crawl 爬蟲文件名字 (下圖截取了部分運行之後的代碼)

  技術分享圖片

四.修改setting,py問價中的一個參數:因為scrapy默認會讀取每個網站的root協議,會把不符合root協議的url過濾掉,所有我們需要設置scrapy不需要遵守root協議。

  技術分享圖片

  

  


scrapy框架--新建調試的main.py文件