1. 程式人生 > >Eclipse配置scrapy工程

Eclipse配置scrapy工程

最近畢業設計選的是python網路爬蟲,python現成的爬蟲模組有很多,scrapy,bs4等等,但是我參考的教科書上面說scrapy參考文獻較多,也比較簡單,便決定用這個模組來做爬蟲。書中的工程是用linux終端來做爬蟲,但是本人linux小白,而且更加傾向於用windows平臺下的Eclipse來新建專案,所以只能自己慢慢摸索著在Eclipse中配置scrapy專案。

1.因為Eclipse中暫不支援直接建立scrapy專案,所以我們要用cmd命令列來新建一個scrapy專案


可以看到,用scrapy startproject +專案名這條命令建立完一個初始的scrapy專案(此時該專案只是一個scrapy模板,並不含爬蟲檔案)後scrapy模組很貼心的給出了提示,我們可以通過cd Scrapy和 scrapy genspider example example.com這兩條命令在已有的scrapy模板下新建爬蟲檔案(一開始專案中有個spiders資料夾,其中該資料夾一開始的時候只有__init__.py這個檔案,執行命令後出現了example.py這個檔案,其中example.com是用來給該檔案中的根URL初始化)。

2.在Eclipse中新建一個pydev專案,並將我們用cmd建立的scrapy專案複製到pydev專案中。這時,專案是無法執行的,因為eclispe是不知道從哪啟動scrapy專案的 ,我們需要新建一個cmdline.py檔案(跟items.py同目錄)

其中argv中的第三個變數是自己的爬蟲名,即第一步中scrapy genspider example example.com中的example。

3.配置run Configurations.

在python run中新建configuration,其中project中填專案名,Main Module填cmdline.py位置,arguments中的program arguments填 crawl example(前面提到的自己建立的爬蟲名),working directory中選other,位置為專案資料夾位置


如果這時候提醒沒有pypiwin32,通過pip install pypiwin32安裝pypiwin32。

最後,出現如下資訊,大功告成