1. 程式人生 > >用scrapy建立爬蟲專案

用scrapy建立爬蟲專案

建立專案和爬蟲:
1.建立專案:`scrapy startproject [爬蟲的名字]`
2.建立爬蟲:進入到專案所在的路徑,執行命令:`scrapy genspider [爬蟲名字] [爬蟲的域名]注意:爬蟲名字不能和專案名稱一致

專案目錄結構:
1. Items.py:用來存放爬蟲爬取下來資料的模型.
2. middlewares.py:用來存放各種中介軟體的檔案。

3. pipelines.py用來將 items的模型儲存到本地磁碟中
4. settings.py:本爬蟲的一些配置資訊(比如請求頭、多久傳送一次請求、ip代理池等
5. scrap.cfg;目的配置檔案
6. spiders包:以後所有的度蟲,部是存放到這個裡面

 

 JsonItemExporter JsonLinesItemExporter
儲存json資料的時候,可以使用這兩個類,讓操作變得得更簡單。
1.`sonItemExporter`:這個是每次把資料新增到記憶體中。最後統一寫入到磁碟中。好處是,儲存的資料是一個滿足json規則的資料。壞處是如果資料量比較大,那麼比較耗記憶體
2. jsonLinesItemExporter:這個是每次呼叫 export_item的時候就把這個item儲存到硬碟中。壞處是每一個字典是一行,整個檔案不是一個滿足json格式的檔案。好處是每次處理資料的時候就直接儲存到了硬碟中,這樣不會耗記憶體,資料也比較安全。