1. 程式人生 > >scrapy的cmdline命令和其檔案寫入亂碼問題

scrapy的cmdline命令和其檔案寫入亂碼問題

啟動爬蟲的的cmdline命令和檔案下載編碼問題解決

1.啟動爬蟲的命令為: scrapy crawl spidername(爬蟲名)

2.我們還可以通過下述方式來啟動爬蟲

步驟一:建立一個.py檔案。startspider.py(這裡檔案的名稱可以自己給定)

#!/usr/bin/env python
# -*- coding: utf-8 -*-
from scrapy.cmdline import execute
# 方式一:注意execute的引數型別為一個列表
execute(['scrapy crawl spidername'.split())
# 方式二:注意execute的引數型別為一個列表,儲存檔案為(shujvtable.json) 
execute(['scrapy','crawl','lagouspider','-o','shujvtable.json'])

步驟二:通過python startspider.py來執行此檔案即可

scrapy 爬取資料儲存為本地JSON檔案 - 編碼問題

儲存 json 檔案 命令列啟動如下:

scrapy crawl 程式名 -o item.json

上面儲存的json檔案 中文內容 會是 二進位制字元,使用如下命名進行編碼:

scrapy crawl 程式名 -o item.json -sscrapy crawl 程式名 -o item.json -s FEED_EXPORT_ENCODING=UTF-8

也可以在settings.py 檔案中設定新增(推薦)

FEED_EXPORT_ENCODING = 'UTF8'