scrapy的cmdline命令和其檔案寫入亂碼問題
阿新 • • 發佈:2019-01-01
啟動爬蟲的的cmdline命令和檔案下載編碼問題解決
1.啟動爬蟲的命令為: scrapy crawl spidername(爬蟲名)
2.我們還可以通過下述方式來啟動爬蟲
步驟一:建立一個.py檔案。startspider.py(這裡檔案的名稱可以自己給定)
#!/usr/bin/env python # -*- coding: utf-8 -*- from scrapy.cmdline import execute # 方式一:注意execute的引數型別為一個列表 execute(['scrapy crawl spidername'.split()) # 方式二:注意execute的引數型別為一個列表,儲存檔案為(shujvtable.json) execute(['scrapy','crawl','lagouspider','-o','shujvtable.json'])
步驟二:通過python startspider.py來執行此檔案即可
scrapy 爬取資料儲存為本地JSON檔案 - 編碼問題
儲存 json 檔案 命令列啟動如下:
scrapy crawl 程式名 -o item.json
上面儲存的json檔案 中文內容 會是 二進位制字元,使用如下命名進行編碼:
scrapy crawl 程式名 -o item.json -sscrapy crawl 程式名 -o item.json -s FEED_EXPORT_ENCODING=UTF-8
也可以在settings.py 檔案中設定新增(推薦)
FEED_EXPORT_ENCODING = 'UTF8'