Pyspider框架
1,
2,在ubuntu安裝pyspider如果出現pycul的問題
首先執行命令:sudo apt-get install libssl-dev libcurl4-openssl-dev python-dev
然後執行:apt-get install libxml2-dev libxslt1-dev python-dev
異常:VauleError: Invalid configuration
解決方法:
pip uninstall wsgidav
pip install wsgidav==2.4.1
widows:
phantomjs 解壓出phantomjs.exe 之後復制到python根目錄
Ubuntu:
直接通過 sudo apt-get install phantomjs
requests庫
scrapy框架
pyspider框架 有界面的
刪除pyspider項目?
第一種:status 改成stop;group 改成 delete 24小時後刪除。
第二種:強制刪除,找到data目錄,直接刪除。
創建項目 create按鈕創建
DEBUG/RUNNING 狀態下爬蟲才能運行
調試頁面
方法:
on_start 入口方法 點擊run的時候默認會調用
crawl 生成一個新的爬取請求類似於scrapy.Request 接受的參數是url和回調函數
@every(minutes=24 * 60)告訴調度器 每天只需一次這個方法
@config(age=10 * 24 * 60 * 60)告訴調度器 這個請求過期時間是10天
def __init__(self):
"""
和數據庫建立連接 mongo mysql
"""
connection = pymongo.MongoClient(host=‘‘,post=27017)
client = connection[‘v2ex‘]
self.db = client[‘items‘]
on_result 默認會調用的存儲數據的方法 可以自己重寫
phantomjs 瀏覽器
phantomjs.exe放到python的根目錄下
Pyspider框架