1. 程式人生 > >Pyspider框架

Pyspider框架

如果 爬蟲 ml2 bsp group rap pytho ini ever

1,

2,在ubuntu安裝pyspider如果出現pycul的問題

首先執行命令:sudo apt-get install libssl-dev libcurl4-openssl-dev python-dev

然後執行:apt-get install libxml2-dev libxslt1-dev python-dev

異常:VauleError: Invalid configuration

解決方法:

pip uninstall wsgidav

pip install wsgidav==2.4.1

widows:

  phantomjs 解壓出phantomjs.exe 之後復制到python根目錄

Ubuntu:
  直接通過 sudo apt-get install phantomjs

requests庫

scrapy框架

pyspider框架  有界面的

刪除pyspider項目?

第一種:status 改成stop;group 改成 delete 24小時後刪除。

第二種:強制刪除,找到data目錄,直接刪除。

創建項目 create按鈕創建

DEBUG/RUNNING 狀態下爬蟲才能運行

調試頁面

方法:

on_start  入口方法  點擊run的時候默認會調用

crawl  生成一個新的爬取請求類似於scrapy.Request 接受的參數是url和回調函數

@every(minutes=24 * 60)告訴調度器 每天只需一次這個方法
@config(age=10 * 24 * 60 * 60)告訴調度器 這個請求過期時間是10天

 

def __init__(self):
"""
和數據庫建立連接 mongo mysql
"""
connection = pymongo.MongoClient(host=‘‘,post=27017)
client = connection[‘v2ex‘]
self.db = client[‘items‘]

on_result 默認會調用的存儲數據的方法 可以自己重寫

phantomjs 瀏覽器

phantomjs.exe放到python的根目錄下

Pyspider框架