1. 程式人生 > >python爬蟲常用的庫

python爬蟲常用的庫

request redis數據庫 com sql數據庫 data mysql數據庫 file bsp imp

1,請求:requests

  requests.get(url, headers)

  requests.post(url, data=data, files=files)

  urllib模塊:

  Python2

  import urllib2

  response = urllib2.urlopen(‘http://www.baidu.com‘);

  Python3

  import urllib.request

  response =urllib.request.urlopen(‘http://www.baidu.com‘);

2,解析:

  lxml (解析網頁)

  from lxml import etree

  # 獲取請求網頁數據

  html = etree.HTML(text)

3,存儲:

  mongodb數據庫

  mysql數據庫

  redis數據庫

4,工具:

  selenium自動化工具

5,框架:

  scrapy和scrapy-redis

python爬蟲常用的庫