Python爬蟲之requests模塊(2)

阿新 • • 發佈：2019-03-11

env odi 發送名稱相關防止 tip htm useragent

一.今日內容

session處理cookie
proxies參數設置請求代理ip
基於線程池的數據爬取

二.回顧

xpath的解析流程
bs4的解析流程
常用xpath表達式
常用bs4解析方法

三.引入

有些時候，我們在使用爬蟲程序去爬取一些用戶相關信息的數據（爬取張三“人人網”個人主頁數據）時，如果使用之前requests模塊常規操作時，往往達不到我們想要的目的，例如：

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import requests
if __name__ == "__main__":

    #張三人人網個人信息頁面的url
    url = ‘http://www.renren.com/289676607/profile‘

   #偽裝UA
    headers={
        ‘User-Agent‘: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36‘,
    }
    #發送請求，獲取響應對象
    response = requests.get(url=url,headers=headers)
    #將響應內容寫入文件
    with open(‘./renren.html‘,‘w‘,encoding=‘utf-8‘) as fp:
        fp.write(response.text)

1.基於requests模塊的cookie操作

- 結果發現，寫入到文件中的數據，不是張三個人頁面的數據，而是人人網登陸的首頁面，why？首先我們來回顧下cookie的相關概念及作用：

　　- cookie概念：當用戶通過瀏覽器首次訪問一個域名時，訪問的web服務器會給客戶端發送數據，以保持web服務器與客戶端之間的狀態保持，這些數據就是cookie。

　　- cookie作用：我們在瀏覽器中，經常涉及到數據的交換，比如你登錄郵箱，登錄一個頁面。我們經常會在此時設置30天內記住我，或者自動登錄選項。那麽它們是怎麽記錄信息的呢，答案就是今天的主角cookie了，Cookie是由HTTP服務器設置的，保存在瀏覽器中，但HTTP協議是一種無狀態協議，在數據交換完畢後，服務器端和客戶端的鏈接就會關閉，每次交換數據都需要建立新的鏈接。就像我們去超市買東西，沒有積分卡的情況下，我們買完東西之後，超市沒有我們的任何消費信息，但我們辦了積分卡之後，超市就有了我們的消費信息。cookie就像是積分卡，可以保存積分，商品就是我們的信息，超市的系統就像服務器後臺，http協議就是交易的過程。

- 經過cookie的相關介紹，其實你已經知道了為什麽上述案例中爬取到的不是張三個人信息頁，而是登錄頁面。那應該如何抓取到張三的個人信息頁呢？

思路：

　　1.我們需要使用爬蟲程序對人人網的登錄時的請求進行一次抓取，獲取請求中的cookie數據

　　2.在使用個人信息頁的url進行請求時，該請求需要攜帶 1 中的cookie，只有攜帶了cookie後，服務器才可識別這次請求的用戶信息，方可響應回指定的用戶信息頁數據

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import requests
if __name__ == "__main__":

    #登錄請求的url（通過抓包工具獲取）
    post_url = ‘http://www.renren.com/ajaxLogin/login?1=1&uniqueTimestamp=201873958471‘
    #創建一個session對象，該對象會自動將請求中的cookie進行存儲和攜帶
    session = requests.session()
   #偽裝UA
    headers={
        ‘User-Agent‘: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36‘,
    }
    formdata = {
        ‘email‘: ‘17701256561‘,
        ‘icode‘: ‘‘,
        ‘origURL‘: ‘http://www.renren.com/home‘,
        ‘domain‘: ‘renren.com‘,
        ‘key_id‘: ‘1‘,
        ‘captcha_type‘: ‘web_login‘,
        ‘password‘: ‘7b456e6c3eb6615b2e122a2942ef3845da1f91e3de075179079a3b84952508e4‘,
        ‘rkey‘: ‘44fd96c219c593f3c9612360c80310a3‘,
        ‘f‘: ‘https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3Dm7m_NSUp5Ri_ZrK5eNIpn_dMs48UAcvT-N_kmysWgYW%26wd%3D%26eqid%3Dba95daf5000065ce000000035b120219‘,
    }
    #使用session發送請求，目的是為了將session保存該次請求中的cookie
    session.post(url=post_url,data=formdata,headers=headers)

    get_url = ‘http://www.renren.com/960481378/profile‘
    #再次使用session進行請求的發送，該次請求中已經攜帶了cookie
    response = session.get(url=get_url,headers=headers)
    #設置響應內容的編碼格式
    response.encoding = ‘utf-8‘
    #將響應內容寫入文件
    with open(‘./renren.html‘,‘w‘) as fp:
        fp.write(response.text)

2.基於requests模塊的代理操作

什麽是代理
- 代理就是第三方代替本體處理相關事務。例如：生活中的代理：代購，中介，微商......
爬蟲中為什麽需要使用代理
- 一些網站會有相應的反爬蟲措施，例如很多網站會檢測某一段時間某個IP的訪問次數，如果訪問頻率太快以至於看起來不像正常訪客，它可能就會會禁止這個IP的訪問。所以我們需要設置一些代理IP，每隔一段時間換一個代理IP，就算IP被禁止，依然可以換個IP繼續爬取。
代理的分類：
- 正向代理：代理客戶端獲取數據。正向代理是為了保護客戶端防止被追究責任。
- 反向代理：代理服務器提供數據。反向代理是為了保護服務器或負責負載均衡。
免費代理ip提供網站
- http://www.goubanjia.com/
- 西祠代理
- 快代理

代碼

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import requests
import random
if __name__ == "__main__":
    #不同瀏覽器的UA
    header_list = [
        # 遨遊
        {"user-agent": "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)"},
        # 火狐
        {"user-agent": "Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1"},
        # 谷歌
        {
            "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"}
    ]
    #不同的代理IP
    proxy_list = [
        {"http": "112.115.57.20:3128"},
        {‘http‘: ‘121.41.171.223:3128‘}
    ]
    #隨機獲取UA和代理IP
    header = random.choice(header_list)
    proxy = random.choice(proxy_list)

    url = ‘http://www.baidu.com/s?ie=UTF-8&wd=ip‘
    #參數3：設置代理
    response = requests.get(url=url,headers=header,proxies=proxy)
    response.encoding = ‘utf-8‘
    
    with open(‘daili.html‘, ‘wb‘) as fp:
        fp.write(response.content)
    #切換成原來的IP
    requests.get(url, proxies={"http": ""})

3.基於multiprocessing.dummy線程池的數據爬取

需求：爬取梨視頻的視頻信息，並計算其爬取數據的耗時

(1).普通爬取

%%time
import requests
import random
from lxml import etree
import re
from fake_useragent import UserAgent
#安裝fake-useragent庫:pip install fake-useragent
url = ‘http://www.pearvideo.com/category_1‘
#隨機產生UA,如果報錯則可以添加如下參數：
#ua = UserAgent(verify_ssl=False,use_cache_server=False).random
#禁用服務器緩存：
#ua = UserAgent(use_cache_server=False)
#不緩存數據：
#ua = UserAgent(cache=False)
#忽略ssl驗證：
#ua = UserAgent(verify_ssl=False)

ua = UserAgent().random
headers = {
    ‘User-Agent‘:ua
}
#獲取首頁頁面數據
page_text = requests.get(url=url,headers=headers).text
#對獲取的首頁頁面數據中的相關視頻詳情鏈接進行解析
tree = etree.HTML(page_text)
li_list = tree.xpath(‘//div[@id="listvideoList"]/ul/li‘)
detail_urls = []
for li in li_list:
    detail_url = ‘http://www.pearvideo.com/‘+li.xpath(‘./div/a/@href‘)[0]
    title = li.xpath(‘.//div[@class="vervideo-title"]/text()‘)[0]
    detail_urls.append(detail_url)
for url in detail_urls:
    page_text = requests.get(url=url,headers=headers).text
    vedio_url = re.findall(‘srcUrl="(.*?)"‘,page_text,re.S)[0]
    
    data = requests.get(url=vedio_url,headers=headers).content
    fileName = str(random.randint(1,10000))+‘.mp4‘ #隨機生成視頻文件名稱
    with open(fileName,‘wb‘) as fp:
        fp.write(data)
        print(fileName+‘ is over‘)

(2).基於線程池的爬取

%%time
import requests
import random
from lxml import etree
import re
from fake_useragent import UserAgent
#安裝fake-useragent庫:pip install fake-useragent
#導入線程池模塊
from multiprocessing.dummy import Pool
#實例化線程池對象
pool = Pool()
url = ‘http://www.pearvideo.com/category_1‘
#隨機產生UA
ua = UserAgent().random
headers = {
    ‘User-Agent‘:ua
}
#獲取首頁頁面數據
page_text = requests.get(url=url,headers=headers).text
#對獲取的首頁頁面數據中的相關視頻詳情鏈接進行解析
tree = etree.HTML(page_text)
li_list = tree.xpath(‘//div[@id="listvideoList"]/ul/li‘)

detail_urls = []#存儲二級頁面的url
for li in li_list:
    detail_url = ‘http://www.pearvideo.com/‘+li.xpath(‘./div/a/@href‘)[0]
    title = li.xpath(‘.//div[@class="vervideo-title"]/text()‘)[0]
    detail_urls.append(detail_url)
    
vedio_urls = []#存儲視頻的url
for url in detail_urls:
    page_text = requests.get(url=url,headers=headers).text
    vedio_url = re.findall(‘srcUrl="(.*?)"‘,page_text,re.S)[0]
    vedio_urls.append(vedio_url) 
#使用線程池進行視頻數據下載    
func_request = lambda link:requests.get(url=link,headers=headers).content
video_data_list = pool.map(func_request,vedio_urls)
#使用線程池進行視頻數據保存
func_saveData = lambda data:save(data)
pool.map(func_saveData,video_data_list)
def save(data):
    fileName = str(random.randint(1,10000))+‘.mp4‘
    with open(fileName,‘wb‘) as fp:
        fp.write(data)
        print(fileName+‘已存儲‘)
        
pool.close()
pool.join()

Python爬蟲之requests模塊(2)

env odi 發送名稱相關防止 tip htm useragent 一.今日內容 session處理cookie proxies參數設置請求代理ip 基於線程池的數據爬取二.回顧 xpath的解析流程 bs4的解析流程常用xpath表達

Python爬蟲之requests模塊(2)

一.今日內容

二.回顧

三.引入

1.基於requests模塊的cookie操作

2.基於requests模塊的代理操作

3.基於multiprocessing.dummy線程池的數據爬取

(1).普通爬取

(2).基於線程池的爬取

Python爬蟲之requests模塊(2)

python爬蟲之requests模塊

Python爬蟲之requests模塊(1)

python網絡爬蟲之requests模塊

python3 爬蟲之requests模塊使用總結

爬蟲之requests模塊

python爬蟲值requests模塊

網絡爬蟲之requests模塊

python之requests模塊中的params和data的區別

python之requests模塊

python筆記之psutil模塊

Python基礎之常用模塊（三）

Python開發基礎 day12 模塊2

Python實戰之SocketServer模塊

python ssh之paramiko模塊使用

python學習之sys模塊

python學習之io模塊

python學習之argparse模塊

python學習之platform模塊

python學習之argparse模塊的使用

Python爬蟲之requests模塊(2)

一.今日內容

二.回顧

三.引入

1.基於requests模塊的cookie操作

2.基於requests模塊的代理操作

3.基於multiprocessing.dummy線程池的數據爬取

(1).普通爬取

(2).基於線程池的爬取

相關推薦