Python爬蟲之requests模塊(1)

阿新 • • 發佈：2019-03-11

字典 win64 login 綜合 NPU apply 如果 .... email

一.引入

Requests 唯一的一個非轉基因的 Python HTTP 庫，人類可以安全享用。

警告：非專業使用其他 HTTP 庫會導致危險的副作用，包括：安全缺陷癥、冗余代碼癥、重新發明輪子癥、啃文檔癥、抑郁、頭疼、甚至死亡。

1.概要

基於requests的get請求
基於requests模塊的post請求
基於requests模塊ajax的get請求
基於requests模塊ajax的post請求
綜合項目練習：爬取國家藥品監督管理總局中基於中華人民共和國化妝品生產許可證相關數據

2.回顧

常見的請求頭
常見的相應頭
https協議的加密方式

二.開始正題

1.基於如下5點展開requests模塊的學習

什麽是requests模塊
- requests模塊是python中原生的基於網絡請求的模塊，其主要作用是用來模擬瀏覽器發起請求。功能強大，用法簡潔高效。在爬蟲領域中占據著半壁江山的地位。
為什麽要使用requests模塊
- 因為在使用urllib模塊的時候，會有諸多不便之處，總結如下：
  - 手動處理url編碼
  - 手動處理post請求參數
  - 處理cookie和代理操作繁瑣
  - ......
- 使用requests模塊：
  - 自動處理url編碼
  - 自動處理post請求參數
  - 簡化cookie和代理操作
  - ......
如何使用requests模塊
- 安裝：
  - pip install requests
- 使用流程
  - 指定url
  - 基於requests模塊發起請求
  - 獲取響應對象中的數據值
  - 持久化存儲
通過5個基於requests模塊的爬蟲項目對該模塊進行學習和鞏固
- 基於requests模塊的get請求
  - 需求：爬取搜狗指定詞條搜索後的頁面數據
- 基於requests模塊的post請求
  - 需求：登錄豆瓣電影，爬取登錄成功後的頁面數據
- 基於requests模塊ajax的get請求
  - 需求：爬取豆瓣電影分類排行榜 https://movie.douban.com/中的電影詳情數據
- 基於requests模塊ajax的post請求
  - 需求：爬取肯德基餐廳查詢http://www.kfc.com.cn/kfccda/index.aspx中指定地點的餐廳數據
- 綜合練習
  - 需求：爬取國家藥品監督管理總局中基於中華人民共和國化妝品生產許可證相關數據http://125.35.6.84:81/xk/

2.代碼展示

需求：爬取搜狗指定詞條搜索後的頁面數據

import requests
import os
#指定搜索關鍵字
word = input(‘enter a word you want to search:‘)
#自定義請求頭信息
headers={
    ‘User-Agent‘: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36‘,
    }
#指定url
url = ‘https://www.sogou.com/web‘
#封裝get請求參數
prams = {
    ‘query‘:word,
    ‘ie‘:‘utf-8‘
}
#發起請求
response = requests.get(url=url,params=param)

#獲取響應數據
page_text = response.text

with open(‘./sougou.html‘,‘w‘,encoding=‘utf-8‘) as fp:
    fp.write(page_text)

3.請求載體身份標識的偽裝：

User-Agent：請求載體身份標識，通過瀏覽器發起的請求，請求載體為瀏覽器，則該請求的User-Agent為瀏覽器的身份標識，使用爬蟲程序發起的請求，則該請求的載體為爬蟲程序，則該請求的User-Agent為爬蟲程序的身份標識。可以通過判斷該值來獲知該請求的載體究竟是基於哪款瀏覽器還是基於爬蟲程序。

反爬機制：某些門戶網站會對訪問該網站的請求中的User-Agent進行捕獲和判斷，如果該請求的UA為爬蟲程序，則拒絕向該請求提供數據。

反反爬策略：將爬蟲程序的UA偽裝成某一款瀏覽器的身份標識。

需求：登錄豆瓣電影，爬取登錄成功後的頁面數據

import requests
import os
url = ‘https://accounts.douban.com/login‘
#封裝請求參數
data = {
    "source": "movie",
    "redir": "https://movie.douban.com/",
    "form_email": "15027900535",
    "form_password": "bobo@15027900535",
    "login": "登錄",
}
#自定義請求頭信息
headers={
    ‘User-Agent‘: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36‘,
    }
response = requests.post(url=url,data=data)
page_text = response.text

with open(‘./douban111.html‘,‘w‘,encoding=‘utf-8‘) as fp:
    fp.write(page_text)

需求：爬取豆瓣電影分類排行榜 https://movie.douban.com/中的電影詳情數據

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import requests
import urllib.request
if __name__ == "__main__":

    #指定ajax-get請求的url（通過抓包進行獲取）
    url = ‘https://movie.douban.com/j/chart/top_list?‘

    #定制請求頭信息，相關的頭信息必須封裝在字典結構中
    headers = {
        #定制請求頭中的User-Agent參數，當然也可以定制請求頭中其他的參數
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36‘,
    }

    #定制get請求攜帶的參數(從抓包工具中獲取)
    param = {
        ‘type‘:‘5‘,
        ‘interval_id‘:‘100:90‘,
        ‘action‘:‘‘,
        ‘start‘:‘0‘,
        ‘limit‘:‘20‘
    }
    #發起get請求，獲取響應對象
    response = requests.get(url=url,headers=headers,params=param)

    #獲取響應內容：響應內容為json串
    print(response.text)

需求：爬取肯德基餐廳查詢http://www.kfc.com.cn/kfccda/index.aspx中指定地點的餐廳數據

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import requests
import urllib.request
if __name__ == "__main__":

    #指定ajax-post請求的url（通過抓包進行獲取）
    url = ‘http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword‘

    #定制請求頭信息，相關的頭信息必須封裝在字典結構中
    headers = {
        #定制請求頭中的User-Agent參數，當然也可以定制請求頭中其他的參數
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36‘,
    }

    #定制post請求攜帶的參數(從抓包工具中獲取)
    data = {
        ‘cname‘:‘‘,
        ‘pid‘:‘‘,
        ‘keyword‘:‘北京‘,
        ‘pageIndex‘: ‘1‘,
        ‘pageSize‘: ‘10‘
    }
    #發起post請求，獲取響應對象
    response = requests.get(url=url,headers=headers,data=data)

    #獲取響應內容：響應內容為json串
    print(response.text)

需求：爬取國家藥品監督管理總局中基於中華人民共和國化妝品生產許可證相關數據

import requests
from fake_useragent import UserAgent

ua = UserAgent(use_cache_server=False,verify_ssl=False).random
headers = {
    ‘User-Agent‘:ua
}

url = ‘http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsList‘
pageNum = 3
for page in range(3,5):
    data = {
        ‘on‘: ‘true‘,
        ‘page‘: str(page),
        ‘pageSize‘: ‘15‘,
        ‘productName‘:‘‘,
        ‘conditionType‘: ‘1‘,
        ‘applyname‘:‘‘,
        ‘applysn‘:‘‘
    }
    json_text = requests.post(url=url,data=data,headers=headers).json()
    all_id_list = []
    for dict in json_text[‘list‘]:
        id = dict[‘ID‘]#用於二級頁面數據獲取
        #下列詳情信息可以在二級頁面中獲取
        # name = dict[‘EPS_NAME‘]
        # product = dict[‘PRODUCT_SN‘]
        # man_name = dict[‘QF_MANAGER_NAME‘]
        # d1 = dict[‘XC_DATE‘]
        # d2 = dict[‘XK_DATE‘]
        all_id_list.append(id)
    #該url是一個ajax的post請求
    post_url = ‘http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById‘
    for id in  all_id_list:
        post_data = {
            ‘id‘:id
        }
        response = requests.post(url=post_url,data=post_data,headers=headers)
        #該請求響應回來的數據有兩個，一個是基於text，一個是基於json的，所以可以根據content-type,來獲取指定的響應數據
        if response.headers[‘Content-Type‘] == ‘application/json;charset=UTF-8‘:
            #print(response.json())
            #進行json解析
            json_text = response.json()
            print(json_text[‘businessPerson‘])

Python爬蟲之requests模塊(1)

字典 win64 login 綜合 NPU apply 如果 .... email 一.引入 Requests 唯一的一個非轉基因的 Python HTTP 庫，人類可以安全享用。警告：非專業使用其他 HTTP 庫會導致危險的副作用，包括：安全缺陷癥、冗余代碼癥、重新

python爬蟲之requests模塊

.post 過大 form表單提交 www xxxxxx psd method date .com 一. 登錄事例 a. 查找汽車之家新聞標題鏈接圖片寫入本地 import requests from bs4 import BeautifulSoup import

Python爬蟲之requests模塊(2)

env odi 發送名稱相關防止 tip htm useragent 一.今日內容 session處理cookie proxies參數設置請求代理ip 基於線程池的數據爬取二.回顧 xpath的解析流程 bs4的解析流程常用xpath表達

python網絡爬蟲之requests模塊

基於 req 模塊模擬網絡爬蟲用法 bsp 流程發送什麽是requests模塊: 　　requests模塊是python中原生的基於網路請求的模塊,其主要作用是用來模擬瀏覽器發送請求,功能強大,用法簡潔高效,在爬蟲的領域占半壁江山如何使用requests模塊

python3 爬蟲之requests模塊使用總結

swd rom 一個 http 寫入 delet pen req 狀態碼 Requests 是第三方模塊，如果要使用的話需要導入。Requests也可以說是urllib模塊的升級版，使用上更方便。這是使用urllib的例子。 import urllib.request

爬蟲之requests模塊

ram 格式 win json數據默認安裝工作 pass gen pro 引入在學習爬蟲之前可以先大致的了解一下HTTP協議~ HTTP協議：https://www.cnblogs.com/peng104/p/9846613.html 爬蟲的基本流程簡介

python爬蟲值requests模塊

持久化存儲 resp 頁面 cat kit ESS mail set interval - 基於如下5點展開requests模塊的學習什麽是requests模塊 requests模塊是python中原生的基於網絡請求的模塊，其主要作用是用來模擬瀏覽器發起請求。

網絡爬蟲之requests模塊

use fcc manage 關鍵字 person .json size 詳情 param 一 . requests模塊的學習什麽是requests模塊 ? requests模塊是python中原生的基於網絡請求的模塊，其主要作用是用來模擬瀏覽器發起請求

python之requests模塊中的params和data的區別

技術分享 bubuko .com param ireader rec 之間 clas data params的時候之間接把參數加到url後面，只在get請求時使用： 1 import requests 2 url=‘https://api.ireaderm.net/a

python之requests模塊

重新啟動 status text bsp requests maven script nuget pass Requests 唯一的一個非轉基因的 Python HTTP 庫，人類可以安全享用（http://cn.python-requests.org/zh_CN/late

python筆記之psutil模塊

pan all ins python import print spa install .cn 收集教程 http://www.cnblogs.com/xiao1/p/6164204.html 實戰教程安裝psutil模塊 pip2 install psuti

Python基礎之常用模塊（三）

section signal server .section 通過 sub 實例 wait 配置文件 1.configparser模塊該模塊是用來對文件進行讀寫操作，適用於格式與Windows ini 文件類似的文件，可以包含一個或多個節（section），每個節可以有多

Python實戰之SocketServer模塊

utf8 mixin 程序通過框架 obj 基本使用取數據 rgs 文章出處：http://www.cnblogs.com/wupeiqi/articles/5040823.html SocketServer內部使用 IO多路復用以及 “多線程” 和 “多進程”

python ssh之paramiko模塊使用

begin mman strip() 執行命令 shc 顯示錯誤 stdout pac toad 1.安裝: sudo pip install paramiko 2.連接到linux服務器方法一: #paramiko.util.log_to_file(‘ssh.lo

python學習之sys模塊

version class pytho ont python span 模塊 inf color 查看python的版本 >>> sys.version_info[0] 3 python學習之sys模塊

python學習之io模塊

pan font nbsp get mic color blog 內存 import class io.BytesIO([initial_bytes]) 他是一個_io.BytesIO對象。用這個類的實例可以操作內存緩沖區中的字節流。 >>> s

python學習之argparse模塊

set argument file print red parser test handle rgs 一、簡介： argparse是python用於解析命令行參數和選項的標準模塊，用於代替已經過時的optparse模塊。argparse模塊的作用是用於解析命令行參數，例如p

python學習之platform模塊

操作系統 roc log 屬性。 gen 處理 mil false font 該模塊用來訪問平臺相關屬性。常見屬性和方法平臺架構 platform.machine() 返回平臺架構。若無法確定，則返回空字符串。 >>> platform.ma

python學習之argparse模塊的使用

字符 16px 需要 var desc 步驟 rec des int 以下內容主要來自：http://wiki.jikexueyuan.com/project/explore-python/Standard-Modules/argparse.html argparse 使用

爬蟲之request模塊

nsh ## 網頁基於 mark chrome 汽車 int tex 爬蟲之request模塊 request簡介 #介紹：使用requests可以模擬瀏覽器的請求，比起之前用到的urllib，requests模塊的api更加便捷（本質就是封裝了urllib3） #註意

Python爬蟲之requests模塊(1)

一.引入

1.概要

2.回顧

二.開始正題

1.基於如下5點展開requests模塊的學習

2.代碼展示

3.請求載體身份標識的偽裝：

相關推薦