爬蟲Requests基本使用

阿新 • • 發佈：2018-12-10

Requests基本使用

安裝

pip install requests

一、Requests模組請求

獲取網頁(不帶引數)

r = requests.get('http://www.chinahufei.com')
r = requests.post('http://www.chinahufei.com')
r = requests.delete('http://www.chinahufei.com')
r = requests.head('http://www.chinahufei.com')
r = requests.options('http://www.chinahufei.com')

獲取網頁(帶引數)

# get方式
r = requests.get("http://api.chinahufei.com", params = { 'page': 1 })
# post方式
r = requests.post('http://api.chinahufei.com', data = {'kwd':'hufei'})
# 通用方式
r = requests.request("get", "http://api.chinahufei.com/")
# 其他
payload = {'page': '1', 'kwd': ['hufei', 'china']}
r = requests.get('http://api.chinahufei.com', params=payload)

獲取網頁(帶header和UserAgent)

# get方式
kw = {'kwd':'長城'}
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
# params 接收一個字典或者字串的查詢引數，字典型別自動轉換為url編碼，不需要urlencode()
response = requests.get("http://api.chinahufei.com", params = kwd, headers = headers)

# post方式
formdata = {
    "type":"AUTO",
    "i":"i love python",
    "doctype":"json",
    "xmlVersion":"1.8",
    "keyfrom":"fanyi.web",
    "ue":"UTF-8",
    "action":"FY_BY_ENTER",
    "typoResult":"true"
}
url = "http://api.chinahufei.com"
headers={ "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"}
r = requests.post(url, data = formdata, headers = headers)

獲取網頁(使用代理)

import requests
# 根據協議型別，選擇不同的代理
proxies = {
  "http": "http://12.34.56.79:9527",
  "https": "http://12.34.56.79:9527"
}

response = requests.get("http://api.chinahufei.com", proxies = proxies)
print response.text

# 私密代理驗證
import requests
	# 如果代理需要使用HTTP Basic Auth，可以使用下面這種格式：
proxy = { "http": "mr_mao_hacker:[email protected]:16816" }
response = requests.get("http://api.chinahufei.com", proxies = proxy)
print response.text
# Web客戶端驗證
import requests
auth=('test', '123456')
response = requests.get('http://192.168.199.107', auth = auth)
print response.text

獲取網頁(重定向使用)

# 不允許
r = requests.head('http://github.com', allow_redirects=False)

HTTPS請求 SSL證書驗證

# 如果我們想跳過 12306 的證書驗證，把 verify 設定為 False 就可以正常請求了。
r = requests.get("https://www.12306.cn/mormhweb/", verify = False)

二、Request模組響應

響應內容-text(Unicode格式的資料)
響應內容-content(位元組流資料)
響應內容-json(json型別的資料)
url地址-url(完整地址)
響應碼-status_code
響應頭-headers()
響應頭部字元編碼-encoding
Cookies-cookies

import requests
response = requests.get("http://www.baidu.com/")
# 返回CookieJar物件
cookiejar = response.cookies
# 將CookieJar轉為字典
cookiedict = requests.utils.dict_from_cookiejar(cookiejar)
print cookiejar
print cookiedict

Sission-session

# 人人網模擬登入
import requests
# 1. 建立session物件，可以儲存Cookie值
ssion = requests.session()
# 2. 處理 headers
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
# 3. 需要登入的使用者名稱和密碼
data = {"email":"[email protected]", "password":"alarmchime"}  
# 4. 傳送附帶使用者名稱和密碼的請求，並獲取登入後的Cookie值，儲存在ssion裡
ssion.post("http://www.renren.com/PLogin.do", data = data)
# 5. ssion包含使用者登入後的Cookie值，可以直接訪問那些登入後才可以訪問的頁面
response = ssion.get("http://www.renren.com/410043129/profile")
# 6. 列印響應內容
print response.text

響應歷史-history

三、Request模組的編解碼問題3種解決方法

response.content.decode()
response.content.decode('gbk')
response.text

爬蟲Requests基本使用

Requests基本使用安裝 pip install requests 一、Requests模組請求獲取網頁(不帶引數) r = requests.get('http://www.chinahufei.com') r = requests.post('http://www.chinahufei.c

關於爬蟲的日常復習（13）—— 爬蟲requests的初級高級的基本用法

bubuko req src http ima 基本爬蟲用法 image 關於爬蟲的日常復習（13）—— 爬蟲requests的初級高級的基本用法

python-爬蟲-requests的基本方法函式

1、安裝Win 平臺：“以管理員身份執行” cmd，執行 pip install requests小測：>>>import requests>>>r=requests.get("http://www.baidu.com")>>

網絡爬蟲--requests庫中兩個重要的對象

resp head ppa except 代碼 http http響應 sts _for 當我們使用resquests.get（）時，返回的時response的對象，他包含服務器返回的所有信息，也包含請求的request的信息。首先： response對象的屬性有以下幾個

爬蟲中基本的多線程

繼承 pub 所有子類 tin .sh for 導致語言因為Java語言中不允許繼承多個類，所以一個類一旦繼承了 Thread類，就不能再繼承其他類了。為了避免所有線程都必須是Thread的子類，需要獨立運行的類也可以繼承一個系統已經定義好的叫作Runnable的接口

網絡爬蟲的基本原理

一段時間圖片大眾點評網 cap 客戶都是特點 sdn 不能 1、網絡爬蟲原理網絡爬蟲指按照一定的規則（模擬人工登錄網頁的方式），自動抓取網絡上的程序。簡單的說，就是講你上網所看到頁面上的內容獲取下來，並進行存儲。網絡爬蟲的爬行策略分為深度優先和廣度優先。如下圖是深

what's the 爬蟲之基本原理

加載過程遇到都是處理三位數拒絕 view 模塊 head what‘s the 爬蟲？了解爬蟲之前，我們首先要知道什麽是互聯網 1、什麽是互聯網？　　互聯網是由網絡設備（網線，路由器，交換機，防火墻等等）和一臺臺計算機連接而成，總體上像一張網一樣。 2、互聯網建

爬蟲的基本原理

大量 css選擇器 god json 方法網站服務 ODB mysq sof 爬蟲就是獲取網頁並提取和保存信息的自動化程序 1.獲取網頁　　爬蟲首先要做的就是獲取網頁，這裏就是獲取網頁的源代碼。源代碼裏包含了網頁的部分有用信息。只要把源代碼獲取到，就可以從提取信息了

爬蟲基礎---HTTP協議理解、網頁的基礎知識、爬蟲的基本原理

以及 res form 一次發的 urn 網絡協議位置 nsf 一、HTTP協議的理解 URL和URI 在學習HTTP之前我們需要了解一下URL、URI(精確的說明某資源的位置以及如果去訪問它) URL：Universal Resource Locator 統一資源定位

python 爬蟲 requests+BeautifulSoup 爬取巨潮資訊公司概況代碼實例

pan 字符 selenium 5.0 target 自我 color list tails 第一次寫一個算是比較完整的爬蟲，自我感覺極差啊，代碼low，效率差，也沒有保存到本地文件或者數據庫，強行使用了一波多線程導致數據順序發生了變化。。。貼在這裏，引以為戒吧。 #

Python爬蟲知識點——爬蟲的基本原理

知識點一個想要代碼請求原理表達網絡爬蟲服務爬蟲的基本原理爬蟲就是獲取網頁並提取和保存信息的自動化程序獲取網頁：獲取網頁就是獲取網頁的源碼，只要把源碼獲取下來，就可以從中提取想要的消息爬蟲的流程：想網站的服務器發送一個請求，返回的響應體就是網頁

爬蟲的基本流程

尊重爬蟲則表達式形式解析 headers 網頁解析響應進制爬蟲的基本流程 1：發起請求通過HTTP庫向目標站點發起請求，即發送一個requ

python3網絡爬蟲學習——基本庫的使用（1）

read 基本類名 transport same 數字 cep 這一服務器最近入手學習Python3的網絡爬蟲開發方向，入手的教材是崔慶才的《python3網絡爬蟲開發實戰》，作為溫故所學的內容同時也是分享自己操作時的一些經驗與困惑，所以開了這個日記，也算是監督自己去

python3網絡爬蟲學習——基本庫的使用（3）

進行程序如果 www int control content cti expires 這一節我們主要講解處理異常在我們發送請求的時候，有的時候可能網絡不好，出現了異常，程序因為報錯而終止運行，為此我們需要對其進行處理 urllib裏的error模塊定義了request

爬蟲 requests.post

爬蟲 requests.post 可以模擬網頁向伺服器傳送訊息，獲取想要的內容 1.無返回值開啟並登陸豆瓣模擬豆瓣登陸 import requests postUrl = 'https://www.douban.com/accounts/logi

Python之爬蟲-- Requests

目錄 Requests-獻給人類一、簡介二、安裝方式三、 GET請求四、POST請求五、顯示json檔案六、代理（proxies引數）七、使用者驗證八、Cookies 和 Session 1、Cookies 2、Se

爬蟲(一):基本內容回顧

本人最近在學習爬蟲的相關知識,對於很多基本的概念在此做一個梳理,便於課程的複習和鞏固,如有寫的不準確或錯誤的地方,歡迎閱讀者批評指正。要聊爬蟲主要是從以下幾個方面為主線: 什麼是爬蟲? 爬蟲的價值爬蟲的分類爬蟲的基本執行原理爬蟲的三大模組

python爬蟲一些基本編碼語句

#coding=utf-8 import requests import re from bs4 import BeautifulSoup #BeautifulSoup正則表示式搜尋 html = """ <html><head><title>The Dormo

入門須知之網路爬蟲的基本流程及抓取策略

大資料時代下，資料採集推動著資料分析，資料分析推動發展。但是在這個過程中會出現很多問題。拿最簡單最基礎的爬蟲採集資料為例，過程中就會面臨，IP被封，爬取受限、違法操作等多種問題，所以在爬去資料之前，一定要了解好預爬網站是否涉及違法操作，找到合適的代理IP訪問網站等一系列問題。掌握爬蟲技術也成為現在技術流的

入門須知之網絡爬蟲的基本流程及抓取策略

可靠入門評價大小軟件 url 一個好用表示大數據時代下，數據采集推動著數據分析，數據分析推動發展。但是在這個過程中會出現很多問題。拿最簡單最基礎的爬蟲采集數據為例，過程中就會面臨，IP被封，爬取受限、違法操作等多種問題，所以在爬去數據之前，一定要了解好預爬網站

爬蟲Requests基本使用

Requests基本使用

安裝

一、Requests模組請求

二、Request模組響應

三、Request模組的編解碼問題3種解決方法

相關推薦