python爬蟲---requests庫的用法詳解

阿新 • • 發佈：2020-09-29

requests是python實現的簡單易用的HTTP庫，使用起來比urllib簡潔很多

因為是第三方庫，所以使用前需要cmd安裝

pip install requests

安裝完成後import一下，正常則說明可以開始使用了。

基本用法：

requests.get()用於請求目標網站，型別是一個HTTPresponse型別

import requestsresponse = requests.get('http://www.baidu.com')
print(response.status_code) # 列印狀態碼
print(response.url) # 列印請求url
print(response.headers) # 列印頭資訊
 
print(response.cookies) # 列印cookie資訊
print(response.text) #以文字形式列印網頁原始碼
print(response.content) #以位元組流形式列印

執行結果：

狀態碼：200

url：www.baidu.com

headers資訊

python爬蟲---requests庫的用法詳解

各種請求方式：

import requests

requests.get('http://httpbin.org/get')
requests.post('http://httpbin.org/post')
requests.put('http://httpbin.org/put')
requests.delete('http://httpbin.org/delete')
requests.head('http://httpbin.org/get')
requests.options('http://httpbin.org/get')

基本的get請求

import requests

response = requests.get('http://httpbin.org/get')
print(response.text)

結果

python爬蟲---requests庫的用法詳解

帶引數的GET請求：

第一種直接將引數放在url內

import requests

response = requests.get(http://httpbin.org/get?name=gemey&age=22)
print(response.text)

結果

python爬蟲---requests庫的用法詳解

另一種先將引數填寫在dict中，發起請求時params引數指定為dict

import requests

data = {
  'name': 'tom','age': 20
}

response = requests.get('http://httpbin.org/get',params=data)
print(response.text)

結果同上

解析json

import requests

response = requests.get('http://httpbin.org/get')
print(response.text)
print(response.json()) #response.json()方法同json.loads(response.text)
print(type(response.json()))

結果

python爬蟲---requests庫的用法詳解

簡單儲存一個二進位制檔案

二進位制內容為response.content

import requests

response = requests.get('http://img.ivsky.com/img/tupian/pre/201708/30/kekeersitao-002.jpg')
b = response.content
with open('F://fengjing.jpg','wb') as f:
  f.write(b)

為你的請求新增頭資訊

import requests
heads = {}
heads['User-Agent'] = 'Mozilla/5.0 ' \
             '(Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 ' \
             '(KHTML,like Gecko) Version/5.1 Safari/534.50'
 response = requests.get('http://www.baidu.com',headers=headers)

使用代理

同新增headers方法，代理引數也要是一個dict

這裡使用requests庫爬取了IP代理網站的IP與埠和型別

因為是免費的，使用的代理地址很快就失效了。

import requests
import re

def get_html(url):
  proxy = {
    'http': '120.25.253.234:812','https' '163.125.222.244:8123'
  }
  heads = {}
  heads['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'
  req = requests.get(url,headers=heads,proxies=proxy)
  html = req.text
  return html

def get_ipport(html):
  regex = r'<td data-title="IP">(.+)</td>'
  iplist = re.findall(regex,html)
  regex2 = '<td data-title="PORT">(.+)</td>'
  portlist = re.findall(regex2,html)
  regex3 = r'<td data-title="型別">(.+)</td>'
  typelist = re.findall(regex3,html)
  sumray = []
  for i in iplist:
    for p in portlist:
      for t in typelist:
        pass
      pass
    a = t+','+i + ':' + p
    sumray.append(a)
  print('高匿代理')
  print(sumray)


if __name__ == '__main__':
  url = 'http://www.kuaidaili.com/free/'
  get_ipport(get_html(url))

結果：

python爬蟲---requests庫的用法詳解

基本POST請求：

import requests

data = {'name':'tom','age':'22'}

response = requests.post('http://httpbin.org/post',data=data)

python爬蟲---requests庫的用法詳解

獲取cookie

#獲取cookie
import requests

response = requests.get('http://www.baidu.com')
print(response.cookies)
print(type(response.cookies))
for k,v in response.cookies.items():
  print(k+':'+v)

結果：

python爬蟲---requests庫的用法詳解

會話維持

import requests

session = requests.Session()
session.get('http://httpbin.org/cookies/set/number/12345')
response = session.get('http://httpbin.org/cookies')
print(response.text)

結果：

python爬蟲---requests庫的用法詳解

證書驗證設定

import requests
from requests.packages import urllib3

urllib3.disable_warnings() #從urllib3中消除警告
response = requests.get('https://www.12306.cn',verify=False) #證書驗證設為FALSE
print(response.status_code)列印結果：200

超時異常捕獲

import requests
from requests.exceptions import ReadTimeout

try:
  res = requests.get('http://httpbin.org',timeout=0.1)
  print(res.status_code)
except ReadTimeout:
  print(timeout)

異常處理

在你不確定會發生什麼錯誤時，儘量使用try...except來捕獲異常

所有的requests exception：

Exceptions

import requests
from requests.exceptions import ReadTimeout,HTTPError,RequestException

try:
  response = requests.get('http://www.baidu.com',timeout=0.5)
  print(response.status_code)
except ReadTimeout:
  print('timeout')
except HTTPError:
  print('httperror')
except RequestException:
  print('reqerror')

25行程式碼帶你爬取4399小遊戲資料

import requests
import parsel
import csv
f = open('4399遊戲.csv',mode='a',encoding='utf-8-sig',newline='')

csv_writer = csv.DictWriter(f,fieldnames=['遊戲地址','遊戲名字'])
csv_writer.writeheader()
for page in range(1,106):
  url = 'http://www.4399.com/flash_fl/5_{}.htm'.format(page)
  headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/81.0.4044.138 Safari/537.36'
  }
  response = requests.get(url=url,headers=headers)
  response.encoding = response.apparent_encoding
  selector = parsel.Selector(response.text)
  lis = selector.css('#classic li')
  for li in lis:
    dit ={}
    data_url = li.css('a::attr(href)').get()
    new_url = 'http://www.4399.com' + data_url.replace('http://','/')
    dit['遊戲地址'] = new_url
    title = li.css('img::attr(alt)').get()
    dit['遊戲名字'] = title
    print(new_url,title)
    csv_writer.writerow(dit)
f.close()

到此這篇關於python爬蟲---requests庫的用法詳解的文章就介紹到這了,更多相關python requests庫內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們！

python爬蟲---requests庫的用法詳解

requests是python實現的簡單易用的HTTP庫，使用起來比urllib簡潔很多因為是第三方庫，所以使用前需要cmd安裝

Python爬蟲requests庫多種用法例項

requests安裝和使用　　下載安裝：pip install requests #requests模組 import requests #傳送請求 content:以二進位制的形式獲取網頁的內容

Python imread、newaxis用法詳解

這篇文章主要介紹了python imread、newaxis用法詳解,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python列表原理與用法詳解【建立、元素增加、刪除、訪問、計數、切片、遍歷等】

本文例項講述了Python列表原理與用法。分享給大家供大家參考，具體如下：列表的基本認識

python global關鍵字的用法詳解

最近剛好有朋友遇到個global相關的問題，這裡簡單學習一下global關鍵字的用法。

Python的Lambda函式用法詳解

在Python中有兩種函式，一種是def定義的函式，另一種是lambda函式，也就是大家常說的匿名函式。今天我就和大家聊聊lambda函式，在Python程式設計中，大家習慣將其稱為表示式。

python datetime中strptime用法詳解

python 中datetime中strptime用法，具體程式碼如下所示： import datetime day20 = datetime.datetime.strptime(\'2020-01-01 0:0:0\',\'%Y-%m-%d %H:%M:%S\')

Python 中@property的用法詳解

在繫結屬性時，如果我們直接把屬性賦值給物件，比如： p = Person() p.name= \'Mary\'

Python中itertools的用法詳解

iterator 迴圈器(iterator)是物件的容器，包含有多個物件。通過呼叫迴圈器的next()方法 (next()方法，在Python 3.x中)，迴圈器將依次返回一個物件。直到所有的物件遍歷窮盡，迴圈器將舉出StopIteration錯誤。

Python ORM框架Peewee用法詳解

之前在學Django時，發現它的模型層非常好用，把對資料庫的操作對映成對類、物件的操作，避免了我們直接寫在Web專案中SQL語句，當時想，如果這個模型層可以獨立出來使用就好了，那我們平臺操作資料庫也可以這麼玩了，

Python虛擬環境venv用法詳解

初衷：在工作的時候，我們會有很多個專案，每個專案使用的庫的版本不一樣，導致我們切換專案的時候會很麻煩。

Python collections.defaultdict模組用法詳解

Python中通過Key訪問字典，當Key不存在時，會引發‘KeyError\'異常。為了避免這種情況的發生，可以使用collections類中的defaultdict()方法來為字典提供預設值。

python中yield的用法詳解——最簡單，最清晰的解釋

首先，如果你還沒有對yield有個初步分認識，那麼你先把yield看做“return”，這個是直觀的，它首先是個return，普通的return是什麼意思，就是在程式中返回某個值，返回之後程式就不再往下運行了。

python中yield的用法詳解——最簡單，最清晰的解釋【轉載】

轉載地址：https://blog.csdn.net/mieleizhi0522/article/details/82142856/ python中yield的用法詳解——最簡單，最清晰的解釋``

Python logging模組handlers用法詳解

一、handlers是什麼？ logging模組中包含的類用來自定義日誌物件的規則（比如：設定日誌輸出格式、等級等）

python中yield的用法詳解——最簡單，最清晰的解釋(轉載)

原文連結首先我要吐槽一下，看程式的過程中遇見了yield這個關鍵字，然後百度的時候，發現沒有一個能簡單的讓我懂的，講起來真TM的都是頭頭是道，什麼引數，什麼傳遞的，還口口聲聲說自己的教程是最簡單的，最淺顯易

python遞迴函式用法詳解

上期我們介紹了函數語言程式設計，這期內容就是關於遞迴的函式內容，本期還是按照老規矩，給大家進行核心整理，內容通俗易懂，搭配實際應用，以供大家理解。

Python中break語句用法詳解！

這篇文章主要介紹了詳解Python中break語句的用法,是Python入門的撥出知識,需要的朋友可以參考下

Python bytes型別及用法詳解

Pythonbytes 型別用來表示一個位元組串。“位元組串“不是程式設計術語，是我自己“捏造”的一個詞，用來和字串相呼應。

python os.rename例項用法詳解

使用 os.rename方法並不難，主要的功能就是應用在對檔案的重新命名，常規上我們要在桌面上更改檔案，直接選中右鍵點選軟體，然後進行重新命名即可，這是我們最常見的一種方式，在py裡如果想要去更改檔名稱，也並不難

python爬蟲---requests庫的用法詳解

相關推薦