網絡爬蟲--requests庫中兩個重要的對象
當我們使用resquests.get()時,返回的時response的對象,他包含服務器返回的所有信息,也包含請求的request的信息。
首先:
response對象的屬性有以下幾個,
r.status_code是http請求的返回狀態,200表示連接成功,404表示連接失敗,這時候應該拋出異常,進行處理。
r.text是url對應的頁面內容
r.encoding是從http的header中猜測的響應內容編碼方式
r.apparent_encoding是從內容中分析出響應的內容編碼方式。
r.content是http響應內容的二進制形式
通用的代碼框架
try:
r=requests.get(url,timeout=30)
r.raise_for_status()#如果不是200,就會拋出異常
r.encoding=r.apparent_encoding
return r.text
except:
return “產生異常”
網絡爬蟲--requests庫中兩個重要的對象
相關推薦
網絡爬蟲--requests庫中兩個重要的對象
resp head ppa except 代碼 http http響應 sts _for 當我們使用resquests.get()時,返回的時response的對象,他包含服務器返回的所有信息,也包含請求的request的信息。 首先: response對象的屬性有以下幾個
網絡爬蟲BeautifulSoup庫的使用
以及 a標簽 pytho 屬性 title bubuko ring iou status 使用BeautifulSoup庫提取HTML頁面信息 #!/usr/bin/python3 import requests from bs4 import Beautif
OrCAD: Capture CIS中兩個重要概念:instance 和 occurrences
用OrCAD設計原理圖必須理解兩個概念instance 和 occurrences。對於元件放置、替換、修改屬性等很多操作都和這兩個概念有關。 拋開抽象的說明,我們用例項說明他們的區別。假如你在自己的元件庫中已經建立了一個元件AD8056(AD公司的運放)。
linux使用者管理中兩個重要的使用者配置檔案
[[email protected] ~]# head /etc/passwd root:x:0:0:root:/root:/bin/bash bin:x:1:1:bin:/bin:/sbin/nologin daemon:x:2:2:daemon:/sbin:/sbin/nologin
檔案系統快取中兩個重要引數: dirty_ratio與dirty_background_ratio
This is post #16 in my December 2013 series about Linux Virtual Machine Performance Tuning. For more, please see the tag “Linux VM Performance Tuning.”In p
【JQuery】使用JQuery 合並兩個 json 對象
table true ble nbsp 參考 jquer log con merge 一,保存object1和2合並後產生新對象,若2中有與1相同的key,默認2將會覆蓋1的值 1 var object = $.extend({}, object1, obj
微信小程序合並兩個json對象
weight ID concat pre nor color mil json 小程序 a = [ {"id":"1"}, {"id":"2"} ] b = [ {"id":"3"}, {"id":"4"} ] a = a.conca
[Xcode10 實際操作]八、網絡與多線程-(6)使用UIApplication對象打開地圖
over 控制器 編碼 pen string uikit 應用程序 打開網頁 視圖控制器 本文將演示如何使用應用程序單例對象,打開地圖的功能。 在項目導航區,打開視圖控制器的代碼文件【ViewController.swift】 1 import UIKit 2
[Xcode10 實際操作]八、網絡與多線程-(5)使用UIApplication對象發送郵件
tro 導航 ide 網絡 文件 項目 nbsp ica UNC 本文將演示如何使用應用程序單例對象,發送郵件的功能。 在項目導航區,打開視圖控制器的代碼文件【ViewController.swift】 註:需要使用真機進行測試。 1 import UIKit
比較兩個JavaBean對象的不同
onu null fields prope ras tor 不同 rop ssi 比較兩個bean的內容 /** * 比較兩個Bean的內容 * * @param <T> * @author SSISS */ public class Contrast
Python3網絡爬蟲——三、Requests庫的基本使用
成功 ges cookies pan doc 需求 post請求 成了 bsp 一、什麽是Requests Requests是用Python語言編寫,基於urllib,采用Apache2 Licensed開元協議的HTTP庫。它比urllib更加的方便,可以節約我們大量
【網絡爬蟲入門02】HTTP客戶端庫Requests的基本原理與基礎應用
多應用 多服務器 技術學 用戶 iis unicode licensed content sed 【網絡爬蟲入門02】HTTP客戶端庫Requests的基本原理與基礎應用 廣東職業技術學院 歐浩源 1、引言 實現網絡爬蟲的第一步就是要建立網絡連接並向服務器或網頁等
Python網絡爬蟲與信息提取-Requests庫網絡爬去實戰
amazon 亞馬遜 查詢 提交 raise 自動 htm bsp 信息 實例1:京東商品頁面的爬取 import requests url="https://item.jd.com/2967929.html" try: r=requests.get(url)
用python零基礎寫爬蟲--編寫第一個網絡爬蟲
等待 客戶端瀏覽器 身份驗證 1.2 不存在 ssp 地址 執行c ade 首先要說明的是,一下代碼是在python2.7版本下檢測的 一.最簡單的爬蟲程序 --下載網頁 import urllib2 request=urllib2.Request("http://www.
【網絡爬蟲入門05】分布式文件存儲數據庫MongoDB的基本操作與爬蟲應用
數據庫的操作 理解 src web 文件存儲 學習 json格式 關系型 log 【網絡爬蟲入門05】分布式文件存儲數據庫MongoDB的基本操作與爬蟲應用 廣東職業技術學院 歐浩源 1、引言 網絡爬蟲往往需要將大量的數據存儲到數據庫中,常用的有MySQL、Mon
網絡爬蟲之MongoDB數據庫的使用
大量 保留 有序 .com pan 缺點 sch 格式 引號 一.簡潔 MongoDB是一款強大、靈活、且易於擴展的通用型數據庫 1、易用性 MongoDB是一個面向文檔(document-oriented)的數據庫,而不是關系型數據庫。 不采用關系型主要是為了獲得更
python—網絡爬蟲(Requests庫主要方法解析)
代理 coo put color 服務器 爬蟲 ont s參數 協議 Requests庫主要方法解析requests.request() 構造一個請求,支撐以下各方法的基礎方法 requests.request(method, url, **kwargs)method: 請
python3網絡爬蟲學習——基本庫的使用(1)
read 基本 類名 transport same 數字 cep 這一 服務器 最近入手學習Python3的網絡爬蟲開發方向,入手的教材是崔慶才的《python3網絡爬蟲開發實戰》,作為溫故所學的內容同時也是分享自己操作時的一些經驗與困惑,所以開了這個日記,也算是監督自己去
python3網絡爬蟲學習——基本庫的使用(3)
進行 程序 如果 www int control content cti expires 這一節我們主要講解處理異常 在我們發送請求的時候,有的時候可能網絡不好,出現了異常,程序因為報錯而終止運行,為此我們需要對其進行處理 urllib裏的error模塊定義了request
python3網絡爬蟲學習——使用requests(1)
返回 hub origin 存儲 python3 中文 json head flat reuqests庫中有很多便捷的方法,比如以GET方式獲得網頁,在requests庫中就是方法get(),上代碼 import requests r = requests.get(‘ht