爬蟲寫法及狀態碼的認知,以小豬短租為例---爬蟲案例

阿新 • • 發佈：2018-11-07

寫一個最簡單的爬蟲

先介紹,我的環境:

Ubuntu:18.04(64位)

IDE(解釋為開發環境,用什麼寫的)

Python3.6

注意Python2.X 和Python3.X有些語法問題,看情況而定

爬蟲網站為'http://www.xiaozhu.com/'

前面說過了request請求,response響應,OK第一個爬蟲完成了,是不是很簡單.不說這麼多了上程式碼.看看效果.這個爬蟲只是請求的網頁<HTML>

import requests
#匯入相應的包檔案
headers={
    'user-agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Mobile Safari/537.36'
}
#加入請求頭
respones =requests.get('https://bj.xiaozhu.com/','headers=headers')
#輸入網址傳送請求
print(respones)
#請求得到響應,請求成功

得到:'<Response [200]>',這個是什麼?說明訪問成功.

這裡就需要咱們要知道些什麼了,訪問是否成功,返回數值為狀態碼什麼意思?

1XX（資訊類）

該型別狀態碼錶示接收到請求並且繼續處理。

100，客戶端必須繼續發出請求。
101，客戶端要求伺服器根據請求轉換HTTP協議版本。

2XX（響應成功）

該型別狀態碼錶示動作被成功接收、理解和接受。

200，表明該請求被成功地完成，所請求的資源傳送到客戶端。
201，提示知道新檔案的URL。
202，接受並處理，但處理未完成。
203，返回資訊不確定或不完整。
204，收到請求，但返回資訊為空。
205，伺服器完成了請求，使用者必須復位當前已經瀏覽過的檔案。
206，伺服器已經完成了部分使用者的GET請求。

3XX（重定向類）

該型別狀態碼錶示為了完成指定的動作，必須接受進一步處理。

300，請求的資源可在多處獲得。
301，本網頁被永久性轉移到另一個URL。
302，請求的網頁被重定向到新的地址。
303，建議使用者訪問其他URL或訪問方式。
304，自從上次請求後，請求的網頁未修改過。
305，請求的資源必須從伺服器指定的地址獲得。
306，前一版本HTTP中使用的程式碼，現已不再使用。
307，宣告請求的資源臨時性刪除。

4XX（客戶端錯誤類）

該型別狀態碼錶示請求包含錯誤語法或不能正確執行。

400，客戶端請求有語法錯誤。
401，請求未經授權。
402，保留有效ChargeTo頭響應。
403，禁止訪問，伺服器收到請求，但拒絕提供服務。
404，可連線伺服器，但伺服器無法取得所請求的網頁，請求資源不存在。
405，使用者在Request-Line欄位定義的方法不被允許。
406，根據使用者傳送的Accept，請求資源不可訪問。
407，類似401，使用者必須首先在代理伺服器上取得授權。
408，客戶端沒有在使用者指定的時間內完成請求。
409，對當前資源狀態，請求不能完成。
410，伺服器上不再有此資源。
411，伺服器拒絕使用者定義的Content-Length屬性請求。
412，一個或多個請求頭欄位在當前請求中錯誤。
413，請求的資源大於伺服器允許的大小。
414，請求的資源URL長於伺服器允許的長度。
415，請求資源不支援請求專案格式。
416，請求中包含Range請求頭欄位，在當前請求資源範圍內沒有range指示值。
417，伺服器不滿足請求Expect頭欄位指定的期望值。

5XX（伺服器錯誤類）

該型別狀態碼錶示伺服器或閘道器錯誤。

500，伺服器錯誤。
501，伺服器不支援請求的功能。
502，閘道器錯誤。
503，無法獲得服務。
504，閘道器超時。
505，不支援的http版本。

這麼多的狀態碼,作為小白來說記不住的,多練習幾個爬蟲,從中積累下,就大部分明白了.

爬蟲寫法及狀態碼的認知,以小豬短租為例---爬蟲案例

寫一個最簡單的爬蟲先介紹,我的環境: Ubuntu:18.04(64位)

爬取網站小豬短租的少量資訊及詳細介紹--爬蟲案例篇

#!/usr/bin/env python # -*- coding:utf-8 -*- # @Time : 18-10-10 下午9:21 import requests #匯入requests包;發請求網頁 from bs4 import BeautifulSoup #匯入bs4包;

Python爬蟲入門 | 5 爬取小豬短租租房信息

圖片交流 ffffff 信息 jpg http 而已基本 mat 小豬短租是一個租房網站，上面有很多優質的民宿出租信息，下面我們以成都地區的租房信息為例，來嘗試爬取這些數據。小豬短租（成都）頁面：http://cd.xiaozhu.com/1.爬取租房標題按照慣例，

小豬短租網requests庫使用，爬蟲案例

請求庫官方文件指出：讓HTTP 。服務人類細心的讀者就會發現，請求庫的作用英文就是請求網站電子雜誌|網頁資料的從簡單的例項開始，講解。請求庫的使用方法。 import requests res = requests.get

Python爬蟲實戰--小豬短租爬蟲

前言：通過上次的TripAdvisor爬蟲實戰，我們學會了如何使用requests傳送一個網頁請求，並使用BeautifulSoup來解析頁面，從中提取出我們的目標內容，並將其存入文件中。同時我們也學會了如何分析頁面，並提取出關鍵資料。下面我們將進一步學習，並爬去小豬短租的詳情頁面，提取

Python爬蟲入門 | 5 爬取小豬短租租房資訊

小豬短租是一個租房網站，上面有很多優質的民宿出租資訊，下面我們以成都地區的租房資訊為例，來嘗試爬取這些資料。 1.爬取租房標題按照慣例，先來爬下標題試試水，找到標題，複製xpath。多複製幾個房屋的標題 xpath 進行對比：

抓取小豬短租1000張列表頁內容

pre quest 個數 import rom lxml zip .text with 代碼如下 #!/usr/bin/env python# -*- coding:utf-8 -*-from bs4 import BeautifulSoupimport requestsd

抓取小豬短租列表內容並保存在mongodb裏

抓取 select requests orm com titles mongod lin ges import pymongoimport requestsfrom bs4 import BeautifulSoupclient = pymongo.MongoClient(‘

python3爬取“小豬短租-北京”租房資訊

爬蟲思路分析： 1. 觀察小豬短租（北京）的網頁首頁：http://www.xiaozhu.com/?utm_source=baidu&utm_medium=cpc&utm_term=PC%E6%A0%87%E9%A2%98&utm_content=pinzhuan

xpath,requests爬取小豬短租網

import requests from lxml import etree import time headers = { 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) ' 'AppleWebKit/537.3

爬取小豬短租網信息

5.0 head test == lec 信息 names file float # -*- coding: utf-8 -*- import time import lxml import requests from bs4 import BeautifulSoup h

爬蟲之網路狀態碼

網路狀態碼特別的多，我將目前為止我做爬蟲到現在遇到的常見網路狀態碼做一個整合，從而幫助大家更好地貼近實際業務。 1.200 – 伺服器成功返回網頁 2.202– 伺服器已接受請求，但尚未處理。 3.302–伺服器目前從不同位置的網頁響應請求，但請求者應繼續使用原有位

python爬蟲（以國家菸草網新聞為例）

國家菸草專賣局的網址是：http://www.tobacco.gov.cn/html/ 要爬取的內容為各省級局的新聞。大部分的省的新聞頁url都是有規律的，比如貴州省的是 http://www.tobacco.gov.cn/html/36/3617/36

R的爬蟲和迴歸模型案例-以北京自如房租價格為例

一、背景爬蟲向來不是R的專長，但並不代表R在此方面一事無成。正好在學習R的rvest爬蟲包，不如邊學邊做，自己來做一個案例。作為一名消費者，自如不錯的管理服務和靠譜的房源使得在帝都想省事兒的我們，即使花高於周邊其他競爭者的價格，也願意租住自如。不過，只要

Linux系統下的vi編輯器的使用（以VMware下的Ubuntu64為例）

linux系統編輯器一般模式 ubuntu虛擬機 vi編譯器上午花費一些時間學習vi編輯器，下面把學習的一些經驗記錄在這篇博文中。 vi編輯器是Linux系統下的基本編譯器，工作在字符模式，是一個很高效的文本編譯器，它在系統和服務器管理上的功能是普通的圖形編譯器所不能夠

Linux下command not found（以CentOS下沒有telnet為例）

裏的 linu com ins net 文件 bsp netd mman [[email protected]/* */ ~]# telnet bash: telnet: command not found rpm -qa telnet* //查詢是否安裝了

用PHP和Ajax進行前後臺數據交互——以用戶登錄為例

serial click ots 多網站頁面用戶註冊 index -s password 很多網站中都有用戶登錄系統，要完成用戶的註冊和登陸，就一定要用到前後臺的數據交互。在這裏以簡單的用戶註冊和登陸為例介紹一下前後臺交互的大致流程。首先，我們來做一個簡單的登陸界

Mac 創建證書（以創建gdb證書為例）

pick 1-1 src for png b- num iat alt open /Applications/Utilities/Keychain\ Access.app/ 打開鑰匙串訪問繼續繼續創建完畢。 Now that we have a ce

用戶體驗分析：以 “師路南通網站” 為例

eight 知識簡單的用戶控制活動用戶體驗設計素質文字平臺 1、目標針對師路南通，開展UX分析。PS：對比公眾號；UMU學習平臺（umu-umu）、學生安全教育平臺（xueanquan123） *基於實例分析，體會用戶體驗設計的7條準則。 *功能測試腳本及B

2017.11.17——作業四用戶體驗分析：以 “師路南通網站” 為例

對象比較 center p s 做的註冊 mar 微信找到幫助作業四.用戶體驗分析：以 “師路南通網站” 為例作業目標：針對師路南通，開展UX分析，基於實例分析，體會用戶體驗設計的 7 條準則。首先是“師路南通”的簡單頁面介紹師路南通功能列表：在頁面的首

爬蟲寫法及狀態碼的認知,以小豬短租為例---爬蟲案例

寫一個最簡單的爬蟲

先介紹,我的環境:

Ubuntu:18.04(64位)

IDE(解釋為開發環境,用什麼寫的)

Python3.6

注意Python2.X 和Python3.X有些語法問題,看情況而定

爬蟲網站為'http://www.xiaozhu.com/'

前面說過了request請求,response響應,OK第一個爬蟲完成了,是不是很簡單.不說這麼多了上程式碼.看看效果.這個爬蟲只是請求的網頁<HTML>

得到:'<Response [200]>',這個是什麼?說明訪問成功.

這裡就需要咱們要知道些什麼了,訪問是否成功,返回數值為狀態碼什麼意思?

1XX（資訊類）

該型別狀態碼錶示接收到請求並且繼續處理。

100，客戶端必須繼續發出請求。

101，客戶端要求伺服器根據請求轉換HTTP協議版本。

2XX（響應成功）

該型別狀態碼錶示動作被成功接收、理解和接受。

200，表明該請求被成功地完成，所請求的資源傳送到客戶端。

201，提示知道新檔案的URL。

202，接受並處理，但處理未完成。

203，返回資訊不確定或不完整。

204，收到請求，但返回資訊為空。

205，伺服器完成了請求，使用者必須復位當前已經瀏覽過的檔案。

206，伺服器已經完成了部分使用者的GET請求。

3XX（重定向類）

該型別狀態碼錶示為了完成指定的動作，必須接受進一步處理。

300，請求的資源可在多處獲得。

301，本網頁被永久性轉移到另一個URL。

302，請求的網頁被重定向到新的地址。

303，建議使用者訪問其他URL或訪問方式。

304，自從上次請求後，請求的網頁未修改過。

305，請求的資源必須從伺服器指定的地址獲得。

306，前一版本HTTP中使用的程式碼，現已不再使用。

307，宣告請求的資源臨時性刪除。

4XX（客戶端錯誤類）

該型別狀態碼錶示請求包含錯誤語法或不能正確執行。

400，客戶端請求有語法錯誤。

401，請求未經授權。

402，保留有效ChargeTo頭響應。

403，禁止訪問，伺服器收到請求，但拒絕提供服務。

404，可連線伺服器，但伺服器無法取得所請求的網頁，請求資源不存在。

405，使用者在Request-Line欄位定義的方法不被允許。

406，根據使用者傳送的Accept，請求資源不可訪問。

407，類似401，使用者必須首先在代理伺服器上取得授權。

408，客戶端沒有在使用者指定的時間內完成請求。

409，對當前資源狀態，請求不能完成。

410，伺服器上不再有此資源。

411，伺服器拒絕使用者定義的Content-Length屬性請求。

412，一個或多個請求頭欄位在當前請求中錯誤。

413，請求的資源大於伺服器允許的大小。

414，請求的資源URL長於伺服器允許的長度。

415，請求資源不支援請求專案格式。

416，請求中包含Range請求頭欄位，在當前請求資源範圍內沒有range指示值。

417，伺服器不滿足請求Expect頭欄位指定的期望值。

5XX（伺服器錯誤類）

該型別狀態碼錶示伺服器或閘道器錯誤。

500，伺服器錯誤。

501，伺服器不支援請求的功能。

502，閘道器錯誤。

503，無法獲得服務。

504，閘道器超時。

505，不支援的http版本。

這麼多的狀態碼,作為小白來說記不住的,多練習幾個爬蟲,從中積累下,就大部分明白了.

相關推薦