python 爬蟲開發基礎知識

阿新 • • 發佈：2018-11-01

Request
請求方式常用的有get post
請求的url
第一部分是協議(或稱為服務方式)
第二部分是存有該資源的主機IP地址(有時也包括埠號)
第三部分是主機資源的具體地址，如目錄和檔名等
請求頭包含請求時的頭部資訊，如User-Agent,Host,Cookies等資訊
請求體請求時攜帶的資料，如提交表單資料時候的表單資料
Response
所有HTTP響應的第一行都是狀態行，依次是當前HTTP版本號，3位數字組成的狀態程式碼，以及描述狀態的短語，彼此由空格分隔
相應狀態有多種響應狀態，如：200代表成功，301跳轉，404找不到頁面，502伺服器錯誤
響應頭如內容型別，型別的長度，伺服器資訊，設定Cookie
響應體最主要的部分，包含請求資源的內容，如網頁HTMl,圖片，二進位制資料等
3.URL解析
urlparse
from urllib.parse import urlparse
result = urlparse("

http://www.baidu.com/index.html;user?id=5#comment")
urlencode 這個方法可以將字典轉換為url引數
urlencode(params) params 是字典格式
4.Requests是用python語言基於urllib編寫的
response.text會出現亂碼的問題，所以這個使用response.content
這樣返回的資料格式其實是二進位制格式，然後通過decode()轉換為utf-8，這樣就解決了通過response.text直接返回顯示亂碼的問題.
Requests模組允許使用params關鍵字傳遞引數，以一個字典來傳遞這些引數
response = requests.get("

http://httpbin.org/get",params=data)
response = requests.post("http://httpbin.org/post",data=data)
檔案上傳
files= {"files":open("git.jpeg","rb")}
response = requests.post("http://httpbin.org/post",files=files)
獲取cookie response.cookies
證書驗證
from requests.packages import urllib3
urllib3.disable_warnings()
response = requests.get("

https://www.12306.cn",verify=False)
代理設定
requests.get("https://www.baidu.com",proxies=proxies)
認證設定
response = requests.get("http://120.27.34.24:9001/",auth=HTTPBasicAuth("user","123"))
異常
所有的異常方法都在requests.exceptions，使用時根據需要進行引入即可

python 爬蟲開發基礎知識

Request請求方式常用的有get post請求的url 第一部分是協議(或稱為服務方式)第二部分是存有該資源的主機IP地址(有時也包括埠號)第三部分是主機資源的具體地址，如目錄和檔名等請求頭包含請求時的頭部資訊，如User-Agent,Host,Cookies等資訊請求體請求時攜帶的資料，如提

Python開發基礎知識 3.類別&方法 (bool & str) (未完待續)

類別可使用type()檢視內建 [ 布林:bool (Boolen)　　字串:str (String)　　數字:int (Integer)　　小數:float　列表:list　　元祖:tuple　　字典:dict ] 亦可用class宣告新類別布林值 (用於比較、邏輯

Python開發基礎知識 2.變量 ( *arg, **kwargs )

python開發 nbsp brush 若有 return pri bsp true justin 變量 *args 和 **kwargs ( *和**為本體，名稱為通俗的名稱約定 ) *args 用於函式定義。可將不定數量的參數傳遞給一個函數，傳入函式的引數，會先以

Python爬蟲開發（一）：零基礎入門

0×00 介紹本人對於Python學習建立了一個小小的學習圈子，為各位提供了一個平臺，大家一起來討論學習Python。歡迎各位到來Python學習群：960410445一起討論視訊分享學習。Python是未來的發展方向，正在挑戰我們的分析能力及對世界的認知方式，因此，我們與時俱進，迎接變化，並

微信小程序開發基礎知識總結

nodes owa wim remove ide rdd custom value onload 微信小程序在無論在功能、文檔及相關支持方面，都是優於前面幾種微信賬號類型，它提供了很多原生程序才有的接口，使得我們的小程序在很多方面突破H5頁面應用的限制，更加接近原生程序的功

菜鳥的Python之路--基礎知識

python 剛剛開始自學Python，整理一下自己的學習感悟剛剛開始學習Python，代碼之路才剛剛開始第一個差距就感受到了。Python的標點符號與其他語言的差別，它每句後面都沒有“；”。變量的命名規則 1. 要具有描述性 2. 變量名只

菜鳥的Python之路--基礎知識（列表的基本操作）

python列表list1 = [,,,,,]list2 = [,,] t = [,,,,,] t.sort(=)(t)本文出自 “11316806” 博客，請務必保留此出處http://11326806.blog.51cto.com/11316806/1959140菜鳥的Python之路--基礎知識（列表的

響應式布局的開發基礎知識

是什麽代碼開發人員通過 css3 相對智能 nta 成了本章主要分為以下幾個部分正確理解響應式設計響應式設計的步驟響應式設計需要註意的問題響應式網頁布局實現原理第一：正確理解響應式布局響應式網頁設計就是一個網站能夠兼容多個終端-而不是為每個終端做一

Python練習題（基礎知識練習題（二））

strip() 哪些字符單行註釋 alt imp exe 列表表格形式 1.執行Python腳本的兩種方式 (1).交互方式：啟動python解釋器，執行命令 (2).腳本方式：Python xxx.py 或者 chmod +x && ./xxx.p

Python練習題（基礎知識練習題（三））

代碼實現 odin ref for 移除空格 python練習列表 end 1、請用代碼實現：利用下劃線將列表的每一個元素拼接成字符串，li = [‘alex‘,‘eric‘,‘rain‘] #!/usr/bin/env python# -*- coding:utf-8

python函數-基礎知識

/usr 復制代碼執行 odi 示例作用 env people 復制一、含義函數是程序內的“小程序”二、示例#!/usr/bin/env python#coding:utf-8def hello(): print(‘Hello world!‘) print

Python之路——基礎知識02

使用 from 登陸驗證密碼錯誤變量定義是否賦值運算基本 oba 一、Hello World！假設你已經安裝好了Python, 那麽在Linux命令行輸入: $python 將直接進入python。然後在命令行提示符>>>後面輸入: >&

Python爬蟲開發系列之一》開發IDE安裝

開發 size 環境配置技術 keyword -s www 版本是不是中國有句古話說：工欲善其事，必先利其器！在我最開始學 Python 的時候，因為沒有去探索好用的工具，吃了很多苦頭。磕磕絆絆走過來之後才知道，好的工具給效率帶來的提升不是從 1 到 1.1 倍速

學習日記 | 5.29 [Python3] Python Web開發基礎

odi 編碼 AC htm extends app render www amp 註：這是一系列基於實驗樓網絡培訓的python學習日記，內容零散，只是便於我自己回顧，有需要請了解www.shiyanlou.com。 3. 實驗13: jinja2模板 flask

python 爬蟲urllib基礎示例

urllib 爬蟲基礎環境使用python3.5.2 urllib3-1.22 下載安裝wget https://www.python.org/ftp/python/3.5.2/Python-3.5.2.tgztar -zxf Python-3.5.2.tgzcd Python-3.5.2/./

APP開發基礎知識

百度 ips undefine 蘋果官方文檔 java obj .net 屬於引擎本文針對小白用戶對App做一個簡單的介紹，首先要了解App都有哪些類型，不同的類型適用於哪些需求，用戶可以根據自己的需求選擇不同的App開發。一 App有哪些形式 WebApp：簡單來說

Python學習_1_基礎知識

sdf hello orm 結束命名規則 def 字符 for 常用數據類型 1. 命名規則 1> 不以數字開頭，不用中文命名 2>不用關鍵字 int/pass/def/return等 3>使用字母，數字，下劃線命名如class_0622 4>

Python爬蟲開發【第1篇】【urllib2】

返回JSON數據驗證 ajax 本地磁盤發送請求 doc 大寫總結錯誤 1、urlopen # urllib2_urlopen.py # 導入urllib2 庫 import urllib2 # 向指定的url發送請求，並返回服務器響應的類文件對象 respo

Python爬蟲開發【第1篇】【正則表達式】

返回 true ccf color arch iter 子串 call last 1、正則表達式　　它是對字符串操作的一種邏輯公式，就是用事先定義好的一些特定字符、及這些特定字符的組合，組成一個“規則字符串”，這個“規則字符串”用來表達對字符串的一種過濾邏輯。 2、re

Python爬蟲開發【第1篇】【beautifulSoup4解析器】

res tail {} nbsp catalog XML select 解析器 enc CSS 選擇器：BeautifulSoup4 Beautiful Soup 也是一個HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 數據。 pip 安裝：pip

python 爬蟲開發基礎知識

相關推薦