【每天堅持學一點之python爬蟲】1、http基本原理

阿新 • • 發佈：2018-12-22

【本文是《python3網路爬蟲開發實戰》一書的學習筆記，原書作者崔慶才】

1、URL和URI

URL，全稱Universal Resource Locator，即統一資源定位符。

URI，全稱Uniform Resource Identifier，即統一資源標誌符。

URL是URI的子集，舉例：https://mat1.gtimg.com/pingjs/ext2020/qqindex2018/dist/img/qq_logo_2x.png，這個連結指向了騰訊網的logo圖片，這既是一個URL也是一個URI，它指定了該資源的訪問協議https，訪問路徑，和資源名稱。當然並不是每個URI都是URL，還有一類叫URN，這裡不做記錄。

2、超文字

超文字，hypertext，瀏覽器中看到的網頁就是超文字解析而成，網頁原始碼中的html程式碼就可以稱為超文字。

3、http和https

http和https都是網路協議型別，當然網路協議型別也包括其他的，像ftp，sftp等等。

http協議，全稱Hyper Text Transfer Protocol，超文字傳輸協議，用於從網路傳輸超文字資料到本地瀏覽器。

https協議，http協議的安全版，加了ssl的http協議，大勢所趨，在爬取時要專門處理。

4、http請求過程

5、請求

請求，由客戶端向伺服器端發出，由四部分構成，請求方法（GET/POST），請求地址（URL），請求頭（Headers），請求體（Body）。

請求方法，常用為GET和POST，GET的請求引數一般帶在URL中，而POST一般以表單形式傳參，除了這兩種還有其他方法

請求頭，用來說明伺服器要使用的附加資訊，包括像cookie，user-agent，host等。在編寫爬蟲時，基本上都要對請求頭進行設定，否則會被識別為爬蟲。

請求體，當請求為POST請求時請求體當中則是表單資料，若為GET請求則請求體為空。同時請求體中的資料型別也與請求頭中的Content-Type有關

6、響應

響應，由服務端返回給客戶端，由三部分構成，響應狀態碼，響應頭，響應體。

響應狀態碼，表示伺服器對於客戶端請求的響應狀態，例如出名的200,403,404,500等等。

響應頭，包含了伺服器對請求的應答資訊，例如Server，Set-Cookie，Content-Type等等。

響應體，響應的正文資料都包含在響應體中，例如請求網頁時，網頁的html原始碼都在響應體中，以及我們請求的諸如json資料等等，都在響應體中，爬蟲解析的也是這塊兒的內容。

【每天堅持學一點之python爬蟲】1、http基本原理

【本文是《python3網路爬蟲開發實戰》一書的學習筆記，原書作者崔慶才】 1、URL和URI URL，全稱Universal Resource Locator，即統一資源定位符。 URI，全稱Uniform Reso

【每天堅持學一點之python爬蟲】2、什麼是爬蟲

【本文是《python3網路爬蟲開發實戰》一書的學習筆記，原書作者崔慶才】 1、個人理解爬蟲就是從網路上獲取資訊並儲存展示的一種自動化的程式，而非人工搜尋。例如各大搜索引擎就是網路爬蟲的應用。 2、爬蟲分類

【每天堅持學一點之unity】1、Unity簡單呼叫Android原生方法的一些記錄

本文的思路靈感來源於CSDN上的一篇部落格，非常感謝原作者，原文地址為： https://blog.csdn.net/sinat_23156865/article/de

【Python筆記】1、格式化輸出（%用法和format用法）

一、格式化輸出1、整數的輸出%o —— oct 八進位制%d —— dec 十進位制%x —— hex 十六進位制1 >>> print('%o' % 20) 2 24 3 >>> print('%d' % 20) 4 20 5 >&

【專欄】- CentOS雲服務端之Python爬蟲及資料庫知識

作者：楊秀璋學歷：本科-北京理工大學碩士-北京理工大學現任教於貴財財經大學資訊學院 http://www.eastmountyxz.com 簡介：自幼受貴州大山的薰陶，養成了誠實質樸的性格。經過寒窗苦讀，考入BIT，為完成自己的教師夢，放棄IT、航天等工

【Python爬蟲】Requests庫的安裝

comm AS imp pypi pan span douban OS host 1.按照普通的pip不能行，說find不能有位小傑控的大牛說了一句：換一個國內的更新源吧， pip install requests -i http://pypi.douban.com/si

【Python爬蟲】從html裏爬取中國大學排名

ext 排名所有一個 requests 空格創建 .text request from bs4 import BeautifulSoupimport requestsimport bs4 #bs4.element.Tag時用的上#獲取網頁頁面HTMLdef

【Python爬蟲】Python安裝

pip 是一個現代的，通用的 Python 包管理工具。提供了對 Python 包的查詢、下載、安裝、解除安裝的功能。 IDLE 是一個Python Shell，一個純 Python下自帶的簡潔的整合開發環境(IDE)。IDLE是跟Python一起安裝的，不過

scrapy框架爬蟲爬取糗事百科之 Python爬蟲從入門到放棄第不知道多少天（1）

Scrapy框架安裝及使用 1. windows 10 下安裝 Scrapy 框架：　　前提：安裝了python-pip 　　1. windows下按住win+R 輸入cmd 　　2. 在cmd 下輸入　　　　　　pip install scrapy 　　　　　　pip inst

【python 爬蟲】BeautifulSoup4 庫的介紹使用

有部分內容為北理嵩天老師的爬蟲教程的個人學習筆記，結合其他部落格整理學習。前言：資訊標記形式 html是將聲音、影象、音訊嵌入到文字中，是Internet上的主要資訊組織、傳遞形式，通過預定義的標籤< >…</ >將不同型別的資訊組織起來。國際上標準的資訊標

深度學習之網路設計時優化【Dropout，Batch Normalization及其python實現】

一、Dropout 隨機失活是一種簡單但非常有效的神經網路訓練效果提升技巧，原理大概是它在一定程度上避免了某些特定特徵組合對訓練造成的負面影響。在正向傳播時隨機挑選一部分神經元失活。在反向傳播時梯度只流經沒有失活的神經元。圖1 使用Dropout的網路結構示意

建站四部曲之Python爬蟲+資料準備篇(selenium)

本系列分為四篇：建站四部曲之後端介面篇（SpringBoot+上線）建站四部曲之Python資料爬蟲篇(selenium) 建站四部曲之前端顯示篇（React+上線）建站四部曲之移動端篇（Android）零、前言本系列為了總結一下手上的知識，致敬我的2018 本

【Python爬蟲】下載微信公眾號圖片

大家用爬蟲下載圖片時肯定遇到過https://demo?wx_fmt=jpeg連結的圖片，常見的就是微信公眾號的圖片。遇到連結圖片用普通的方式是無法爬取下來的，我們可以用urllib.request進

【Python爬蟲】微信公眾號歷史文章和文章評論API分析

上一篇文章爬取微信公眾號文章資訊準備工作介紹了微信公眾號歷史文章和文章評論API的組成情況，歷史文章API格式：https://mp.weixin.qq.com/mp/profile_ext?action=getmsg&__biz=MjM5NjAxOTU4MA==&f=json&

【Python爬蟲】爬取微信公眾號文章資訊準備工作

有一天發現我關注了好多微信公眾號，那時就想有沒有什麼辦法能夠將微信公眾號的文章弄下來，而且還想將一些文章的精彩評論一起搞下來。參考了一些文章，通過幾天的研究基本上實現了自己的要求，現在記錄一下自己的一些心得。整個研究過程如下： 1.瞭解微信公眾號文章連結的組成，歷史文章API組成，單個文章

【Python爬蟲】使用urllib.request下載已知連結的網路資源

如果有這樣一個場景，我們的EXCEL某一列記錄了好多（圖片、視訊、音訊）連結A，另外一列記錄了連結名稱B，現在我們想要自動下載這些連結的檔案，我們應該怎樣處理？ 1.迴圈去excel取值,將A和B存入到一個二維列表中 2.根據連結字尾不同情況（.jpg,.mp4,mp3等）用urllib.req

【python 爬蟲】Mac環境下selenium、ChromeDriver的安裝

1.安裝Selenium庫在終端輸入下面指令： pip3 install selenium 2.安裝ChromeDriver 這個安裝有點麻煩，我參考一個bloghttps://cuiqingcai.com/5135.html的。Mac的rootless機制我弄了很

【python爬蟲】動態載入頁面的解決辦法（以ins為例）

現在很多的web頁面使用ajax技術動態載入頁面。但對於爬蟲來說，目標資料很可能不在頁面HTML原始碼中（右鍵檢視網頁原始碼，通過F12查詢），針對靜態頁面的爬蟲不再滿足現在的需求。很多教程都推薦用Selenium和PhantomJS配合使用，實現網頁的渲染，得到網頁的全

【python爬蟲】抓取連結網頁內的文字（第一步定位超連結文字）

第一步：匯入模組>>> import re >>> from bs4 import BeautifulSoup >>> import urllib.request ---------------------------

【Python爬蟲】Requests 請求並讀寫、儲存到excel檔案中

爬取前程無憂職位資訊此次我們用簡單的爬蟲來展示如何把爬到提取出的資訊儲存的excel檔案中.（ps：首先你要安裝好模組openpyxl否則就點選右上角離開，百度搜素安裝.）選前程無憂的網頁作為案例是因為主編最近在看看工作的訊息，想想就順手寫了一個為方便尋找滿足自己要

【每天堅持學一點之python爬蟲】1、http基本原理

相關推薦