爬蟲第一課：爬蟲的基本原理

阿新 • • 發佈：2021-02-03

技術標籤：爬蟲爬蟲

1.什麼是爬蟲

請求⽹站並提取資料的⾃動化程式

2.爬蟲基本流程

發起請求。通過HTTP庫向⽬標站點發起請求，即傳送⼀個Request，請求可以包含額外的headers等資訊，等待伺服器響應。
獲取響應內容。如果伺服器能正常響應，會得到⼀個Response，Response的內容便是所要獲取的⻚⾯內容，型別可能有HTML，Json字串，⼆進位制資料（如圖⽚視訊）等型別。
解析內容，得到的內容可能是HTML，可以⽤正則表示式、⽹⻚解析庫進⾏解析。可能是Json，可以直接轉為Json物件解析，可能是⼆進位制資料，可以做儲存或者進⼀步的處理。
儲存資料。儲存形式多樣，可以存為⽂本，也可以儲存⾄資料庫，或者儲存特定格式的⽂件。

3.什麼是Request和Response?

瀏覽器就傳送訊息給該⽹址所在的伺服器，這個過程叫做HTTP Request。
伺服器收到瀏覽器傳送的訊息後，能夠根據瀏覽器傳送訊息的內容，做相應處理，然後把訊息回傳給瀏覽器。這個過程叫做HTTP Response。
瀏覽器收到伺服器的Response資訊後，會對資訊進⾏相應處理，然後展示。

Request

請求⽅式.主要有GET、POST兩種型別，另外還有HEAD、PUT、DELETE、OPTIONS等。
請求URL.URL全稱統⼀資源定位符，如⼀個⽹⻚⽂檔、⼀張圖⽚、⼀個視訊等都可以⽤URL唯⼀來確定。
請求頭.包含請求時的頭部資訊，如User-Agent、Host、Cookies等資訊。

請求體.請求時額外攜帶的資料如表單提交時的表單資料.

Response

響應狀態.有多種響應狀態，如200代表成功、301跳轉、404找不到⻚⾯、502伺服器錯誤
響應頭.如內容型別、內容⻓度、伺服器資訊、設定Cookie等等。
響應體.最主要的部分，包含了請求資源的內容，如⽹⻚HTML、圖⽚⼆進位制資料等。

4.能抓怎樣的資料？

⽹⻚⽂本.如HTML⽂檔、Json格式⽂本等。
圖⽚.獲取到的是⼆進位制⽂件，儲存為圖⽚格式。
如定點陣圖中圖片網址複製下來

import requests
response = requests.get('https://h.2345cdn.net/i/search20200812/pic-1.png' 
)#響應
print(response.content)#列印二進位制格式,圖片為二進位制

#寫入檔案
with open('D:\\deeplearn\\xuexicaogao\\百度.jpg','wb') as f:
    f.write(response.content)
    f.close()
print('結束')

視訊。同為⼆進位制⽂件，儲存為視訊格式即可。
其他。只要是能請求到的，都能獲取。

5.解析⽅式

我們需要對得到的網頁原始碼進行解析，解析方式有如下

直接處理。構造簡單，內容簡單可以直接處理
Json解析。
正則表示式
BeautifulSoup
XPath
PyQuery

6.如何儲存資料

⽂本。純⽂本、Json、Xml等。
關係型資料庫。如MySQL、Oracle、SQL Server等具有結構化表結構形式儲存。
⾮關係型資料庫。如MongoDB、Redis等Key-Value形式儲存。
⼆進位制⽂件。如圖⽚、視訊、⾳頻等等直接儲存成特定格式即可。

在這裡插入圖片描述

創作不易，大佬請留步… 動起可愛的雙手，來個贊再走唄 (๑◕ܫ￩๑)

爬蟲第一課：爬蟲的基本原理

技術標籤：爬蟲爬蟲 1.什麼是爬蟲請求⽹站並提取資料的⾃動化程式 2.爬蟲基本流程

Python爬蟲第一課：requests的使用

requests模組的入門使用注意是requests不是request. 1、為什麼使用requests模組，而不是用python自帶的urllib

001 第一篇：爬蟲基本原理

閱讀目錄一爬蟲是什麼二爬蟲的基本流程三請求與響應四 Request五 Response六總結

scrapy爬蟲專案(1)：scrapy基本使用

之前在寫爬蟲時，都是自己寫整個爬取過程，例如向目標網站發起請求、解析網站、提取資料、下載資料等，需要自己定義這些實現方法等

《p5.js創意遊戲程式設計》第一課：跳動的小球

準備：Hbuilder/vscode等可以編寫網頁的編輯器如果想立刻上手也可以使用線上編譯器p5.js官方線上編輯器，如果打不開也可以使用國內的一款線上編輯器jsrun編輯器，(第一課先使用jsrun線上編輯器)

第一課：檔案操作【剽取其一，加解密】

對於初學者而言，檔案寫入和讀出很陌生，這一環可以說是蠻深奧的，小編也算是剛接觸了，不過呢，小編有點心得，有的都不會寫出來，但是思路在。

【微控制器學習】第一課：課程介紹

【朱有鵬老師課程總結】第一部分、章節目錄 1.1.1.微控制器適合誰來學？ 1.1.2.咱們學什麼？ 1.1.3.我為什麼要學微控制器 1.1.4.為什麼要從51微控制器學起 1.1.5.咱們的開發板 1.1.6.學習本課程需要什麼

第一章：Java基本語法

一、第一個Java程式 1.1、編寫.java結尾的原始檔：Welcome.java publicclassWelcome{ public static void main(String[] args){

基礎SQL第一課：資料庫的操作

技術標籤：mysqlmysql資料庫一、資料庫的操作（1）、建立資料庫語法格式 create database [if not exists] 資料庫名 [character set 字符集]

golang呼叫java的函式_大話golang效能分析（一）：profile基本原理

技術標籤：golang呼叫java的函式引言：好久沒分享了，不多廢話了，準備一個專題分三期來分享下golang的效能分析。

吾愛破解培訓第一課：破解基礎知識之介紹常見工具和殼的特徵筆記

吾愛破解培訓第一課：破解基礎知識之介紹常見工具和殼的特徵筆記 [《吾愛破解培訓第一課：破解基礎知識之介紹常見工具和殼的特徵》講師：Hmily](https://www.52pojie.cn/thread-378612-1-1.html)

機器學習入門的第一課：迴歸

　　機器學習，通俗簡單來說，就是用某些演算法指導計算機模擬或實現人類的學習行為從已有的資料總結規律獲得“經驗”並不斷改善自身效能的一個過程。由此可見，演算法和資料是計算機學習到“新知識”或“新技能”的

Python爬蟲的基本原理

我們可以把網際網路比作一張大網，而爬蟲（即網路爬蟲）便是在網上爬行的蜘蛛。把網的節點比作一個個網頁，爬蟲爬到這就相當於訪問了該頁面，獲取了其資訊。可以把節點間的連線比作網頁與網頁之間的連結關係，這樣蜘

爬蟲基本原理

爬蟲是什麼 #1、什麼是網際網路？網際網路是由網路裝置（網線，路由器，交換機，防火牆等等）和一臺臺計算機連線而成，像一張網一樣。

第二十四節課：requests爬蟲實戰

# 第二十四節課：requests爬蟲實戰\'\'\'本節課大綱：1- 爬蟲的概述2- 爬蟲實操流程3- 實戰操作\'\'\'# 1- 爬蟲的概述# 我們瞭解的網路爬蟲是什麼？------爬取資料# 使用者獲取網路資料的方式：瀏覽器提交請求-->

用演算法配對的電晶體圖示儀：第一部分基本原理

目前常用的電晶體圖示儀，主要是測量，顯示電晶體的靜態（低頻）特性曲線，有些圖示儀可以將多個管子的特性曲線疊加顯示，通過觀察，瞭解不同管子特性的相似性。我們使用這種圖示儀，除了大致瞭解電晶體的靜態特性外

爬蟲與Python：（三）基本庫的使用——2.網路請求庫之request安裝

Python爬蟲中，除了urlib()外，還有一個使用的比較多的HTTP請求庫——requests。這個庫也是常用於HTTP請求模組，它使用Python語言編寫，可以方便的對網頁進行爬取，是學習Python比較好的HTTP請求模組。

爬蟲與Python：（三）基本庫的使用——3.網路請求庫之request使用介紹

爬蟲與Python：（三）基本庫的使用——4.re正則使用

正則表示式是一個特殊的字元序列，它能幫助使用者便捷地檢索一個字串是否與某種模式匹配。在爬蟲中我們經常會使用它來抓取到網頁原始碼或介面返回內容中匹配提取我們想要的資料。

爬蟲與Python：（三）基本庫的使用——6.XPath——XML中查詢資訊的語言

Path是一門在XML文件中查資訊的語言，XPath可用來XML文件中對元素和屬性進行遍歷。XPath是W3C XSLT 標準的主元素，並且XQuery和Xpointer都構建於XPath表達上。XPath在Python的爬蟲學習中，起著舉足輕重的作用，對比

爬蟲第一課：爬蟲的基本原理

1.什麼是爬蟲

2.爬蟲基本流程

3.什麼是Request和Response?

4.能抓怎樣的資料？

5.解析⽅式

6.如何儲存資料

相關推薦