001 第一篇：爬蟲基本原理

阿新 • • 發佈：2020-12-06

閱讀目錄

一爬蟲是什麼
二爬蟲的基本流程
三請求與響應
四 Request
五 Response
六總結

一爬蟲是什麼

#1、什麼是網際網路？
    網際網路是由網路裝置（網線，路由器，交換機，防火牆等等）和一臺臺計算機連線而成，像一張網一樣。
#2、網際網路建立的目的？

網際網路的核心價值在於資料的共享/傳遞：資料是存放於一臺臺計算機上的，而將計算機互聯到一起的目的就是為了能夠方便彼此之間的資料共享/傳遞，否則你只能拿U盤去別人的計算機上拷貝資料了。
#3、什麼是上網？爬蟲要做的是什麼？

    我們所謂的上網便是由使用者端計算機發送請求給目標計算機，將目標計算機的資料下載到本地的過程。

 
#3.1 只不過，使用者獲取網路資料的方式是：

瀏覽器提交請求->下載網頁程式碼->解析/渲染成頁面。
</span><span style="color: rgba(0, 128, 0, 1)">#</span><span style="color: rgba(0, 128, 0, 1)">3.2 而爬蟲程式要做的就是：</span>
  模擬瀏覽器傳送請求-&gt;下載網頁程式碼-&gt;只提取有用的資料-&gt;<span style="color: rgba(0, 0, 0, 1)">存放於資料庫或檔案中
 

　

#3.1與3.2的區別在於:

      我們的爬蟲程式只提取網頁程式碼中對我們有用的資料
#4、總結爬蟲

#4.1 爬蟲的比喻：

如果我們把網際網路比作一張大的蜘蛛網，那一臺計算機上的資料便是蜘蛛網上的一個獵物，而爬蟲程式就是一隻小蜘蛛，沿著蜘蛛網抓取自己想要的獵物/資料
</span><span style="color: rgba(0, 128, 0, 1)">#</span><span style="color: rgba(0, 128, 0, 1)">4.2 爬蟲的定義：</span>

      向網站發起請求，獲取資源後分析並提取有用資料的程式
 

</span><span style="color: rgba(0, 128, 0, 1)">#</span><span style="color: rgba(0, 128, 0, 1)">4.3 爬蟲的價值：</span>
  網際網路中最有價值的便是資料，比如天貓商城的商品資訊，鏈家網的租房資訊，雪球網的證券投資資訊等等，這些資料都代表了各個行業的真金白銀，可以說，誰掌握了行業內的第一手資料，誰就成了整個行業的主宰，如果把整個網際網路的資料比喻為一座寶藏，那我們的爬蟲課程就是來教大家如何來高效地挖掘這些寶藏，掌握了爬蟲技能，你就成了所有網際網路資訊公司幕後的老闆，換言之，它們都在免費為你提供有價值的資料。</pre>

二爬蟲的基本流程

#1、發起請求
使用http庫向目標站點發起請求，即傳送一個Request
Request包含：請求頭、請求體等
#2、獲取響應內容

如果伺服器能正常響應，則會得到一個Response

Response包含：html，json，圖片，視訊等
#3、解析內容

解析html資料：正則表示式，第三方解析庫如Beautifulsoup，pyquery等

解析json資料：json模組

解析二進位制資料:以b的方式寫入檔案
#4、儲存資料

資料庫

檔案

三請求與響應

#http協議：http://www.cnblogs.com/linhaifeng/articles/8243379.html

#Request：使用者將自己的資訊通過瀏覽器（socket client）傳送給伺服器（socket server）

#Response：伺服器接收請求，分析使用者發來的請求資訊，然後返回資料（返回的資料中可能包含其他連結，如：圖片，js，css等）

#ps：瀏覽器在接收Response後，會解析其內容來顯示給使用者，而爬蟲程式在模擬瀏覽器傳送請求然後接收Response後，是要提取其中的有用資料。

四 Request

#1、請求方式：
    常用的請求方式：GET，POST
    其他請求方式：HEAD，PUT，DELETE，OPTHONS
ps：用瀏覽器演示get與post的區別，（用登入演示post）

post與get請求最終都會拼接成這種形式：k1</span>=xxx&amp;k2=yyy&amp;k3=<span style="color: rgba(0, 0, 0, 1)">zzz
post請求的引數放在請求體內：
    可用瀏覽器檢視，存放於form data內
get請求的引數直接放在url後

#2、請求url

    url全稱統一資源定位符，如一個網頁文件，一張圖片

一個視訊等都可以用url唯一來確定
url編碼
https:</span>//www.baidu.com/s?wd=<span style="color: rgba(0, 0, 0, 1)">圖片
圖片會被編碼（看示例程式碼）


網頁的載入過程是：
載入一個網頁，通常都是先載入document文件，
在解析document文件的時候，遇到連結，則針對超連結發起下載圖片的請求

#3、請求頭

User-agent：請求頭中如果沒有user-agent客戶端配置，

服務端可能將你當做一個非法使用者

host

cookies：cookie用來儲存登入資訊
一般做爬蟲都會加上請求頭

#4、請求體

    如果是get方式，請求體沒有內容

如果是post方式，請求體是format data
ps：
</span>1<span style="color: rgba(0, 0, 0, 1)">、登入視窗，檔案上傳等，資訊都會被附加到請求體內
</span>2、登入，輸入錯誤的使用者名稱密碼，然後提交，就可以看到post，正確登入後頁面通常會跳轉，無法捕捉到post&nbsp;</pre>

from urllib.parse import urlencode
import requests
headers={

'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,/;q=0.8',

'Cookie':'H_WISE_SIDS=101556_115474_115442_114743_108373_100099_115725_106201_107320_115339_114797_115553_116093_115546_115625_115446_114329_115350_114275_116040_110085; PSTM=1494300712; BAIDUID=42FE2934E37AF7AD1FA31D8CC7006D45:FG=1; BIDUPSID=2996557DB2710279BD865C50F9A68615; MCITY=-%3A; __cfduid=da9f97dea6458ca26aa4278280752ebb01508939712; BDSFRCVID=PGLsJeCCxG3wt_3ZUrBLDfv2D_qBZSjAgcEe3J; H_BDCLCKID_SF=tJAOoCLytI03qn5zq4Oh-4oHhxoJq5QxbT7Z0l8KtfcNVJQs-lCMhbtp-l3GJPoLWK6hBKQmWIQHDnbsbq0M2tcQXR5-WROCte74KKJx-4PWeIJo5tKh04JbhUJiB5OLBan7Lq7xfDDbbDtmej_3-PC3ql6354Rj2C_X3b7EfKjIOtO_bfbT2MbyeqrNQlTkLIvXoITJQD_bEP3Fbfj2DPQ3KabZqjDjJbue_I05f-oqebT4btbMqRtthf5KeJ3KaKrKW5rJabC3hPJeKU6qLT5Xjh6B5qDfyDoAbKOt-IOjhb5hMpnx-p0njxQyaR3RL2Kj0p_EWpcxsCQqLUonDh8L3H7MJUntKjnRonTO5hvvhb6O3M7-XpOhDG0fJjtJJbksQJ5e24oqHP-kKPrV-4oH5MQy5toyHD7yWCvjWlT5OR5Jj6KMjMkb3xbz2fcpMIrjob8M5CQESInv3MA--fcLD2ch5-3eQgTI3fbIJJjWsq0x0-jle-bQypoa-U0j2COMahkMal7xO-QO05CaD53yDNDqtjn-5TIX_CjJbnA_Hn7zepoxebtpbt-qJJjzMerW_Mc8QUJBH4tR-T3keh-83xbnBT5KaKO2-RnPXbcWjt_lWh_bLf_kQN3TbxuO5bRiL66I0h6jDn3oyT3VXp0n54nTqjDHfRuDVItXf-L_qtDk-PnVeUP3DhbZKxtqtDKjXJ7X2fclHJ7z-R3IBPCD0tjk-6JnWncKaRcI3poiqKtmjJb6XJkl2HQ405OT-6-O0KJcbRodobAwhPJvyT8DXnO7-fRTfJuJ_DDMJDD3fP36q4QV-JIehmT22jnT32JeaJ5n0-nnhP3mBTbA3JDYX-Oh-jjRX56GhfO_0R3jsJKRy66jK4JKjHKet6vP; ispeed_lsm=0; H_PS_PSSID=1421_24558_21120_17001_24880_22072; BD_UPN=123253; H_PS_645EC=44be6I1wqYYVvyugm2gc3PK9PoSa26pxhzOVbeQrn2rRadHvKoI%2BCbN5K%2Bg; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598',

'Host':'www.baidu.com',

'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'}
# response=requests.get('https://www.baidu.com/s?'+urlencode({'wd':'美女'}),headers=headers)

response=requests.get('https://www.baidu.com/s',params={'wd':'美女'},headers=headers) #params內部就是呼叫urlencode

print(response.text)

View Code

五 Response

#1、響應狀態
    200：代表成功
    301：代表跳轉
    404：檔案不存在
    403：許可權
    502：伺服器錯誤
#2、Respone header

set-cookie：可能有多個，是來告訴瀏覽器，把cookie儲存下來
#3、preview就是網頁原始碼

    最主要的部分，包含了請求資源的內容

如網頁html，圖片

二進位制資料等

六總結

#1、總結爬蟲流程：
    爬取--->解析--->儲存
#2、爬蟲所需工具：

    請求庫：requests,selenium

解析庫：正則，beautifulsoup，pyquery

儲存庫：檔案，MySQL，Mongodb，Redis
#3、爬蟲常用框架：

scrapy

import requests
import re
import time
import hashlib
def get_page(url):

print('GET %s' %url)

try:

response=requests.get(url)

if response.status_code == 200:

return response.content

except Exception:

pass
def parse_index(res):

obj=re.compile('class="items.?<a href="(.?)"',re.S)

detail_urls=obj.findall(res.decode('gbk'))

for detail_url in detail_urls:

if not detail_url.startswith('http'):

detail_url='http://www.xiaohuar.com'+detail_url

yield detail_url
def parse_detail(res):

obj=re.compile('id="media".?src="(.?)"',re.S)

res=obj.findall(res.decode('gbk'))

if len(res) > 0:

movie_url=res[0]

return movie_url
def save(movie_url):

response=requests.get(movie_url,stream=False)

if response.status_code == 200:

m=hashlib.md5()

m.update(('%s%s.mp4' %(movie_url,time.time())).encode('utf-8'))

filename=m.hexdigest()

with open(r'./movies/%s.mp4' %filename,'wb') as f:

f.write(response.content)

f.flush()
def main():

index_url='http://www.xiaohuar.com/list-3-{0}.html'

for i in range(5):

print(''50,i)

#爬取主頁面

index_page=get_page(index_url.format(i,))

#解析主頁面,拿到視訊所在的地址列表

detail_urls=parse_index(index_page)

#迴圈爬取視訊頁

for detail_url in detail_urls:

#爬取視訊頁

detail_page=get_page(detail_url)

#拿到視訊的url

movie_url=parse_detail(detail_page)

if movie_url:

#儲存視訊

                save(movie_url)
if name == 'main':

main()
#併發爬取

from concurrent.futures import ThreadPoolExecutor

import queue

import requests

import re

import time

import hashlib

from threading import current_thread
p=ThreadPoolExecutor(50)
def get_page(url):

print('%s GET %s' %(current_thread().getName(),url))

try:

response=requests.get(url)

if response.status_code == 200:

return response.content

except Exception as e:

print(e)
def parse_index(res):

print('%s parse index ' %current_thread().getName())

res=res.result()

obj=re.compile('class="items.?<a href="(.?)"',re.S)

detail_urls=obj.findall(res.decode('gbk'))

for detail_url in detail_urls:

if not detail_url.startswith('http'):

detail_url='http://www.xiaohuar.com'+detail_url

p.submit(get_page,detail_url).add_done_callback(parse_detail)
def parse_detail(res):

print('%s parse detail ' %current_thread().getName())

res=res.result()

obj=re.compile('id="media".?src="(.?)"',re.S)

res=obj.findall(res.decode('gbk'))

if len(res) > 0:

movie_url=res[0]

print('MOVIE_URL: ',movie_url)

with open('db.txt','a') as f:

f.write('%s\n' %movie_url)

# save(movie_url)

        p.submit(save,movie_url)

print('%s下載任務已經提交' %movie_url)

def save(movie_url):

print('%s SAVE: %s' %(current_thread().getName(),movie_url))

try:

response=requests.get(movie_url,stream=False)

if response.status_code == 200:

m=hashlib.md5()

m.update(('%s%s.mp4' %(movie_url,time.time())).encode('utf-8'))

filename=m.hexdigest()

with open(r'./movies/%s.mp4' %filename,'wb') as f:

f.write(response.content)

f.flush()

except Exception as e:

print(e)
def main():

index_url='http://www.xiaohuar.com/list-3-{0}.html'

for i in range(5):

p.submit(get_page,index_url.format(i,)).add_done_callback(parse_index)
if name == 'main':

main()

爬取校花網視訊

001 第一篇：爬蟲基本原理

閱讀目錄一爬蟲是什麼二爬蟲的基本流程三請求與響應四 Request五 Response六總結

爬蟲第一課：爬蟲的基本原理

技術標籤：爬蟲爬蟲 1.什麼是爬蟲請求⽹站並提取資料的⾃動化程式 2.爬蟲基本流程

爬蟲基本原理

爬蟲是什麼 #1、什麼是網際網路？網際網路是由網路裝置（網線，路由器，交換機，防火牆等等）和一臺臺計算機連線而成，像一張網一樣。

SpringCloud 教程 | 第一篇：服務的註冊與發現Eureka（轉載）

SpringCloud 教程 | 第一篇：服務的註冊與發現Eureka(Finchley版本) 轉載請標明出處：http://blog.csdn.net/forezp/article/details/81040925本文出自方誌朋的部落格

【計算機網路】第一篇：計算機網路七層模型

第一篇：計算機網路七層模型 OSI七層網路模型　　OSI（Open System Interconnection）開放系統互連參考模型是國際標準化組織（ISO）制定的一個用於計算機或通訊系統間互聯的標準體系。

【計算機網路】學習筆記，第一篇：概述（謝希仁版）

本來沒想著更新計網，想直接整理一下 HTTP、TCP 那塊，不過想了一下從頭開始整理哇，順便鞏固一下學的知識

006 第五篇：爬蟲高效能相關

閱讀目錄一背景知識二同步、非同步、回撥機制三高效能一背景知識爬蟲的本質就是一個socket客戶端與服務端的通訊過程，如果我們有多個url待爬取，只用一個執行緒且採用序列的方式執行，那隻能等待爬取一個結束後

第一章：Java基本語法

一、第一個Java程式 1.1、編寫.java結尾的原始檔：Welcome.java publicclassWelcome{ public static void main(String[] args){

史上最簡單的 SpringCloud 教程 | 第一篇：服務的註冊與發現（Eureka）Spring Cloud 從入門到精通

一、spring cloud簡介 spring cloud 為開發人員提供了快速構建分散式系統的一些工具，包括配置管理、服務發現、斷路器、路由、微代理、事件匯流排、全域性鎖、決策競選、分散式會話等等。它執行環境簡單，可以在開發

Docker實戰 | 第一篇：Linux 安裝 Docker

技術標籤：dockerdocker 1. 安裝依賴包 yum install -y yum-utils device-mapper-persistent-data lvm2

Redis第一篇：走進redis

目錄一、概述 Redis之父：Salvatore Sanfilippo一名義大利程式設計師，大家更習慣稱呼他 Antirez。 Redis即REmote Dictionary Server(遠端字典伺服器)。 REmote Dictionary Server(Redis)是由Sal

golang呼叫java的函式_大話golang效能分析（一）：profile基本原理

技術標籤：golang呼叫java的函式引言：好久沒分享了，不多廢話了，準備一個專題分三期來分享下golang的效能分析。

如何在OpenVINO中實現自己的自定義運算元 – 第一篇：搞定模型轉換

技術標籤：程式設計技巧開源專案深度學習前言與主流的深度學習框架類似，OpenVINO也提供一套擴充套件機制，方便開發者可以實現自己的自定義運算元。自定義運算元有如下三種使用場景：

第一篇：DRF之介紹與簡單使用

第一篇：DRF之介紹與簡單使用目錄第一篇：DRF之介紹與簡單使用一、web開發模式1、前後端不分離2、前後端分離二、api介面三、postman使用四、RESTful規範【重點】五、drf的安裝和簡單使用

.net core工具元件系列之Redis—— 第一篇：Windows環境配置Redis(5.x以上版本)以及部署為Windows服務

Cygwin工具編譯Redis Redis6.x版本是未編譯版本(官方很調皮，所以沒辦法，咱只好幫他們編譯一下了)，所以咱們先下載一個Cygwin，用它來對Redis進行編譯。

第一篇：linux之虛擬環境與centos安裝

第一篇：linux之虛擬環境與centos安裝目錄第一篇：linux之虛擬環境與centos安裝一、vmware安裝二、centos安裝1、centos虛擬環境安裝2、centos作業系統配置

spring成神之路第一篇：為何要學spring

Spring系列目標：從入門掌握一個高階開發所需要的技能。環境 jdk1.8 idea maven-3.6.1

Flink入門-第一篇：Flink基礎概念以及競品對比

Flink入門-第一篇：Flink基礎概念以及競品對比 Flink介紹截止2021年10月Flink最新的穩定版本已經發展到1.14.0

springboot2專題之第三篇：自動配置原理

1、SpringBoot特點 1.1、依賴管理父專案做依賴管理依賴管理 <parent> <groupId>org.springframework.boot</groupId>

史上最簡單的 SpringCloud 教程 | 第一篇：服務的註冊與發現（Eureka）

史上最簡單的 SpringCloud 教程 | 第一篇：服務的註冊與發現（Eureka）史上最簡單的 SpringCloud 教程 | 第一篇：服務的註冊與發現（Eureka）

001 第一篇：爬蟲基本原理

一 爬蟲是什麼

二 爬蟲的基本流程

三 請求與響應

四 Request

五 Response

六 總結

相關推薦

一爬蟲是什麼

二爬蟲的基本流程

三請求與響應

六總結