爬蟲是什麼？爬蟲能幹什麼？一篇小白能懂的Python爬蟲工作流程！ python入門

阿新 • • 發佈：2018-11-07

爬蟲是什麼？爬蟲能幹什麼？一篇小白能懂的Python爬蟲工作流程！
這篇文章是給正準備學習或者想要Python爬蟲小白們看的。

如果不想看文章的可以私信我回復【爬蟲】有爬蟲入門的視訊教程
更多幹貨分享加python程式語言學習QQ群 515267276
根據使用場景，網路爬蟲可分為通用爬蟲（傳統爬蟲）和聚焦爬蟲兩種。
1.通用爬蟲捜索引擎抓取系統（Baidu、Google、Yahoo等）的重要組成部分。主要目的是將網際網路上的網頁下載到本地，形成一個網際網路內容的映象備份。但是大多數情況下，網頁裡面90%的內容對使用者來說是無用的。

2.聚焦爬蟲需要根據一定的網頁分析演算法過濾與主題無關的連結，保留有用的連結並將其放入等待抓取的URL佇列。然後，它將根據一定的搜尋策略從佇列中選擇下一步要抓取的網頁URL，並重覆上述過程，直到達到系統的某一條件時停止。

而我們現在要學的就是聚焦爬蟲：

爬蟲是什麼？爬蟲能幹什麼？一篇小白能懂的Python爬蟲工作流程！
http請求：
瀏覽器的一個url向http伺服器傳送請求，分為：get和post兩種。

瀏覽器傳送一個request請求去獲取URL的html檔案，伺服器把response檔案物件傳送回給瀏覽器。

瀏覽器解析response中的HTML，其中的img檔案，css檔案，js檔案，瀏覽器會自動再次傳送request請求獲取圖片，css檔案或js檔案。

當所有的檔案都下載成功後，網頁會根據HTML語法結構，完整地顯示出來。

爬蟲是什麼？爬蟲能幹什麼？一篇小白能懂的Python爬蟲工作流程！
HTTP請求主要分為Get和Post兩種方法：
GET是從伺服器上獲取資料，POST是向伺服器傳送資料
GET請求引數顯示，都顯示在瀏覽器網址上，HTTP伺服器根據該請求所包含URL中的引數
來產生響應內容，即"get"請求的引數是url的一部分。例如：Chinese_百度搜索

向指定資源提交資料進行處理請求（例如提交表單或者上傳檔案），資料被包含在請求體中。POST請求可能會導致新的資源的建立或已有資源的修改，一般主要是表單提交，請求引數在請求體當中，訊息長度沒有限制而且以隱式的方式進行傳送，通常用來向HTTP伺服器提交量比較大的資料（比如請求中包含許多引數或者檔案上傳操作等），請求的引數包含在"Content-Type"訊息頭裡，指明該訊息體的媒體型別和編碼。

注意：避免使用Get方式提交表單，因為有可能會導致安全問題。比如說在登陸表單中用Get方式，使用者輸入的使用者名稱和密碼將在位址列中暴露無遺。

Python爬蟲工作的流程圖：
爬蟲是什麼？爬蟲能幹什麼？一篇小白能懂的Python爬蟲工作流程！
看懂了嗎？不懂可以私信我回復【爬蟲】，有爬蟲入門視訊教程！希望對你學習有幫助！

更多幹貨分享加python程式語言學習QQ群 515267276 爬蟲是什麼？爬蟲能幹什麼？一篇小白能懂的Python爬蟲工作流程！

爬蟲是什麼？爬蟲能幹什麼？一篇小白能懂的Python爬蟲工作流程！ python入門

爬蟲是什麼？爬蟲能幹什麼？一篇小白能懂的Python爬蟲工作流程！ python入門

Python爬蟲小白---（二）爬蟲基礎--Selenium PhantomJS

完全零基礎小白該如何學爬蟲？大牛總結最適合零基礎的爬蟲教程！

java爬蟲爬取資源，小白必須會的入門程式碼塊

Python爬蟲小白——（二）爬蟲基礎——Selenium PhantomJS

60 多年前，一群小白程式設計師扒了一個俄羅斯的開源框架--小白都能看懂的作業系統Communix的歷史(轉)

貓眼網基礎爬蟲-小白的第一次爬蟲經歷

小白都懂的Python爬蟲之網易雲音樂下載

Python爬蟲爬取一篇韓寒新浪部落格

一名小白的一些感悟，吐槽（假如別人學編程之前說自己是零基礎，那麽我就是負基礎）

止損不見得能控制住回撤，一篇文章讓你認清自己的止損！

一篇小文章

爬蟲萬金油，一鵝在手，抓遍全球：goose 簡介！

# 華為考試心路歷程#一名小白的HCNP數通取證記錄

Web全棧“攻城獅”的快速養成：這一篇你可不能錯過！

輕鬆學Java基礎篇小白必備！

ubuntu14.04切換為gdm重啟後，電腦左上角只有一條小白槓在間歇性的閃動

0001 零基礎的小白能學會程式設計嗎

java常用類解析一，小白進階必備！

零基礎如何開始學習 Python？看完這篇小白變小牛！

爬蟲是什麼？爬蟲能幹什麼？一篇小白能懂的Python爬蟲工作流程！ python入門

相關推薦