爬蟲是什麼?爬蟲能幹什麼?一篇小白能懂的Python爬蟲工作流程! python入門
這篇文章是給正準備學習或者想要Python爬蟲小白們看的。
如果不想看文章的可以私信我回復【爬蟲】有爬蟲入門的視訊教程
更多幹貨分享加python程式語言學習QQ群 515267276
根據使用場景,網路爬蟲可分為通用爬蟲(傳統爬蟲)和聚焦爬蟲兩種。
1.通用爬蟲捜索引擎抓取系統(Baidu、Google、Yahoo等)的重要組成部分。主要目的是將網際網路上的網頁下載到本地,形成一個網際網路內容的映象備份。但是大多數情況下,網頁裡面90%的內容對使用者來說是無用的。
2.聚焦爬蟲需要根據一定的網頁分析演算法過濾與主題無關的連結,保留有用的連結並將其放入等待抓取的URL佇列。然後,它將根據一定的搜尋策略從佇列中選擇下一步要抓取的網頁URL,並重覆上述過程,直到達到系統的某一條件時停止。
而我們現在要學的就是聚焦爬蟲:
http請求:
瀏覽器的一個url向http伺服器傳送請求,分為:get和post兩種。
瀏覽器傳送一個request請求去獲取URL的html檔案,伺服器把response檔案物件傳送回給瀏覽器。
瀏覽器解析response中的HTML,其中的img檔案,css檔案,js檔案,瀏覽器會自動再次傳送request請求獲取圖片,css檔案或js檔案。
當所有的檔案都下載成功後,網頁會根據HTML語法結構,完整地顯示出來。
HTTP請求主要分為Get和Post兩種方法:
GET是從伺服器上獲取資料,POST是向伺服器傳送資料
GET請求引數顯示,都顯示在瀏覽器網址上,HTTP伺服器根據該請求所包含URL中的引數
來產生響應內容,即"get"請求的引數是url的一部分。例如:Chinese_百度搜索
向指定資源提交資料進行處理請求(例如提交表單或者上傳檔案),資料被包含在請求體中。POST請求可能會導致新的資源的建立或已有資源的修改,一般主要是表單提交,請求引數在請求體當中,訊息長度沒有限制而且以隱式的方式進行傳送,通常用來向HTTP伺服器提交量比較大的資料(比如請求中包含許多引數或者檔案上傳操作等),請求的引數包含在"Content-Type"訊息頭裡,指明該訊息體的媒體型別和編碼。
注意:避免使用Get方式提交表單,因為有可能會導致安全問題。 比如說在登陸表單中用Get方式,使用者輸入的使用者名稱和密碼將在位址列中暴露無遺。
Python爬蟲工作的流程圖:
看懂了嗎?不懂可以私信我回復【爬蟲】,有爬蟲入門視訊教程!希望對你學習有幫助!
更多幹貨分享加python程式語言學習QQ群 515267276