1. 程式人生 > >Python3網路爬蟲——爬蟲基本原理

Python3網路爬蟲——爬蟲基本原理

1、網路爬蟲概述爬蟲就是請求網站並提取資料的自動化程式 網路爬蟲(Web Spider),又被稱為網頁蜘蛛,是一種按照一定的規則,自動地抓取網站資訊的程式或者指令碼。 網路蜘蛛是通過網頁的連結地址來尋找網頁,從網站某一個頁面開始,讀取網頁的內容,找到在網頁中的其它連結地址,然後通過這些連結地址尋找下一個網頁,這樣一直迴圈下去,直到把這個網站所有的網頁都抓取完為止。

2、爬蟲基本流程


例:①先由urllib的request開啟Url得到網頁html文件②瀏覽器開啟網頁原始碼分析元素節點③通過Beautiful Soup或則正則表示式提取想要的資料④儲存資料到本地磁碟或資料庫(抓取,分析,儲存)