Python爬蟲是怎麼實現的，它的原理是什麼？

阿新 • • 發佈：2020-11-17

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

以下文章來源於騰訊雲作者：梧雨北辰

( 想要學習Python？Python學習交流群：1039649593，滿足你的需求，資料都已經上傳群檔案流，可以自行下載！還有海量最新2020python學習資料。 )

本篇是在學習Python基礎知識之後的一次小小嚐試，這次將會爬取熊貓TV網頁上的王者榮耀主播排名，在不借助第三方框架的前提下演示一個爬蟲的原理。

一、實現Python爬蟲的思路

第一步：明確目的

1.找到想要爬取資料的網頁
2.分析網頁結構，找到需要爬取資料所在的標籤位置

第二步：模擬Http請求，提取資料，加工資料

1.模擬Http網路請求，向伺服器傳送請求，獲取伺服器返回給我們的html
2.使用正則表示式從Html中提取我們需要的資料(比如本例中的主播名字和人氣)
3.對提取的資料進行加工，顯示成我們可以直觀檢視的形式

二、檢視網頁原始碼，觀察關鍵值

我們應該首先找到需要處理的網頁，即:某貓TV網頁上的王者農藥，然後檢視這個網頁的原始碼，觀察我們需要關注的資料在哪個位置，下面是擷取的網頁效果圖：

網頁.png

然後，我們需要在瀏覽器中檢視當前網頁的Html原始碼，不同的瀏覽器中檢視的操作會有所不同，這個需要自行百度一下。此次我們需要拿到每個主播的名字和視訊瀏覽量，從下面原始碼中我們可以很快發現這些關鍵資料的位置，如圖中的標註：

Html原始碼.png

三、實現Python爬蟲的具體實踐

下面就是實現爬取資料的具體操作了，這裡是建立了一個爬蟲類Spider，然後使用不同的正則獲取Html標籤裡的資料，進而將其重新整理後列印顯示，具體的程式碼如下：

from urllib import request   #匯入模組urllib，用於發起網路請求，獲取資料
import re                    #匯入模組re，用於實現正則提取資訊


class Spider():
    #需要抓取的網路連結
    url = "https://www.panda.tv/cate/kingglory"

    #正則：獲取顯示視訊資訊的div程式碼串 

    reString_div = '<div class="video-info">([\s\S]*?)</div>'   
    #正則：獲取主播名
    reString_name = '</i>([\s\S]*?)</span>'
    #正則：獲取視訊瀏覽量
    reString_number = '<span class="video-number">([\s\S]*?)</span>'


    def __fetch_content(self):
        '''
        請求網路，獲取整個網頁的Hmtl字串
        '''
        r = request.urlopen(Spider.url)
        data = r.read()
        htmlString = str(data,encoding="utf-8")
        return htmlString


    def __alalysis(self,htmlString):
        '''
        使用正則初步獲取資料，得到主播資訊(主播名和瀏覽量)的陣列
        '''
        videoInfos = re.findall(Spider.reString_div,htmlString)
        anchors = []
        #print(videoInfos[0])
        for html in videoInfos :
            name = re.findall(Spider.reString_name,html)
            number = re.findall(Spider.reString_number,html)
            anchor = {"name":name,"number":number}
            anchors.append(anchor)
        #print(anchors[0])
        return anchors


    def __refine(self,anchors):
        '''
        將資料進一步提煉，去除空格等多餘字元
        '''
        f = lambda anchor :{"name":anchor["name"][0].strip(),"number":anchor["number"][0]}
        newAnchors = list(map(f,anchors))
        #print(newAnchors)
        return newAnchors


    def __sort(self,anchors):
        '''
        資料分析：排序瀏覽量從大到小 
        '''
        anchors = sorted(anchors,key=self.__sort_seed,reverse = True)
        return anchors


    def __sort_seed(self,anchor):
        '''
        排序規則
        '''
        list_nums = re.findall('\d*',anchor["number"])
        number = float(list_nums[0])
        if '萬' in anchor["number"]:
            number = number * 10000
        return number


    def __show(self,anchors):
        '''
        展示資料，將已經排序好的資料打印出來
        '''
        for rank in range(0,len(anchors)):
            print("第" + str(rank+1) +"名：" + anchors[rank]["number"] + "\t"  + anchors[rank]["name"])


    def startRun(self):
       '''
       程式入口，開始執行爬蟲
       '''
       htmlString = self.__fetch_content()
       anchors = self.__alalysis(htmlString)
       anchors = self.__refine(anchors)
       anchors  = self.__sort(anchors)
       self.__show(anchors)

        
#建立爬蟲類，爬取資料
spider = Spider()
spider.startRun()

然後，我們將看到如下的列印效果：

執行爬蟲.png

Python爬蟲是怎麼實現的，它的原理是什麼？

一、實現Python爬蟲的思路

第一步：明確目的

第二步：模擬Http請求，提取資料，加工資料

二、檢視網頁原始碼，觀察關鍵值

三、實現Python爬蟲的具體實踐

Python爬蟲實戰，nltk模組，實現推特資料視覺化分析

Python爬蟲實戰，DecryptLogin模組，Python模擬登入實現載B站指定UP主的所有視訊

Python爬蟲實戰，requests模組，Python模擬登入實現拉勾網資料解析

Python爬蟲實戰，DecryptLogin模組，Python模擬登入實現網易雲音樂自動簽到

Python爬蟲實戰，DecryptLogin模組，Python模擬登入微博實現抓取數不完的表情包儲存本地

私藏專案實操分享，Python爬蟲實現拉勾網崗位資料視覺化

Python 爬蟲實現增加播客訪問量的方法實現

Python爬蟲實現使用beautifulSoup4爬取名言網功能案例

Python爬蟲實現的根據分類爬取豆瓣電影資訊功能示例

Python爬蟲實現“盜取”微信好友資訊的方法分析

python 爬蟲實現增量去重和定時爬取例項

Python爬蟲實現模擬點選動態頁面

python爬蟲實現獲取下一頁程式碼

Python爬蟲實現vip電影下載的示例程式碼

python爬蟲實現POST request payload形式的請求

Python爬蟲實現百度翻譯功能過程詳解

Python爬蟲實現HTTP網路請求多種實現方式

但是上述介面的params變數無法在Python中實現，只能採用RESTFul形式，傳遞的引數一定要用JSON格式

Python爬蟲實現自動登入、簽到功能的程式碼

Python爬蟲實戰， QQ空間自動點贊

Python爬蟲是怎麼實現的，它的原理是什麼？

一、實現Python爬蟲的思路

第一步：明確目的

第二步：模擬Http請求，提取資料，加工資料

二、檢視網頁原始碼，觀察關鍵值

三、實現Python爬蟲的具體實踐

相關推薦