【網路爬蟲學習】實戰，爬取網頁以及貼吧資料

阿新 • • 發佈：2021-09-06

實戰一

抓取您想要的網頁，並將其儲存至本地計算機。

首先我們對要編寫的爬蟲程式進行簡單地分析，該程式可分為以下三個部分：

拼接 url 地址
傳送請求
將照片儲存至本地

明確邏輯後，我們就可以正式編寫爬蟲程式了。

匯入所需模組

from urllib import request, parse

拼接 URL 地址

定義 URL 變數，拼接 url 地址。程式碼如下所示：

url = 'http://www.baidu.com/s?wd={}'

word = input('請輸入想要搜尋的內容:')
params = parse.quote(word)
full_url = url.format(params)

向URL傳送請求

傳送請求主要分為以下幾個步驟：

建立請求物件-Request
獲取響應物件-urlopen
獲取響應內容-read

程式碼如下所示：

# 重構請求頭
headers = {
    'User-Agent':
    'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0'
}
# 建立請求對應
req = request.Request(url=full_url, headers=headers)
# 獲取響應物件
res = request.urlopen(req)
# 獲取響應內容
html = res.read().decode('utf-8')

儲存為本地檔案

把爬取的照片儲存至本地，此處需要使用 Python 程式設計的檔案 IO 操作，程式碼如下：

filename = word + '.html'
with open(filename, 'w', encoding='utf-8') as f:
    f.write(html)

完整程式如下所示：

from urllib import request, parse
# 1.拼url地址
url = 'http://www.baidu.com/s?wd={}'

word = input('請輸入想要搜尋的內容:')
params = parse.quote(word)
full_url = url.format(params)
# 2.發請求儲存到本地
# 重構請求頭
headers = {
    'User-Agent':
    'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0'
}
# 建立請求對應
req = request.Request(url=full_url, headers=headers)
# 獲取響應物件
res = request.urlopen(req)
# 獲取響應內容
html = res.read().decode('utf-8')
# 3.儲存檔案至當前目錄
filename = word + '.html'
with open(filename, 'w', encoding='utf-8') as f:
    f.write(html)

嘗試執行程式，並輸入 RioTianの部落格園，確認搜尋，然後您會在當前的工作目錄中找到“RioTianの部落格園.html”檔案。

函數語言程式設計修改程式

Python 函數語言程式設計可以讓程式的思路更加清晰、易懂。接下來，使用函式程式設計的思想更改上面程式碼。

定義相應的函式，通過呼叫函式來執行爬蟲程式。修改後的程式碼如下所示：

from urllib import request, parse


# 拼接URL地址
def get_url(word):
    url = 'http://www.baidu.com/s?{}'
    # 此處使用urlencode()進行編碼
    params = parse.urlencode({'wd': word})
    url = url.format(params)
    return url


# 發請求,儲存本地檔案
def request_url(url, filename):
    headers = {
        'User-Agent':
        'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0'
    }
    # 請求物件 + 響應物件 + 提取內容
    req = request.Request(url=url, headers=headers)
    res = request.urlopen(req)
    html = res.read().decode('utf-8')
    # 儲存檔案至本地
    with open(filename, 'w', encoding='utf-8') as f:
        f.write(html)


# 主程式入口
if __name__ == '__main__':
    word = input('請輸入搜尋內容:')
    url = get_url(word)
    filename = word + '.html'
    request_url(url, filename)

除了使用函數語言程式設計外，也可以使用面向物件的程式設計方法（實戰二），在後續內容中會做相應介紹。

實戰二

抓取百度貼吧（https://tieba.baidu.com/）頁面，比如 Python爬蟲吧、程式設計吧，只抓取貼吧的前 5 個頁面即可。

判斷頁面型別

通過簡單的分析可以得知，待抓取的百度貼吧頁面屬於靜態網頁，分析方法非常簡單：開啟百度貼吧，搜尋“Python爬蟲”，在出現的頁面中複製任意一段資訊，比如“爬蟲需要 http 代理的原因”，然後點選右鍵選擇檢視原始碼，並使用 Ctrl+F 快捷鍵在原始碼頁面搜尋剛剛複製的資料，如下所示：

由上圖可知，頁面內的所有資訊都包含在原始碼頁中，資料並不需要從資料庫另行載入，因此該頁面屬於靜態頁面。

尋找URL變化規律

接下來尋找要爬取頁面的 URL 規律，搜尋“Python爬蟲”後，此時貼吧第一頁的的 url 如下所示：

https://tieba.baidu.com/f?ie=utf-8&kw=python爬蟲&fr=search

點選第二頁，其 url 資訊如下：

https://tieba.baidu.com/f?kw=python爬蟲&ie=utf-8&pn=50

點選第三頁，url 資訊如下：

https://tieba.baidu.com/f?kw=python爬蟲&ie=utf-8&pn=100

重新點選第一頁，url 資訊如下：

https://tieba.baidu.com/f?kw=python爬蟲&ie=utf-8&pn=0

如果還不確定，您可以繼續多瀏覽幾頁。最後您發現 url 具有兩個查詢引數，分別是 kw 和 pn，並且 pn 引數具有規律性，如下所示：

第n頁：pn=(n-1)*50

#引數params
pn=(page-1)*50
params={
         'kw':name,
         'pn':str(pn)
        }

url 地址可以簡寫為：

https://tieba.baidu.com/f?kw=python爬蟲&pn=450

編寫爬蟲程式

下面以類的形式編寫爬蟲程式，並在類下編寫不同的功能函式，程式碼如下所示：

from urllib import request,parse
import time
import random
from ua_info import ua_list #使用自定義的ua池

#定義一個爬蟲類
class TiebaSpider(object):
    #初始化url屬性
    def __init__(self):
        self.url='http://tieba.baidu.com/f?{}'

    # 1.請求函式，得到頁面，傳統三步
    def get_html(self,url):
        req=request.Request(url=url,headers={'User-Agent':random.choice(ua_list)})
        res=request.urlopen(req)
        #windows會存在亂碼問題，需要使用 gbk解碼，並使用ignore忽略不能處理的位元組
        #linux不會存在上述問題，可以直接使用decode('utf-8')解碼
        html=res.read().decode("gbk","ignore")
        return html
    # 2.解析函式，此處程式碼暫時省略，還沒介紹解析模組
    def parse_html(self):
        pass
    # 3.儲存檔案函式
    def save_html(self,filename,html):
        with open(filename,'w') as f:
            f.write(html)
    # 4.入口函式
    def run(self):
        name=input('輸入貼吧名：')
        begin=int(input('輸入起始頁：'))
        stop=int(input('輸入終止頁：'))
        # +1 操作保證能夠取到整數
        for page in range(begin,stop+1):
            pn=(page-1)*50
            params={
                'kw':name,
                'pn':str(pn)
            }
            #拼接URL地址   
            params=parse.urlencode(params)
            url=self.url.format(params)
            #發請求
            html=self.get_html(url)
            #定義路徑
            filename='{}-{}頁.html'.format(name,page)
            self.save_html(filename,html)
            #提示
            print('第%d頁抓取成功'%page)
            #每爬取一個頁面隨機休眠1-2秒鐘的時間
            time.sleep(random.randint(1,2))
#以指令碼的形式啟動爬蟲
if __name__=='__main__': 
    start=time.time()
    spider=TiebaSpider() #例項化一個物件spider
    spider.run() #呼叫入口函式
    end=time.time()
    #檢視程式執行時間
    print('執行時間:%.2f'%(end-start))  #爬蟲執行時間

程式執行後，爬取的檔案將會儲存至 Pycharm 當前工作目錄，輸出結果：

輸入貼吧名：python爬蟲
輸入起始頁：1
輸入終止頁：2
第1頁抓取成功
第2頁抓取成功
執行時間:12.25

以面向物件方法編寫爬蟲程式時，思路簡單、邏輯清楚，非常容易理解，上述程式碼主要包含了四個功能函式，它們分別負責了不同的功能，總結如下：

1) 請求函式

請求函式最終的結果是返回一個 HTML 物件，以方便後續的函式呼叫它。

2) 解析函式

解析函式用來解析 HTML 頁面，常用的解析模組有正則解析模組、bs4 解析模組。通過分析頁面，提取出所需的資料，在後續內容會做詳細介紹。

3) 儲存資料函式

該函式負責將抓取下來的資料保至資料庫中，比如 MySQL、MongoDB 等，或者將其儲存為檔案格式，比如 csv、txt、excel 等。

4) 入口函式

入口函式充當整個爬蟲程式的橋樑，通過呼叫不同的功能函式，實現資料的最終抓取。入口函式的主要任務是組織資料，比如要搜尋的貼吧名、編碼 url 引數、拼接 url 地址、定義檔案儲存路徑。

爬蟲程式結構

用面向物件的方法編寫爬蟲程式時，邏輯結構較為固定，總結如下：

# 程式結構
class xxxSpider(object):
    def __init__(self):
        # 定義常用變數,比如url或計數變數等
       
    def get_html(self):
        # 獲取響應內容函式,使用隨機User-Agent
   
    def parse_html(self):
        # 使用正則表示式來解析頁面，提取資料
   
    def write_html(self):
        # 將提取的資料按要求儲存，csv、MySQL資料庫等
       
    def run(self):
        # 主函式，用來控制整體邏輯
       
if __name__ == '__main__':
    # 程式開始執行時間
    spider = xxxSpider()
    spider.run()

注意：掌握以上程式設計邏輯有助於您後續的學習。

爬蟲程式隨機休眠

在入口函式程式碼中，包含了以下程式碼：

# 每爬取一個頁面隨機休眠1-2秒鐘的時間
time.sleep(random.randint(1,2))

爬蟲程式訪問網站會非常快，這與正常人類的點選行為非常不符。因此，通過隨機休眠可以使爬蟲程式模仿成人類的樣子點選網站，從而讓網站不易察覺是爬蟲訪問網站，但這樣做的代價就是影響程式的執行效率。

聚焦爬蟲是一種執行效率較低的程式，提升其效能，是業界一直關注的問題，由此也誕生了效率較高的 Python 爬蟲框架 Scrapy。

The desire of his soul is the prophecy of his fate
你靈魂的慾望，是你命運的先知。

【網路爬蟲學習】實戰，爬取網頁以及貼吧資料

實戰一抓取您想要的網頁，並將其儲存至本地計算機。首先我們對要編寫的爬蟲程式進行簡單地分析，該程式可分為以下三個部分：

【網路爬蟲學習】Python 爬蟲初步

前言網路爬蟲又稱網路蜘蛛、網路機器人，它是一種按照一定的規則自動瀏覽、檢索網頁資訊的程式或者指令碼。網路爬蟲能夠自動請求網頁，並將所需要的資料抓取下來。通過對抓取的資料進行處理，從而提取出有價值的資

【網路爬蟲學習】網頁的基本構成

爬蟲程式之所以可以抓取資料，是因為爬蟲能夠對網頁進行分析，並在網頁中提取出想要的資料。在學習 Python 爬蟲模組前，我們有必要先熟悉網頁的基本結構，這是編寫爬蟲程式的必備知識。

【網路爬蟲學習】第一個Python爬蟲程式 & 編碼與解碼詳解 & Pythonの實現

本節編寫一個最簡單的爬蟲程式，作為學習 Python 爬蟲前的開胃小菜。下面使用 Python 內建的 urllib 庫獲取網頁的 html 資訊。注意，urllib 庫屬於 Python 的標準庫模組，無須單獨安裝，它是 Python 爬蟲的常用模組

Python網路爬蟲第三彈《爬取get請求的頁面資料》

Python網路爬蟲第三彈《爬取get請求的頁面資料》一.urllib庫　　urllib是Python自帶的一個用於爬蟲的庫，其主要作用就是可以通過程式碼模擬瀏覽器傳送請求。其常被用到的子模組在Python3中的為urllib.reque

爬蟲專案實戰，爬取抖音短視訊！好多美女啊！

目標爬取抖音短視訊，批量下載到本地。專案準備軟體：Pycharm第三方庫：requests,fake_useragent,re網站地址：http://douyin.bm8.com.cn/d_1.html

Python爬蟲實戰，Scrapy實戰，爬取並簡單分析知網中國專利資料

前言今天我們就用scrapy爬一波知網的中國專利資料並做簡單的資料視覺化分析唄。讓我們愉快地開始吧~

Python爬蟲實戰，爬取A股公司資料，簡單分析A股公司並生成詞雲

前言利用Python爬取並簡單分析A股公司資料。讓我們愉塊地開始吧~ 開發工具 Python版本：3.6.4

python網路爬蟲案例：批量爬取百度貼吧頁面資料

⾸先我們建立⼀個 python⽂件, tiebaSpider.py，我們要完成的是，輸⼊⼀個百度貼吧的地址，⽐如：

python爬蟲學習（一）爬取高清桌布（各種主流大小的高清圖）

from bs4 import BeautifulSoup import requests import time import os def get_photo(key): url = \"https://desk.zol.com.cn/meinv/\"+str(key)+\".html\"

【網路基礎-02】http與https協議區別以及http常用狀態碼詳解

一、http和https協議說明 HTTP：是網際網路上應用最為廣泛的一種網路協議，是一個客戶端和伺服器端請求和應答的標準（TCP），用於從WWW伺服器傳輸超文字到本地瀏覽器的傳輸協議，它可以使瀏覽器更加高效，使網路傳輸

15-python爬取百度貼吧-excel儲存

讓我們爬取百度貼吧旅遊資訊，看看哪些地方是大家旅遊關注的熱點。不要問我這個十一去哪兒旅遊了，我還在家沒日沒夜的碼程式碼。

python爬取百度貼吧文字內容

爬取百度貼吧文字內容方法1: 點選檢視程式碼**匯入urllib庫** from urllib import request

Python爬蟲實戰，openpyxl模組學習，爬取房價資訊並簡單的資料分析

前言利用Python爬取房價資訊並進行簡單的資料分析 Ok，讓我們開始吧~~~ 開發工具

Python爬蟲實戰：自動化登入網站，爬取商品資料

前言隨著網際網路時代的到來，人們更加傾向於網際網路購物。某東又是電商行業的巨頭，在某東平臺中有很多商家資料。今天帶大家使用python+selenium工具獲取這些公開的商家資料

【go語言學習】網路程式設計之HTTP

一、go中HTTP服務處理流程超文字傳輸協議（HTTP，Hyper Text Transfer Protocol)是網際網路上應用最為廣泛的一種網路傳輸協議，所有的WWW檔案都必須遵守這個標準。設計HTTP最初的目的是為了提供一種釋出和接收HTML頁

【Python爬蟲錯誤】'scrapyd-deploy' 不是內部或外部命令，也不是可執行的程式或批處理檔案

【問題描述】在編寫好 python 爬蟲程式，準備部署到雲伺服器上時，遇到一個問題。

爬蟲實戰：爬取相親網站，看看當下年輕小姐姐的擇偶觀。

技術標籤：爬蟲爬蟲python 前言到了一定年齡，父母可能會催你找女朋友，結婚。大多數的父母催婚，是父母漸漸老了，想讓你找個人照顧你，有熱飯吃，生病了有人照顧。在外面不被人欺負。當然，也有一部分來自周

【網路IO系列】IO的五種模型，BIO、NIO、AIO、IO多路複用、訊號驅動IO

前言在上一篇文章中，我們瞭解了作業系統中核心程式和使用者程式之間的區別和聯絡，還提到了核心空間和使用者空間，當我們需要讀取一條資料的時候，首先需要發請求告訴核心，我需要什麼資料，等核心準備好資料之後

Python爬蟲實戰，urllib模組，爬取中國工程院院士資訊並儲存txt

前言今天用Python爬蟲中國工程院院士簡介，在這裡給需要的小夥伴們程式碼，並且給出一點小心得。

【網路爬蟲學習】實戰，爬取網頁以及貼吧資料

實戰一

匯入所需模組

拼接 URL 地址

向URL傳送請求

儲存為本地檔案

函數語言程式設計修改程式

實戰二

判斷頁面型別

尋找URL變化規律

編寫爬蟲程式

1) 請求函式

2) 解析函式

3) 儲存資料函式

4) 入口函式

爬蟲程式結構

爬蟲程式隨機休眠

相關推薦