1. 程式人生 > 其它 >【Python】【爬蟲系列】【爬狼】002_自定義獲取網頁原始碼的函式

【Python】【爬蟲系列】【爬狼】002_自定義獲取網頁原始碼的函式

自定義獲取網頁原始碼的函式,基於上一篇爬狼系列筆記

在上一篇筆記(【Python】【爬蟲系列】【爬狼】001_urllib_get_獲取響應結果頁面程式碼 - 萌狼藍天 - 部落格園 (cnblogs.com/mllt))我們將一個網頁,解析為了文件(原始碼)

如果每解析一次網頁,都要寫那麼多內容,就會很不方便

在一次爬蟲專案,我們需要解析多個網頁

那麼,使用 “自定義函式”可以大大提高效率,簡化程式碼

def xrilang_UrlToDocument(url):
    """
    '本函式作用為獲取網頁原始碼'
    :param url: 需要解析的網頁連結
    :return: string 網頁原始碼 編碼方式為utf-8
    """
    header = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36 Edg/96.0.1054.53"
    }
    request_Info = urllib.request.Request(url=url, headers=header)
    response = urllib.request.urlopen(request_Info)
    response_html = response.read().decode("utf-8")
    return response_html

作者:萌狼藍天,轉載請註明原文連結:https://www.cnblogs.com/mllt/p/python_pc_pl_edu_002.html | 萌狼藍天@嗶哩嗶哩 | QQ:3447902411(僅限技術交流,新增請說明方向)