【Python】【爬蟲系列】【爬狼】002_自定義獲取網頁原始碼的函式
阿新 • • 發佈:2021-12-15
自定義獲取網頁原始碼的函式,基於上一篇爬狼系列筆記
在上一篇筆記(【Python】【爬蟲系列】【爬狼】001_urllib_get_獲取響應結果頁面程式碼 - 萌狼藍天 - 部落格園 (cnblogs.com/mllt))我們將一個網頁,解析為了文件(原始碼)
如果每解析一次網頁,都要寫那麼多內容,就會很不方便
在一次爬蟲專案,我們需要解析多個網頁
那麼,使用 “自定義函式”可以大大提高效率,簡化程式碼
def xrilang_UrlToDocument(url): """ '本函式作用為獲取網頁原始碼' :param url: 需要解析的網頁連結 :return: string 網頁原始碼 編碼方式為utf-8 """ header = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36 Edg/96.0.1054.53" } request_Info = urllib.request.Request(url=url, headers=header) response = urllib.request.urlopen(request_Info) response_html = response.read().decode("utf-8") return response_html
作者:萌狼藍天,轉載請註明原文連結:https://www.cnblogs.com/mllt/p/python_pc_pl_edu_002.html | 萌狼藍天@嗶哩嗶哩 | QQ:3447902411(僅限技術交流,新增請說明方向)