1. 程式人生 > 實用技巧 >用urllib庫幾行程式碼實現最簡單爬蟲

用urllib庫幾行程式碼實現最簡單爬蟲

"""
使用urllib.request()請求一個網頁內容,並且把內容打印出來。

"""

from urllib import request

import chardet

if __name__ == '__main__':

    # 有的網站url使用不了
    url = "https://www.cnblogs.com/gshelldon/p/13332798.html"

    # 開啟url把內容賦值給rsp
    rsp = request.urlopen(url)

    # 存取到記憶體當中是bytes流,使用read方法把rsp的內容讀取出來,賦值給變數html。
    html = rsp.read()

    # 使用decode解碼成我們能夠看懂的格式。
    # print(type(html))         # 檢視返回的格式

    html = html.decode('utf-8')  # 預設的是utf-8
    print(html)

​```python

返回的內容是html格式的文字


D:\ProgramData\Anaconda3\envs\spider\python.exe D:/爬蟲/v1-最簡單的爬蟲.py
<!DOCTYPE html>
<html lang="zh-cn">
<head>
    <meta charset="utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1.0" />
    <meta name="referrer" content="origin" />
    <meta property="og:description" content="nginx 動靜分離 不需要運維來做,開發做的。 動態請求:該請求會呼叫資料庫中的資料。 靜態請求:使用者請求不會呼叫資料庫。 動態頁面:後端開發寫的需要呼叫資料庫的頁面(python、java、C、p" />
    <meta http-equiv="Cache-Control" content="no-transform" />
 
省略。。。。。。。