用urllib庫幾行程式碼實現最簡單爬蟲
阿新 • • 發佈:2020-07-19
""" 使用urllib.request()請求一個網頁內容,並且把內容打印出來。 """ from urllib import request import chardet if __name__ == '__main__': # 有的網站url使用不了 url = "https://www.cnblogs.com/gshelldon/p/13332798.html" # 開啟url把內容賦值給rsp rsp = request.urlopen(url) # 存取到記憶體當中是bytes流,使用read方法把rsp的內容讀取出來,賦值給變數html。 html = rsp.read() # 使用decode解碼成我們能夠看懂的格式。 # print(type(html)) # 檢視返回的格式 html = html.decode('utf-8') # 預設的是utf-8 print(html) ```python
返回的內容是html格式的文字
D:\ProgramData\Anaconda3\envs\spider\python.exe D:/爬蟲/v1-最簡單的爬蟲.py <!DOCTYPE html> <html lang="zh-cn"> <head> <meta charset="utf-8" /> <meta name="viewport" content="width=device-width, initial-scale=1.0" /> <meta name="referrer" content="origin" /> <meta property="og:description" content="nginx 動靜分離 不需要運維來做,開發做的。 動態請求:該請求會呼叫資料庫中的資料。 靜態請求:使用者請求不會呼叫資料庫。 動態頁面:後端開發寫的需要呼叫資料庫的頁面(python、java、C、p" /> <meta http-equiv="Cache-Control" content="no-transform" /> 省略。。。。。。。