1. 程式人生 > >爬蟲學習-獲取頁面使用的字符集

爬蟲學習-獲取頁面使用的字符集

前面做爬蟲例子的時候列印有時會出現意外的亂碼,後來通過查詢發現是解碼字符集引起的,所以需要實現知道頁面使用的字符集才能更好的解碼

#encoding=utf-8
#匯入需要的包 字符集需要的包是chardet
import requests
import chardet


if __name__=='__main__':
    url = 'http://www.baidu.com'
    #通過get方式開啟頁面
    response = requests.get(url)
    #獲取頁面內容
    html = response.content
    #判斷頁面使用的字符集
    charset = chardet.detect(html)
    #列印輸出
    print(charset)