python,使用requests,BeautifulSoup讀取HTML中文發生亂碼
阿新 • • 發佈:2018-12-10
發生讀取HTML頁面中文亂碼
# 簡潔地處理HTML檔案 import bs4 import requests import logging,sys print(sys.getfilesystemencoding()) #print('Html is encoding by : %',chardet.detect(GetHtml(url))) logging.basicConfig(level=logging.DEBUG, format='%(message)s') res = requests.get(url) res.encoding = 'utf-8' #需要新增這一行,告知html檔案解碼方式 res.raise_for_status() myBS4 = bs4.BeautifulSoup(res.text) logging.debug(type(myBS4)) elems = myBS4.select('input[type="button"]') #print(str(elems[0]['value'])) ###關鍵屬性:attrs,獲得該元素的屬性字典 print(elems[0].attrs)