python判斷網頁編碼方式
阿新 • • 發佈:2019-02-13
在解析網頁的過程中往往會遇到網頁亂碼的情況,自己去看網頁原始碼往往不太準確,這時候就需要用程式碼去判斷網頁原始碼的編碼方式,一共介紹三種方式:(推薦第二種)
這裡以百度首頁為例
url = 'http://www.baidu.com'
一, 使用urllib模組的getparam方法
import urllib
#獲取網頁資訊
data =urllib.urlopen(url).info()
#判斷網頁編碼方式
print data.getparam('charset')
二,使用chardet中detect方法
import urllib import chardet #讀取網頁內容 data = urllib.urlopen(url).read() #chardet解析網頁 chardet1 = chardet.detect(data) print chardet1['encoding']
三,使用BeautifulSoup模組方法
import urllib
from bs4 import BeautifulSoup
content = urllib.urlopen(url)
soup = BeautifulSoup(content)
print soup.origianl_encoding