1. 程式人生 > >python判斷網頁編碼方式

python判斷網頁編碼方式

在解析網頁的過程中往往會遇到網頁亂碼的情況,自己去看網頁原始碼往往不太準確,這時候就需要用程式碼去判斷網頁原始碼的編碼方式,一共介紹三種方式:(推薦第二種)

這裡以百度首頁為例

url = 'http://www.baidu.com'

一, 使用urllib模組的getparam方法

import urllib
#獲取網頁資訊
data =urllib.urlopen(url).info()
#判斷網頁編碼方式
print data.getparam('charset')

二,使用chardet中detect方法

import urllib
import chardet
#讀取網頁內容
data = urllib.urlopen(url).read()
#chardet解析網頁
chardet1 = chardet.detect(data)
print chardet1['encoding']

三,使用BeautifulSoup模組方法

import urllib
from bs4 import BeautifulSoup
content = urllib.urlopen(url)
soup = BeautifulSoup(content)
print soup.origianl_encoding