python的print函式輸出html頁面出錯的問題。

阿新 • • 發佈：2019-01-26

轉載：https://blog.csdn.net/jim7424994/article/details/22675759

從網上抓了一些位元組流，想打印出來結果發生了一下錯誤：

UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 8530: illegal multibyte sequence

程式碼

import urllib.request
res=urllib.request.urlopen('http://www.baidu.com')
htmlBytes=res.read()
print(htmlBytes.decode('utf-8'))

錯誤資訊讓人很困惑，為什麼用的是'utf-8'解碼，錯誤資訊卻提示'gbk'錯誤呢？

不僅如此，從百度首頁的html中發現以下程式碼：

<meta http-equiv="content-type" content="text/html;charset=utf-8">

這說明網頁的確用的是utf-8，為什麼會出現Error呢？

在python3裡，有幾點關於編碼的常識

1.字元就是unicode字元，字串就是unicode字元陣列

如果用以下程式碼測試，

print('a'=='\u0061')

會發現結果為True，足以說明兩者的等價關係。

2.str轉bytes叫encode，bytes轉str叫decode，如上面的程式碼就是將抓到的位元組流給decode成unicode陣列

我根據上面的錯誤資訊分析了位元組流中出現\xbb的地方，發現有個\xc2\xbb的特殊字元»，我懷疑是它無法被解碼。

用以下程式碼測試後

print(b'\xc2\xbb'.decode('utf-8'))

它果然報錯了:UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 0: illegal multibyte sequence

上網找了下utf-8編碼表，發現的確特殊字元»的utf-8形式就是c2bb,unicode是'\u00bb'，為什麼無法解碼呢。。。

仔細看看錯誤資訊，它提示'gbk'無法encode，但是我的程式碼是utf-8無法decode，壓根牛頭不對馬嘴，終於讓我懷疑是print函數出錯了。。於是立即有了以下的測試

print('\u00bb')

結果報錯了：UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 0: illegal multibyte sequence

原來是print()函式自身有限制，不能完全列印所有的unicode字元。

知道原因後，google了一下解決方法，其實print()函式的侷限就是Python預設編碼的侷限，因為系統是win7的，python的預設編碼不是'utf-8',改一下python的預設編碼成'utf-8'就行了

import io
import sys
import urllib.request
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8') #改變標準輸出的預設編碼
res=urllib.request.urlopen('http://www.baidu.com')
htmlBytes=res.read()
print(htmlBytes.decode('utf-8'))

執行後不報錯了，但是居然有好多亂碼（英文顯示正常，中文則顯示亂碼）！！又一陣折騰後發現是控制檯的問題，具體來說就是我在cmd下執行該指令碼會有亂碼，而在IDLE下執行卻很正常。

由此我推測是cmd不能很好地相容utf8，而IDLE就可以，甚至在IDLE下執行，連“改變標準輸出的預設編碼”都不用，因為它預設就是utf8。如果一定要在cmd下執行，那就改一下編碼，比如我換成“gb18030”，就能正常顯示了：

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')         #改變標準輸出的預設編碼

最後，附上一些常用的和中文有關的編碼的名稱，分別賦值給encoding，就可以看到不同的效果了：

編碼名稱	用途
utf8	所有語言
gbk	簡體中文
gb2312	簡體中文
gb18030	簡體中文
big5	繁體中文
big5hkscs	繁體中文

python的print函式輸出html頁面出錯的問題。

轉載：https://blog.csdn.net/jim7424994/article/details/22675759從網上抓了一些位元組流，想打印出來結果發生了一下錯誤：UnicodeEncodeError: 'gbk' codec can't encode charac

定義職工類Employee物件陣列,內放5個職工的資料（編號、姓名、性別、月薪），建立函式輸出職工資訊表。

定義職工類Employee物件陣列,內放5個職工的資料（編號、姓名、性別、月薪），建立函式輸出職工資訊表。 #include<iostream> using namespace std; class Employee { public: void se

python difflib模塊實現兩個文件差異對比，並輸出html格式。

python difflib difflib 模塊包含一些用來計算和處理序列之間差異的工具。它對於比較文本尤其有用，其中包含的函數可以使用多種常用差異格式生成報告。實現了三個類： SequenceMatcher 任意類型序列的比較 (可以比較字符串)Differ 對字符串進行比較HtmlDiff

自己制作html頁面用的字體圖標。

cnblogs lan nbsp href 字體 logs com img www 從網上看到的一個制作字體圖標的教程，自己試用過，確實還不錯，就把教程搬過來了，方便查看。我們UI做出來矢量的圖，放到這個軟件裏操作，下面有教程，之後輸入.ttf或是.otf格式的字體，我是

Html頁面中select下拉列表框別樣用法，一個方法一勞永逸。

select 異步加載很多時候，我們寫from表單面，給select標簽賦值，都采用這種方式：1.MVC中設創建公共的分部視圖；2.直接在前臺面中，插入片段後臺代碼；今天我利用HTML5中的自定義屬性，結合JQ擴展方法，寫一個通用的JS方法，JS代碼如下： $.fn.SetSelect = funct

一個尖括號能幹什麽，畫一個笑臉開始（為了支持交互，它又增添了JavaScript。HTML頁面也越來越臃腫。於是CSS便誕生了。API和核心代碼的出現使HTML能夠訪問更復雜的軟件功能－－支持更高級的交互和雲服務集成。這就是今天的HTML5）

重要 htm 服務廠商 inf web運行 ima 用戶界面一個尖括號 < 一個尖括號能幹什麽 < ? 你可以編出一頂帽子 <(:-p 或一張笑臉 :-> 再或者更直接一些 20世紀90年代初，html作為一種簡單標記語言面

關於ssm，前臺html頁面jquery的success回撥函式實現跳轉重新整理問題

$(function(){ $.ajax({ type:“post”, url:"…/…/b/k.action", dataType: “json”, success:function(data){ $(data).each(function(k,v){ $("tbody").a

一個尖括號能幹什麼，畫一個笑臉開始（為了支援互動，它又增添了JavaScript。HTML頁面也越來越臃腫。於是CSS便誕生了。API和核心程式碼的出現使HTML能夠訪問更復雜的軟體功能－－支援更高階的互動和雲服務整合。這就是今天的HTML5）

一個尖括號 < 一個尖括號能幹什麼 < ? 你可以編出一頂帽子 <(:-p 或一張笑臉 :-> 再或者更直接一些 20世紀90年代初，html作為一種簡單標記語言面世，用於在網際網路上顯示超文字。經過發展，html逐漸包含圖片和佈局設計功能。為了支援互動，

python的print函式輸出html頁面出錯的問題。

python的print函式輸出html頁面出錯的問題。

定義職工類Employee物件陣列,內放5個職工的資料（編號、姓名、性別、月薪），建立函式輸出職工資訊表。

python difflib模塊實現兩個文件差異對比，並輸出html格式。

自己制作html頁面用的字體圖標。

Html頁面中select下拉列表框別樣用法，一個方法一勞永逸。

關於ssm，前臺html頁面jquery的success回撥函式實現跳轉重新整理問題

編寫一個函式實現數制轉換。在主函式中輸人一個十進位制數，輸出相應的十六進位制數。要求用陣列實現

html頁面做迴圈輸出標籤,將資料庫中的資料展示在頁面上

HTML頁面實現可編輯，儲存，並生成PDF，完成簽章。

jsp(out物件可以向html頁面中輸出）

js實現html頁面滾動條向下拉到一定的程度時，某個div就固定在頂部，向上拉時返回原位置。

html頁面呼叫js檔案裡的函式報錯onclick is not defined處理方法

JS把資料庫的JSON資料輸出渲染到html頁面

Html表單提交到Servlet輸出到頁面亂碼 Html使用的編碼是UTF-8編碼顯示頁面，之後使用form表單提交欄位到Servlet中，Servlet將利用getParamer方法獲得fo

IDictionary 序列化一定要實現父類實現了ISerializable介面的，子類也必須有序列化建構函式，否則反序列化時會出錯。

問題十三:按照氣象劃分法，通常以陽曆3～5月為春季，6～8月為夏季，9～11月為秋季，12月～來年2月為冬季。使用switch結構編寫函式根據月份輸出對應的季節。

Html表單提交到Servlet輸出到頁面亂碼

【我的演算法日記】請實現一個函式，把字串中的每個空格替換成“%20”。例如輸入“We are happy.”，則輸出“We%20are%20happy.”。

python的print函式輸出html頁面出錯的問題。

相關推薦