1. 程式人生 > >python讀取csv中所遇到的中文編碼問題

python讀取csv中所遇到的中文編碼問題

由於本人準備學習使用一些機器學習演算法,第一個是DecisionTree,然後使用到了西瓜案例:
用到的西瓜案例

因為涉及到討厭的編碼問題,所以找了好多辦法去嘗試讀取csv檔案:
1. pandas
pandas可謂是神奇,用python學習機器學習不可缺少的一個包。 使用pandas的時候也進行了嘗試,起初encoding是utf-8,但是無法讀取出來,所以改成了gbk,這個其實不用擔心,等有了一些經驗的時候,就不用為這個部分犯愁了
pandas.csv_reader(‘xxx.csv’,encoding=’gbk’)使用pandas讀csv
2. csv
這個庫的使用確實比較噁心,讀取內容為英文的csv還行,但是讀取中文的csv的不會是unicode結構,因為機器預設的是ASCII碼結構
這裡寫圖片描述


這是在網上找到的解析
比方說,我們把’編號取出來’,
我們會發現,那一堆亂七八糟的碼就成了‘編號’
其實是python中str發揮了作用,它會把人看不懂的轉成人能看懂的,這是通俗的說法,實則是會把ascii碼進行轉換
這裡寫圖片描述
ascii碼和unicode
這裡寫圖片描述