字元編碼，檔案處理

阿新 • • 發佈：2019-01-09

軟體啟動的流程
開啟notepad++ 來檢視test.txt文件
1.從硬碟將軟體程式載入到記憶體中
2.載入test.txt到記憶體中
3.執行notepad的程式碼將test.txt的內容輸出到螢幕上

python直譯器也是一個應用軟體
1.從硬碟將直譯器載入到記憶體中
2.載入test.py到記憶體中
3.直譯器解析python語法



文字編輯器與直譯器在開啟同一個py檔案時
前兩個階段是一致的，僅僅是第三個階段不同


什麼是字元編碼？字元編碼表
   編碼，按照某種規範 將資料轉換為二進位制
為什麼要編碼？
   計算機只能識別0/1，那麼要使用計算機則必須將所有的資料和命令都用二進位制表示
   這是一個複雜的過程，所以需要一種解決方案，可以讓計算機識別人類的語言

字元編碼的發展史
   美國人發明了計算機，需要讓計算機識別美國人的語言，所以誕生了asc編碼表
   其他的國家也需要使用計算機，於是每個國建都退出了自己的編碼表
   中國-GBK
   日本-shift-j
   因為每個編碼表互不相容，導致亂碼問題
   為了統一全世界的編碼 推出而unicode編碼
   1.統一全世界的編碼
   2.必須還相容之前的GBK，shift-j

ASCII 中用八個二進位制（1個bytes）

GBK 英文字母佔一個位元組
    中文佔兩個位元組
    16個二進位制 2**16-1=65535
   如果一個位元組的首位為1 表示一箇中文
   若果一個位元組的首位為0 表示一個英文
    GBK不僅僅要儲存資料 還要計算每一個符號佔的長度

unicode 無論英文還是其他字元 都是2個位元組
   為什麼這麼設計？不浪費空間？
   1.為了提高效率，而採取的空間換時間（效率）
   unicode的問題
   浪費空間，降低網路傳輸效率

為了解決上述unicode的問題、：退出了UTF-8
   utf-8是變長的
   英文佔一個位元組
   中文佔三個位元組
   生僻字佔更多位元組

   與GBK相同的是，都需要計算，所以不適用於記憶體
   適用於：硬碟和網路傳輸

結論就是  記憶體中用unicode，硬碟或網路中用UTF-8

使用者輸入->記憶體（unicode）->轉換成（utf-8）->硬碟 該過程稱之為編碼 就是字元轉為二進位制的過程
硬碟上的a.txt（utf-8的二進位制）-> 記憶體中unicode的二進位制—>查編碼表得到符號->顯示到螢幕上
該過程稱之為解碼 把二進位制轉為符號

亂碼問題？
    1.儲存時與取出時使用的編碼方式不一致
亂碼不僅僅是因為存和取的編碼不同，還可能是存的時候就已經亂了，這將導致資料流失！
所以存的時候一定要注意：
  所使用的編碼方式一定要支援文件中的所有內容，即utf-8

python在執行程式碼之前必須從硬碟載入程式碼到記憶體，而硬碟中都是二進位制資料，必須先解碼為unicode
那直譯器怎麼知道擬採用的什麼編碼方式？
如果不明確自定 直譯器將採用預設的解碼方式，在python3中預設為utf-8而python2中預設為ASC
當你使用的是py2的時候 則需要手動制定編碼方式，在文件的第一行寫上 coding:uft-8
coding:uft-8

py2中當從記憶體訪問變數時可能會亂碼，例如儲存時utf-8的字元但是輸出時 卻用了GBK
python2中u 表示 將這個變數儲存為unicode編碼 可以防止取出變數時亂碼
資料型別也變為了unicode
1個16進位制 = 0.5個位元組

encode: unicode->uft-8 將unicode的字元 轉為自定的二進位制
decode: utf-8 ->unicode 將二進位制轉為unicode

檔案處理：

檔案是什麼？
  檔案是作業系統提供的一套虛擬概念
檔案這個概念之所以出現 是為了簡化對硬碟的操作
學習檔案處理是為了將資料永久儲存

開啟檔案的語法1
1.開啟檔案
  f=open('test.txt'，encoding='utf-8')#是給系統傳送了一個指令，讓作業系統去開啟檔案，因為應用程式無法直接控制硬體
  
2.讀取內容
  data=f.read()
  print(data)
  
3.關閉檔案 不要忘記關閉
  f.close()

open close read等都是在給作業系統傳送指令

開啟檔案的語法2:  在with程式碼執行完畢後會自動呼叫close
with open ('test.txt'，encoding='utf-8') as f:
    data= f.read()
    print(data)

引數1 檔案路徑 可以是相對 也可以是絕對
mode 開啟檔案的模式 
 r（只讀）
 w（只寫）
 
 +（可讀可寫）瞭解即可
  + 表示可讀可寫
  w+ 清空原始檔如果不存在則建立
  r+ 如果不存在則報錯
  a+ 如果不存在則建立，游標移動到最後
  可讀可寫 可用於文字處理 但是對於寫別的檔案，一般不用，很容易造成檔案損壞
 
encoding 編碼方式 windows預設為GBK Linux預設為utf-8

讀取內容 可以用引數指定要讀取的個數，預設為-1 表示全部讀取
需要注意 read（-1）僅限於檔案較小時，如果檔案太大會造成記憶體溢位
data=f.read(2000)
f.readable() 判斷是否可讀
f.writable()判斷是否可寫
line=f.readline()

使用迴圈 來讀取全部內容1
with open(r'D:\ \ \ ,encoding='utf-8') as f:
    while True:
    line = f.readline()
    if not line:#如果line為空則表示沒有內容了
           break
    print(line，end='')
使用迴圈 來讀取全部內容2
with open(r'D:\ \ \ ,encoding='utf-8') as f:
    for line in f:
        print(line,end='') 
           
使用迴圈 來讀取全部內容3
#一次性讀取全部
with open(r'D:\ \ \ ,encoding='utf-8') as f:
  print(f.readlines())#會將每行放入列表中

讀取相關函式
read()     讀取全部
read(size) 讀取指定大小
readlines  讀取全部
readlin    讀取一行
readable   是否可讀

注意在W模式寫 一旦開啟檔案 立即清空原來的內容 如果檔案不存在則建立新檔案
寫入字串時需要手動拼接換行符
with open(r'D:\ \ \ ,mode='w',encoding='utf-8') as f:
    f.write('矮跟')
    f.writelines('\n'.join(....))


在操作非文字檔案時，必須明確指定為位元組模式
b 用來指定為位元組模式
注意：
b 必須與r\w連用 rb(readBytes)\wb(writeBytes)
當檔案為位元組模式時 不能指定encoding引數！

預設情況下時讀寫文字模式 也就是t模式同樣需要與r\w連用
rt(readText)\wt(writeText)
t模式下 python直譯器會自動進行編碼和解碼而b模式不會

當模式為位元組模式時(rb)單位為位元組
#迴圈讀取全部內容

with open('xxx.png',mode='rb') as f:
    while True:
    data = f.read(1024)
    if not data:#如果data為空則意味著檔案讀完了
         break
    print(data)
    
    
在b模式只能寫入位元組


追加寫入: a 表示追加寫入 不會清空原資料 會把游標移動到最後

控制檔案的開啟模式
    r\w\a
控制操作檔案內容的模式
    t\b
    
t\b 必須與開啟模式連用
各種組合如下：
rt wt at rb wb ab r+ w+ a+

關於檔案操作的常用函式
read
readline
readlines
readable

write
writelines
writeable

關於編碼的兩個函式
encode  編碼
decode  解碼

字元編碼，檔案處理

軟體啟動的流程開啟notepad++ 來檢視test.txt文件 1.從硬碟將軟體程式載入到記憶體中 2.載入test.txt到記憶體中 3.執行notepad的程式碼將test.txt的內容輸出到螢幕上 python直譯器也是一個應用軟體 1.從硬碟將直譯器載入到記憶體中 2.載入test.p

第二篇 Python資料型別、字元編碼、檔案處理

一、引子 1、什麼是資料？ x=10，10是我們要儲存的資料 2、為何資料要分不同的型別

python字元編碼和檔案處理

一.瞭解字元編碼的知識儲備 1.文字編輯器存取檔案的原理(nodepad++,python,word) 開啟編輯器就打開了啟動了一個程序,是在記憶體中的,所以,用編輯器編寫的內容也都是存放於記憶體中的,斷電後資料丟失要想永遠儲存,需要點選儲存按鈕:編輯器

python學習day9 字元編碼和檔案處理

1.字元編碼 x='上' #unicode的二進位制---------》編碼--------》gbk格式的二進位制 res=x.encode('gbk') #bytes 位元組型別 print(res,type(res)) m=res.decode('gbk') print(m)&nb

我的Python成長之路---Day7-字元編碼和檔案處理part1

儲備知識點: 1. 計算機系統分為三層: 應用程式作業系統計算機硬體 2. 執行python程式的三個步驟 1. 先啟動python直譯器 2. 再將python檔案當作

python學習筆記之資料型別、字元編碼、檔案處理

　　 1、資料型別　　1、數字（int，float）　　　　整形（int）：定義 age=20 #本質age=int(20) 　　　　浮點型別：salary=3000.3 #本質salary=float(3000.3) 　　　　還有不常用的長整型、複數。　　2、字串

Python入門基礎--字元編碼與檔案處理

字元編碼文字編輯器存取檔案的原理 #1、開啟編輯器就打開了啟動了一個程序，是在記憶體中的，所以，用編輯器編寫的內容也都是存放與記憶體中的，斷電後資料丟失 #2、要想永久儲存，需要點選儲存按鈕：編輯器把記憶體的資料存到硬碟上。 #3、在我們編寫一個py檔案（沒有執行），跟編寫其他檔案沒有任何區別

字元編碼&檔案處理

瞭解字元編碼的前提1.執行程式的三大核心硬體 CPU、記憶體、硬碟執行一個程式： 1 將程式程式碼從硬碟讀入記憶體， 2 CPU從記憶體中取出程式碼，轉換為指令強調：程式執行過程中產生的資料一定是最先存放於記憶體中的2執行python程式的三個階段：python test.p

字元編碼和檔案處理

1.字元編碼檔案處理軟體器動流程 1.從硬碟載入到記憶體 2.載入檔案到記憶體 3.程式碼載入檔案內容，如果是文字編輯器，螢幕列印，直譯器是把程式碼轉換成cpu的指令級 2.記憶體中用unicode，硬碟和網路中用utf-8 windows預設gbk，linux預設ut

資料型別、字元編碼、檔案處理

一引子 1 什麼是資料？　　x=10，10是我們要儲存的資料 2 為何資料要分不同的型別　　資料是用來表示狀態的，不同的狀態就應該用不同的型別的資料去表示 3 資料型別　　數字（整形，長整形，浮點型，複數）　　字串　　位元組串：在介紹字元編碼時介紹位元組bytes型別　　列表

Java讀取Unicode檔案（UTF-8等）時碰到的BOM首字元問題，及處理方法

2015-18-01修改：增加 apache commons io 處理方法。在Windows下用文字編輯器建立的文字檔案，如果選擇以UTF-8等Unicode格式儲存，會在檔案頭（第一個字元）加入一個BOM標識。這個標識在Java讀取檔案的時候，不會被去掉，而且S

第一模組-:(第2章)資料型別、字元編碼、檔案操作

1、漢字點陣碼是一種用黑白兩色點陣來表示漢字字形的編碼。一個8*8點陣字模的儲存容量為？ 1、1位元組（Byte）有8位元（Bit） 2、黑白兩色每個點佔用1Bit 3、8×8點陣需要64個Bit 4、因為1Byte有8Bit，所以64Bit/8Bit/Byte = 8Byte 答案是B：8位

python開發基礎之資料型別、字元編碼、檔案操作

一、知識點１.身份運算：２.現在計算機系統通用的字元編碼工作方式：在計算機記憶體中，統一使用Unicode編碼，當需要儲存到硬碟或者需要傳輸的時候，就轉換為UTF-8編碼。用記事本編輯的時候，從檔案讀取的UTF-8字元被轉換為Unicode字元到記憶體裡，編輯完成後，儲存的時候再把Unicode轉

寫一個類，能夠統計某個檔案的純數字字元個數，統計非空白個數，空白字元個數，檔案行數，檔案所在路徑，通過繼承方式，增加一個方法，列印所有的統計資訊

#encoding=utf-8 import os.path class FileInfo(object): def __init__(self,file_path,encoding_type="utf-8"): self.file_path=file_path

python 入門之 – 字元編碼及相應處理方法（二十一）

字元編碼及操作方法今天來了解了解關於字元編碼的一些知識，關於字元編碼，其實我們生活當中所有的智慧裝置都有字元編碼，並且每個國家都有自己的字元編碼，記錄著各個國家的文字資訊，例如早期的一些網站專案都是用中國的 gbk 編碼。每個國家的計算機編碼只能識別自己國家的文字，如果非當前國家

python2和python3字元編碼，utf-8,unicode

二進位制 -> 轉換 -> 字串需要解碼 decode字串 -> 轉換 -> 二進位制需要編碼 encodepython3 記憶體中使用的字串全部是unicode碼，但是網路傳輸的資料或者從磁碟讀取的資料是把unicode碼轉換過的資料，通常情況下可能是utf-8格式的資料，所以如

Python模組、字元編碼、檔案讀寫

模組當我們用一種語言開始真正的軟體開發室，除了編寫程式碼外，還需要很多基本的已經寫好的現成的東西，高階語言通常都會為我們提供了一個比較完善的基礎程式碼庫，讓我們能直接呼叫，python也不例外，為我們提供了分成完善的基礎程式碼和第三方庫。在python中一個.py檔案就是一個模組。模組匯

關於字元編碼，你所需要知道的（ASCII,Unicode,Utf-8,GB2312…）

總結： ascii碼佔用一個位元組 gb2312（gbk是其擴充套件）佔用兩個位元組 Unicode是一種編碼方式，utf-8，utf-16是其具體實現，決定每個字元位元組數量，uft-8為1-4，utf-16為2-4，Windows使用utf-16，Linux使用

關於字元編碼，你所需要知道的

字元編碼的問題看似很小，經常被技術人員忽視，但是很容易導致一些莫名其妙的問題。這裡總結了一下字元編碼的一些普及性的知識，希望對大家有所幫助。還是得從ASCII碼說起說到字元編碼，不得不說ASCII碼的簡史。計算機一開始發明的時候是用來解決數字計算的問題，後來人們發現，計

svn commit檔案時，提示“由於字元編碼錯誤造成兩個檔案資訊丟失”的處理方法

svn commit檔案時，若出現提示“由於字元編碼錯誤造成兩個檔案資訊丟失”，且發現修改前或修改後本應顯示中文的註釋顯示的是亂碼，則可嘗試如下方法解決：用UltraEdit開啟該檔案，點另存為，然後在格式欄選擇UTF-8，然後覆蓋儲存，再sommit時看是否還會顯示亂碼

字元編碼，檔案處理

相關推薦