1. 程式人生 > >從原理上搞懂編碼——究竟什麼是編碼?什麼是解碼?什麼是位元組流?

從原理上搞懂編碼——究竟什麼是編碼?什麼是解碼?什麼是位元組流?

原文:http://www.cnblogs.com/luguo3000/p/3592562.html

編碼問題一直都伴隨著程式猿從不間斷,剛開始學程式設計的時候好多次遇到編碼問題,解 決了檔案讀取的編碼問題,又遇到了網路編碼問題,解決了網路編碼問題又遇到了資料庫編碼問題。總結一下無非就是編碼原理沒搞清楚,希望本文能從原理上讓菜 鳥們理解編碼,遇到問題可以從原理上搞定編碼。

一.編碼

人類先有了自己的語言,交流了若干個世紀,然後出現了計算機。可惜計算機只認0和1,人類只能認文字,雙方都不能妥協,那就必須要有一個從文字到0、1的映射了。從文字到0、1的對映稱為編碼,反過來從0、1到文字叫解碼。

具體什麼 是編碼?先來咬文嚼字一下吧。編就是將某樣東西按照一定的規則放到一起,碼在這裡是數字的意思。編碼就是將某東西編成數字。比如郵政編碼,就是將不同範圍 內的郵局編成不同的數字。計算機裡只有0和1,編碼就是將文字字元編成一系列的0和1,看起來好像是廢話啊,但這確實是編碼的本質。

後來經過編碼,計算機螢幕上終於可以顯示“Hello World”了。學計算機之前誰都不知道有這麼一個過程,因為一切看上去都理所當然。這種根深蒂固的認識讓我們對編碼理解起來犯了難。

首先螢幕 的顯示跟計算機儲存是兩碼事,螢幕對應人們的視覺認知,它是無形的,你找不出來在哪裡刻了這麼兩個單詞,而計算機儲存是客觀存在的。計算機裡只有0和1, 怎麼來表示“Hello World”呢(假如我們在美國),那就需要將字母數字及標點符號編一個號。一個位元組可以表示256個數字,表示字母數字標點足夠了,所以用一個位元組就可以對應一個字元了。這樣一來計算機在顯示文字的時候,先將0、1解碼成對應的文字,然後在螢幕上渲染出來就可以了。我們將“Hello World”叫做字元,計算機實際儲存的是字元對應的編號,這些編號就叫位元組流。

上邊這種編碼就是ASCII碼,如果計 算機只在美國用或者只顯示英語,那編碼就是透明的,誰都不需要去關心編碼,一切都覺得理所當然。可是計算機應用到了像中國這樣的國家,這些國家的語言哪裡 只是幾個字母啊,有成千上萬種不同的字元。很顯然ASCII碼就不能滿足需求了,怎麼辦呢,每個國家都研製自己的編碼唄,很顯然這樣做並不長久,每個國家 都有自己的編碼實在有點亂,連兩個國家的語言都不能放在一起。所以可以將世界當成一個整體,把所有的文字統一編號,這時候就出現了unicode編碼。用 一個位元組來表示一個字元顯然是不夠的,unicode編碼用了兩個位元組來表示一個字元。其實,編碼的發展過程並沒有這麼順利,中間還是出現了很多其他的編 碼,以後的文章可以詳細說一下幾種常用的編碼。那問題豈不是解決了,大家都用unicode不就完事了嗎,哪有這麼簡單呢,unicode出現之前計算機 領域已經有很多成型的作業系統軟體甚至標準,不可能都統一改成unicode編碼。所以到現在還是會遇到編碼問題,unicode只是給我們提供了一種統 一解釋所有文字的編碼方案。要搞清楚,這裡討論的編碼都是針對文字字元的。

二.亂碼

編碼之所以受到關注,亂碼幾乎起到了決定性的作用,如果沒有亂碼,一切都讓大家覺得順理成章,那誰還會關注編碼呢。

出現亂碼的原因就是文字字元編碼過程與位元組流解碼過程使用了不同的編碼格式,這個往往歸咎於解碼格式選擇錯誤,也就是說在解碼的過程中出現了問題。如 果我的字元是用utf-8編碼,你用GBK解碼那肯定出問題。因為文字按照utf-8的編碼規則編成的0、1,按照GBK的規則解碼回來的文字並不是原來 的文字,這時候就會出現亂碼了。這種問題會出現在檔案讀寫、網路編碼傳輸、資料庫存取上。只要牽涉到字元都有可能出現亂碼,因為只要有字元就會有解碼過 程。

還有一種 情況就是檔案壓根不是文字檔案,也就是說根本就沒有經過編碼這個過程,那你去解碼當然亂碼了。比如64,你如果看做文字字元就是6和4兩個字元,可以對應 編碼格式進行編碼。如果看做是數字64,那對應的儲存結構是01000000,就沒有編碼過程,也就不需要去解碼。

要 搞清楚的一點就是同樣的文字字元,經過不同的編碼,在儲存結構上是不一樣的,但是代表的字元是一樣的,不同編碼真正的區別在於儲存結構。反過來,相同的存 儲結構,經過不同的解碼,對應的文字字元並不一樣,但是在記憶體上結構上並沒有改變。如果碰到亂碼,不要慌張,因為原始儲存結構一動沒動,只不過用錯了解碼 方式。就像一千個讀者有一千個哈姆雷特一樣,真實的哈姆雷特就在那裡。

亂碼是顯示在螢幕上才被認為是亂碼,也就是說亂碼取決於人的感官,亂碼只有人才知道﹐計算機不認為這是亂碼。

三.檔案編碼

不管是文字還是圖片或視訊,在計算機儲存上都是一視同仁,全都是位元組流。但是 從方便人們閱讀的角度上還是分為文字檔案和二進位制檔案。文字檔案的可視形式就是文字字元,在儲存和顯示時有文字字元編解碼的過程,可以直接用文字編輯器閱 讀。除文字檔案以外就是二進位制檔案,不同型別的二進位制檔案都有相應的結構標準,例如java的class檔案,前四個位元組代表檔案型別,後邊兩個位元組代表 大版本號,再後邊兩個位元組代表小版本號。具體哪些位元組代表什麼意思,值是float型別還是int型別,都有一定的標準,所以需要特定的軟體按照標準去讀 取解析。

在不同的程式語言中,往往提供不同的類對文字檔案和二進位制檔案進行讀寫。最常 用的就是文字檔案的讀寫例如C#中有StreamReader和StreamWriter,Java中有BufferedReader和 BufferedWriter。還有二進位制檔案的讀寫例如C#中有BinaryReader和BinaryWriter,Java中有 DataInputStream和DataOutputStream。當然讀寫二進位制檔案的類也可以讀寫文字檔案,因為文字檔案和二進位制檔案的儲存在本質 上是沒有區別的,都是二進位制。只不過專門讀寫文字檔案的類封裝的更好,讀寫文字檔案更方便.

歡迎使用Markdown編輯器

你好! 這是你第一次使用 Markdown編輯器 所展示的歡迎頁。如果你想學習如何使用Markdown編輯器, 可以仔細閱讀這篇文章,瞭解一下Markdown的基本語法知識。

新的改變

我們對Markdown編輯器進行了一些功能拓展與語法支援,除了標準的Markdown編輯器功能,我們增加了如下幾點新功能,幫助你用它寫部落格:

  1. 全新的介面設計 ,將會帶來全新的寫作體驗;
  2. 在創作中心設定你喜愛的程式碼高亮樣式,Markdown 將程式碼片顯示選擇的高亮樣式 進行展示;
  3. 增加了 圖片拖拽 功能,你可以將本地的圖片直接拖拽到編輯區域直接展示;
  4. 全新的 KaTeX數學公式 語法;
  5. 增加了支援甘特圖的mermaid語法1 功能;
  6. 增加了 多螢幕編輯 Markdown文章功能;
  7. 增加了 焦點寫作模式、預覽模式、簡潔寫作模式、左右區域同步滾輪設定 等功能,功能按鈕位於編輯區域與預覽區域中間;
  8. 增加了 檢查列表 功能。

功能快捷鍵

撤銷:Ctrl/Command + Z
重做:Ctrl/Command + Y
加粗:Ctrl/Command + B
斜體:Ctrl/Command + I
標題:Ctrl/Command + Shift + H
無序列表:Ctrl/Command + Shift + U
有序列表:Ctrl/Command + Shift + O
檢查列表:Ctrl/Command + Shift + C
插入程式碼:Ctrl/Command + Shift + K
插入連結:Ctrl/Command + Shift + L
插入圖片:Ctrl/Command + Shift + G

合理的建立標題,有助於目錄的生成

直接輸入1次#,並按下space後,將生成1級標題。
輸入2次#,並按下space後,將生成2級標題。
以此類推,我們支援6級標題。有助於使用TOC語法後生成一個完美的目錄。

如何改變文字的樣式

強調文字 強調文字

加粗文字 加粗文字

標記文字

刪除文字

引用文字

H2O is是液體。

210 運算結果是 1024.

插入連結與圖片

連結: link.

圖片: Alt

帶尺寸的圖片: Alt

當然,我們為了讓使用者更加便捷,我們增加了圖片拖拽功能。

如何插入一段漂亮的程式碼片

部落格設定頁面,選擇一款你喜歡的程式碼片高亮樣式,下面展示同樣高亮的 程式碼片.

// An highlighted block
var foo = 'bar';

生成一個適合你的列表

  • 專案
    • 專案
      • 專案
  1. 專案1
  2. 專案2
  3. 專案3
  • 計劃任務
  • 完成任務

建立一個表格

一個簡單的表格是這麼建立的:

專案 Value
電腦 $1600
手機 $12
導管 $1

設定內容居中、居左、居右

使用:---------:居中
使用:----------居左
使用----------:居右

第一列 第二列 第三列
第一列文字居中 第二列文字居右 第三列文字居左

SmartyPants

SmartyPants將ASCII標點字元轉換為“智慧”印刷標點HTML實體。例如:

TYPE ASCII HTML
Single backticks 'Isn't this fun?' ‘Isn’t this fun?’
Quotes "Isn't this fun?" “Isn’t this fun?”
Dashes -- is en-dash, --- is em-dash – is en-dash, — is em-dash

建立一個自定義列表

Markdown
Text-to- HTML conversion tool
Authors
John
Luke

如何建立一個註腳

一個具有註腳的文字。2

註釋也是必不可少的

Markdown將文字轉換為 HTML

KaTeX數學公式

您可以使用渲染LaTeX數學表示式 KaTeX:

Gamma公式展示 Γ ( n ) = ( n 1 ) ! n N \Gamma(n) = (n-1)!\quad\forall n\in\mathbb N 是通過尤拉積分

Γ ( z ) = 0 t z 1 e t d t   . \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,.

你可以找到更多關於的資訊 LaTeX 數學表示式here.

新的甘特圖功能,豐富你的文章

  • 關於 甘特圖 語法,參考 這兒,

UML 圖表

可以使用UML圖表進行渲染。 Mermaid. 例如下面產生的一個序列圖::

這將產生一個流程圖。:

  • 關於 Mermaid 語法,參考 這兒,

FLowchart流程圖

我們依舊會支援flowchart的流程圖:

  • 關於 Flowchart流程圖 語法,參考 這兒.

匯出與匯入

匯出

如果你想嘗試使用此編輯器, 你可以在此篇文章任意編輯。當你完成了一篇文章的寫作, 在上方工具欄找到 文章匯出 ,生成一個.md檔案或者.html檔案進行本地儲存。

匯入

如果你想載入一篇你寫過的.md檔案或者.html檔案,在上方工具欄可以選擇匯入功能進行對應副檔名的檔案匯入,
繼續你的創作。


  1. mermaid語法說明 ↩︎

  2. 註腳的解釋 ↩︎