C# UTF-8 去BOM頭

阿新 • • 發佈：2019-02-20

在C#中，當使用帶有BOM頭的UTF-8編碼的字串時，一定要注意。

1）如果該字串用作路徑，用來定址。一定會出錯。
2）轉換格式時，也很容易出錯。例如字串轉int就一定會出錯。

待續…

————————————————————————————————————————————————

什麼是BOM？

BOM: Byte Order Mark

UTF-8 BOM又叫UTF-8 簽名,其實UTF-8 的BOM對UFT-8沒有作用,是為了支援UTF-16,UTF-32才加上的

BOM,BOM簽名的意思就是告訴編輯器當前檔案採用何種編碼,方便編輯器識別,但是BOM雖然在編輯器中不顯示,但是會產生輸出,就像多了一個空行。

Byte Order Marks are special characters at the beginning of a Unicode file to indicate whether it is big or little endian, in other words does the high or low order byte come first. These codes also tell whether the encoding is 8, 16 or 32 bit. You can recognise Unicode files by their starting byte order marks, and by the way Unicode-16 files are half zeroes and Unicode-32 files are three-quarters zeros. Unicode Endian Markers

Byte-order mark Description

EF BB BF UTF-8

FF FE UTF-16 aka UCS-2, little endian

FE FF UTF-16 aka UCS-2, big endian

00 00 FF FE UTF-32 aka UCS-4, little endian.

00 00 FE FF UTF-32 aka UCS-4, big-endian.

UTF的位元組序和BOM

UTF-8以位元組為編碼單元，沒有位元組序的問題。UTF-16以兩個位元組為編碼單元，在解釋一個UTF-16文字前，首先要弄清楚每個編碼單元的位元組序。例如收到一個“奎”的Unicode編碼是594E，“乙”的Unicode編碼是4E59。如果我們收到UTF-16位元組流“594E”，那麼這是“奎”還是“乙”？

Unicode規範中推薦的標記位元組順序的方法是BOM。BOM不是“Bill Of Material”的BOM表，而是Byte Order Mark。BOM是一個有點小聰明的想法：

在UCS編碼中有一個叫做"ZERO WIDTH NO-BREAK SPACE"的字元，它的編碼是FEFF。而FFFE在UCS中是不存在的字元，所以不應該出現在實際傳輸中。UCS規範建議我們在傳輸位元組流前，先傳輸字元"ZERO WIDTH NO-BREAK SPACE"。

這樣如果接收者收到FEFF，就表明這個位元組流是Big-Endian的；如果收到FFFE，就表明這個位元組流是Little-Endian的。因此字元"ZERO WIDTH NO-BREAK SPACE"又被稱作BOM。

UTF-8不需要BOM來表明位元組順序，但可以用BOM來表明編碼方式。字元"ZERO WIDTH NO-BREAK SPACE"的UTF-8編碼是EF BB BF。所以如果接收者收到以EF BB BF開頭的位元組流，就知道這是UTF-8編碼了。

Windows就是使用BOM來標記文字檔案的編碼方式的。

原來BOM是在檔案的開始加了幾個位元組作為標記。有了這個標記，一些協議和系統才能識別。

————————————————————————————————————————————————————————

由於UTF8中的BOM頭是可有可無的，又由於其BOM頭會對資料造成影響，所以去BOM頭顯得十分必要。下面的方法可以直接對記憶體中的位元組陣列進行操作，忽略BOM頭將其轉string型別。

  public static string GetUTF8String(byte[] buffer)
        {
            if (buffer == null)
                return null;

            if (buffer.Length <= 3)
            {
                return Encoding.UTF8.GetString(buffer);
            }

            byte[] bomBuffer = new byte[] { 0xef, 0xbb, 0xbf };

            if (buffer[0] == bomBuffer[0]
                && buffer[1] == bomBuffer[1]
                && buffer[2] == bomBuffer[2])
            {
                return new UTF8Encoding(false).GetString(buffer, 3, buffer.Length - 3);
            }

            return Encoding.UTF8.GetString(buffer);
        }

當然在讀取檔案時，利用 new UTF8Encoding(false) 忽略BOM頭也是可以的。

C# UTF-8 去BOM頭

C# UTF-8 去BOM頭

編碼格式簡介：ASCII碼、ANSI、GBK、GB2312、GB18030和Unicode、UTF-8，BOM頭

去掉utf-8的Bom頭：使用java以及jdbc不使用第三方庫執行sql文件腳本

C#使用StreamWriter生成UTF-8無BOM編碼格式

UTF-8和UTF-8無BOM，一個會導致文件中中文變量無法匹配的bug

Visual Studio 2017 UTF-8 無 BOM 一站式解決辦法

關於Encode in UTF-8 without BOM

c# UTF-8解碼編碼及陣列與List<string>之間轉換等基本知識點總結

UTF-8 without BOM

UTF-8與UTF-8 without BOM

utf-8無BOM編碼格式什麼意思？

lua去掉字串中的UTF-8的BOM三個位元組

C++ UTF-8與 Unicode互相轉換

vs2015:/utf-8選項解決UTF-8 without BOM 原始碼中文輸出亂碼問題

VBA 格式化輸出XML(UTF-8無BOM編碼)

C# UTF-8與GB2312編碼的相互轉化

Python學習筆記：Convert UTF-8 with BOM to UTF-8 without BOM in Python

讀取xml格式utf-8編碼和utf-8 無bom編碼格式,出現前言中不允許有內容的問題

VS 修改預設編碼格式為utf-8 無 BOM 與 utf-8 帶BOM

因字符集utf-8無BOM格式編碼，導致用sql檔案匯入MySQL出現亂碼問題

C# UTF-8 去BOM頭

相關推薦