VIM顯示utf-8文件亂碼解決方法

阿新 • • 發佈：2019-01-12

1.相關基礎知識介紹

        在Vim中，有四個與編碼有關的選項，它們是：fileencodings、fileencoding、encoding和termencoding。在實際使用中，任何一個選項出現錯誤，都會導致出現亂碼。因此，每一個Vim使用者都應該明確這四個選項的含義。下面，我們詳細介紹一下這四個選項的含義和作用。

        （1）encoding
        encoding是Vim內部使用的字元編碼方式。當我們設定了encoding之後，Vim內部所有的buffer、暫存器、指令碼中的字串等，全都使用這個編碼。Vim 在工作的時候，如果編碼方式與它的內部編碼不一致，它會先把編碼轉換成內部編碼。如果工作用的編碼中含有無法轉換為內部編碼的字元，在這些字元就會丟失。因此，在選擇 Vim 的內部編碼的時候，一定要使用一種表現能力足夠強的編碼，以免影響正常工作。
        由於encoding選項涉及到Vim中所有字元的內部表示，因此只能在Vim啟動的時候設定一次。在Vim工作過程中修改encoding會造成非常多的問題。使用者手冊上建議只在 .vimrc中改變它的值，事實上似乎也只有在 .vimrc中改變它的值才有意義。如果沒有特別的理由，請始終將encoding設定為utf-8。為了避免在非UTF-8的系統如Windows下，選單和系統提示出現亂碼，可同時做這幾項設定：
        set encoding=utf-8
        set langmenu=zh_CN.UTF-8
        language message zh_CN.UTF-8

        （2）termencoding
        termencoding是Vim用於螢幕顯示的編碼，在顯示的時候，Vim會把內部編碼轉換為螢幕編碼，再用於輸出。內部編碼中含有無法轉換為螢幕編碼的字元時，該字元會變成問號，但不會影響對它的編輯操作。如果termencoding沒有設定，則直接使用encoding不進行轉換。
        舉個例子，當你在Windows下通過telnet登入Linux工作站時，由於Windows的telnet是GBK編碼的，而Linux下使用UTF-8編碼，你在telnet下的Vim中就會亂碼。此時有兩種消除亂碼的方式：一是把Vim的encoding改為gbk，另一種方法是保持encoding為utf-8，把termencoding改為gbk，讓Vim在顯示的時候轉碼。顯然，使用前一種方法時，如果遇到編輯的檔案中含有GBK無法表示的字元時，這些字元就會丟失。但如果使用後一種方法，雖然由於終端所限，這些字元無法顯示，但在編輯過程中這些字元是不會丟失的。
        對於圖形介面下的GVim，它的顯示不依賴TERM，因此termencoding對於它沒有意義。在GTK2下的GVim 中，termencoding永遠是utf-8，並且不能修改。而Windows下的GVim則忽略termencoding的存在。

        （3）fileencoding
        當Vim從磁碟上讀取檔案的時候，會對檔案的編碼進行探測。如果檔案的編碼方式和Vim的內部編碼方式不同，Vim就會對編碼進行轉換。轉換完畢後，Vim會將fileencoding選項設定為檔案的編碼。當Vim存檔的時候，如果encoding和fileencoding不一樣，Vim就會進行編碼轉換。因此，通過開啟檔案後設置fileencoding，我們可以將檔案由一種編碼轉換為另一種編碼。但是，由前面的介紹可以看出，fileencoding是在開啟檔案的時候，由Vim進行探測後自動設定的。因此，如果出現亂碼，我們無法通過在開啟檔案後重新設定fileencoding來糾正亂碼。
        簡而言之，fileencoding是Vim中當前編輯的檔案的字元編碼方式，Vim儲存檔案時也會將檔案儲存為這種字元編碼方式 (不管是否新檔案都如此)。

        （4）fileencodings
        編碼的自動識別是通過設定fileencodings實現的，注意是複數形式。fileencodings是一個用逗號分隔的列表，列表中的每一項是一種編碼的名稱。當我們開啟檔案的時候，VIM按順序使用fileencodings中的編碼進行嘗試解碼，如果成功的話，就使用該編碼方式進行解碼，並將fileencoding設定為這個值，如果失敗的話，就繼續試驗下一個編碼。
        因此，我們在設定fileencodings的時候，一定要把要求嚴格的、當檔案不是這個編碼的時候更容易出現解碼失敗的編碼方式放在前面，把寬鬆的編碼方式放在後面。例如，latin1是一種非常寬鬆的編碼方式，任何一種編碼方式得到的文字，用latin1進行解碼，都不會發生解碼失敗——當然，解碼得到的結果自然也就是理所當然的“亂碼”。因此，如果你把latin1放到了fileencodings的第一位的話，開啟任何中文檔案都是亂碼也就是理所當然的了。

以下是網上推薦的一個fileencodings設定：

        set fileencodings=ucs-bom,utf-8,cp936,gb18030,big5,euc-jp,euc-kr,latin1
        其中，ucs-bom是一種非常嚴格的編碼，非該編碼的檔案幾乎沒有可能被誤判為ucs-bom，因此放在第一位。
        utf-8也相當嚴格，除了很短的檔案外(例如許多人津津樂道的GBK編碼的“聯通”被誤判為UTF-8編碼的經典錯誤)，現實生活中一般檔案是幾乎不可能被誤判的，因此放在第二位。
        接下來是cp936和gb18030，這兩種編碼相對寬鬆，如果放前面的話，會出現大量誤判，所以就讓它們靠後一些。cp936的編碼空間比gb18030小，所以把cp936放在gb18030前面。
        至於big5、euc-jp和euc-kr，它們的嚴格程度和cp936差不多，把它們放在後面，在編輯這些編碼的檔案的時候必然出現大量誤判，但這是Vim內建編碼探測機制沒有辦法解決的事。由於中國使用者很少有機會編輯這些編碼的檔案，因此我們還是決定把cp936和gb18030放在前面以保證這些編碼的識別。
        最後就是latin1了。它是一種極其寬鬆的編碼，以至於我們不得不把它放在最後一位。不過可惜的是，當你碰到一個真的latin1編碼的檔案時，絕大部分情況下，它沒有機會fall-back到latin1，往往在前面的編碼中就被誤判了。不過，正如前面所說的，中國使用者沒有太多機會接觸這樣的檔案。
        如果編碼被誤判了，解碼後的結果就無法被人類識別，於是我們就說，這個檔案亂碼了。此時，如果你知道這個檔案的正確編碼的話，可以在開啟檔案的時候使用 ++enc=encoding 的方式來開啟檔案，如：
        :e ++enc=utf-8 myfile.txt

2.Vim的工作原理

        好了，解釋完了這一堆容易讓新手犯糊塗的引數，我們來看看Vim的多字元編碼方式支援是如何工作的。
        （1）Vim啟動，根據 .vimrc中設定的encoding的值來設定buffer、選單文字、訊息文的字元編碼方式。
        （2）讀取需要編輯的檔案，根據fileencodings中列出的字元編碼方式逐一探測該檔案編碼方式。並設定fileencoding為探測到的，看起來是正確的字元編碼方式。事實上，Vim 的探測準確度並不高，尤其是在encoding沒有設定為utf-8時。因此強烈建議將encoding設定為utf-8，雖然如果你想Vim顯示中文選單和提示訊息的話這樣會帶來另一個小問題。
        （3）對比fileencoding和encoding的值，若不同則呼叫iconv將檔案內容轉換為encoding所描述的字元編碼方式，並且把轉換後的內容放到為此檔案開闢的buffer裡，此時我們就可以開始編輯這個檔案了。注意，完成這一步動作需要呼叫外部的iconv.dll(注2)，你需要保證這個檔案存在於$VIMRUNTIME或者其他列在PATH環境變數中的目錄裡。
        （4）編輯完成後儲存檔案時，再次對比fileencoding和encoding的值。若不同，再次呼叫iconv將即將儲存的buffer中的文字轉換為fileencoding所描述的字元編碼方式，並儲存到指定的檔案中。同樣，這需要呼叫iconv.dll

3.解決辦法示例

        （1）方法一：設定.vimrc檔案：
        在/home/username/.vimrc或者/root/.vimrc下增加兩句話：
        let &termencoding=&encoding
        set fileencodings=utf-8,gbk,ucs-bom,cp936
        這種辦法可以實現編輯UTF-8檔案

        （2）方法而二：開啟檔案後，在vi編輯器中設定：
        :set encoding=utf-8 termencoding=gbk fileencoding=utf-8

        （3）方法三：新建UTF-8檔案，在vi編輯器設定：
        :set fenc=utf-8
        :set enc=GB2312
        這樣在編輯器裡輸入中文，儲存的檔案是UTF-8。

        （4）方法四：一個推薦的～/.vimrc檔案配置：
        set encoding=utf-8
        set fileencodings=ucs-bom,utf-8,cp936,gb18030,latin1
        set termencoding=gb18030
        set expandtab
        set ts=4
        set shiftwidth=4
        set nu
        syntax on

        if has('mouse')
        set mouse-=a
        endif

後記：本文根據網路上相關資料整理，由於來源較多，未能一一標明出處，敬請各位原創作者見諒。

VIM顯示utf-8文件亂碼解決方法

VIM顯示utf-8文件亂碼解決方法

linux用 gedit和Vim開啟txt文件亂碼解決方法

_技巧_SublimeText_打開文件亂碼解決

eclipse 中properties文件亂碼解決方式

自動數據庫抽取想要的查詢結果，自動生成txt(utf-8)文件，然後自動ftp上傳到外網服務器

html中 Charset=UTF-8還是中文亂碼解決辦法

Mysql5.7 基目錄沒有data文件夾解決方法

VM安裝Centos7下安裝vmware-tools /mnt/hgfs沒有文件的解決方法

win7點擊右鍵不能新建文件夾怎麽辦？win7右鍵不能新建文件夾解決方法

win 10 無法刪除系統文件的解決方法(提示：無法枚舉容器中的對象訪問被拒絕)

win10無法寫入刪改c盤文件的解決方法

Python中出現SyntaxError:Non-UTF-8 code錯誤的解決方法

SyntaxError: (unicode error) 'utf-8' python中文錯誤解決方法

解決excel打開utf-8編碼csv文件亂碼的bug

解決ZendStudio打開utf-8格式的php文件亂碼

解決 Excel 打開 UTF-8 編碼 CSV 文件亂碼的 BUG

fstream類讀取UTF-8、Unicode和ANSI文字文件亂碼問題的解決方案

QT5常見問題二：程序顯示中文亂碼以及Linguist打開翻譯文件亂碼，該如何解決？

java(IO)讀寫文件亂碼轉換UTF-8問題

Eclipse的properties文件中文亂碼解決方法

VIM顯示utf-8文件亂碼解決方法

相關推薦