Java正確判別出文件的字符集（尤其是帶BOM和不帶BOM的UTF-8字元)

阿新 • • 發佈：2019-01-23

前幾天在專案中需要讀取使用者上傳過來的txt檔案，但不確定txt檔案的字符集

UTF-16、UTF-8(帶BOM)、Unicode可以根據前三個位元組區別

public String getTxtEncode(FileInputStream in) throws IOException{
        byte[] head = new byte[3];  
        in.read(head);    
        String code = "GBK";  
        if (head[0] == -1 && head[1] == -2 )  
            code = "UTF-16";  
        if (head[0] == -2 && head[1] == -1 )  
            code = "Unicode";
        //帶BOM
        if(head[0]==-17 && head[1]==-69 && head[2] ==-65)  
            code = "UTF-8";  
        if("Unicode".equals(code)){
         code = "UTF-16";
        }
        return code;
 }

但不帶BOM的UTF-8和GBK前三個位元組不確定，用以上方法無法區別

通過在google上搜索發現不帶BOM的識別是Java遺留的一個bug，呵呵，終於找到根源了，Java提供了此bug的解決方案

package com.justsy.sts.utf8;

import java.io.*;  

/** 
 * This inputstream will recognize unicode BOM marks and will skip bytes if 
 * getEncoding() method is called before any of the read(...) methods. 
 *  
 * Usage pattern: String enc = "ISO-8859-1"; // or NULL to use systemdefault 
 * FileInputStream fis = new FileInputStream(file); UnicodeInputStream uin = new 
 * UnicodeInputStream(fis, enc); enc = uin.getEncoding(); // check and skip 
 * possible BOM bytes InputStreamReader in; if (enc == null) in = new 
 * InputStreamReader(uin); else in = new InputStreamReader(uin, enc); 
 */  
public class UnicodeInputStream extends InputStream {  
    PushbackInputStream internalIn;  
    boolean isInited = false;  
    String defaultEnc;  
    String encoding;  
  
    private static final int BOM_SIZE = 4;  
  
    public UnicodeInputStream(InputStream in, String defaultEnc) {  
        internalIn = new PushbackInputStream(in, BOM_SIZE);  
        this.defaultEnc = defaultEnc;  
    }  
  
    public String getDefaultEncoding() {  
        return defaultEnc;  
    }  
  
    public String getEncoding() {  
        if (!isInited) {  
            try {  
                init();  
            } catch (IOException ex) {  
                IllegalStateException ise = new IllegalStateException(  
                        "Init method failed.");  
                ise.initCause(ise);  
                throw ise;  
            }  
        }  
        return encoding;  
    }  
  
    /** 
     * Read-ahead four bytes and check for BOM marks. Extra bytes are unread 
     * back to the stream, only BOM bytes are skipped. 
     */  
    protected void init() throws IOException {  
        if (isInited)  
            return;  
  
        byte bom[] = new byte[BOM_SIZE];  
        int n, unread;  
        n = internalIn.read(bom, 0, bom.length);  
  
        if ((bom[0] == (byte) 0x00) && (bom[1] == (byte) 0x00)  
                && (bom[2] == (byte) 0xFE) && (bom[3] == (byte) 0xFF)) {  
            encoding = "UTF-32BE";  
            unread = n - 4;  
        } else if ((bom[0] == (byte) 0xFF) && (bom[1] == (byte) 0xFE)  
                && (bom[2] == (byte) 0x00) && (bom[3] == (byte) 0x00)) {  
            encoding = "UTF-32LE";  
            unread = n - 4;  
        } else if ((bom[0] == (byte) 0xEF) && (bom[1] == (byte) 0xBB)  
                && (bom[2] == (byte) 0xBF)) {  
            encoding = "UTF-8";  
            unread = n - 3;  
        } else if ((bom[0] == (byte) 0xFE) && (bom[1] == (byte) 0xFF)) {  
            encoding = "UTF-16BE";  
            unread = n - 2;  
        } else if ((bom[0] == (byte) 0xFF) && (bom[1] == (byte) 0xFE)) {  
            encoding = "UTF-16LE";  
            unread = n - 2;  
        } else {  
            // Unicode BOM mark not found, unread all bytes  
            encoding = defaultEnc;  
            unread = n;  
        }  
        // System.out.println("read=" + n + ", unread=" + unread);  
  
        if (unread > 0)  
            internalIn.unread(bom, (n - unread), unread);  
  
        isInited = true;  
    }  
  
    public void close() throws IOException {  
        // init();  
        isInited = true;  
        internalIn.close();  
    }  
  
    public int read() throws IOException {  
        // init();  
        isInited = true;  
        return internalIn.read();  
    }  
}

通過使用上述InputStream類的實現可以正確的讀取出不帶BOM和帶BOM的字符集

package com.justsy.sts.utf8;

import java.io.BufferedReader;  
import java.io.File;  
import java.io.FileInputStream;  
import java.io.IOException;  
import java.io.InputStreamReader;
import java.nio.charset.Charset;
  
public class UTF8Test {  
    public static void main(String[] args) throws IOException {  
        File f  = new File("D:"+File.separator+"Order.txt");  
        FileInputStream in = new FileInputStream(f);  
        String dc  = Charset.defaultCharset().name();
        UnicodeInputStream uin = new UnicodeInputStream(in,dc);
        BufferedReader br = new BufferedReader(new InputStreamReader(uin));  
        String line = br.readLine();  
        while(line != null)  
        {  
            System.out.println(line);  
            line = br.readLine();  
        }  
    }  
}

結合Java提供的方案，我們就可以比較完整的判別出各種字元集了

 public String getTxtEncode(FileInputStream in) throws IOException{
  
  String dc  = Charset.defaultCharset().name();
        UnicodeInputStream uin = new UnicodeInputStream(in,dc);
        
        if("UTF-8".equals(uin.getEncoding())){
         uin.close();
         return "UTF-8";
        }
        uin.close();
        
        byte[] head = new byte[3];  
        in.read(head);    
        String code = "GBK";  
        if (head[0] == -1 && head[1] == -2 )  
            code = "UTF-16";  
        if (head[0] == -2 && head[1] == -1 )  
            code = "Unicode";
        //帶BOM
        if(head[0]==-17 && head[1]==-69 && head[2] ==-65)  
            code = "UTF-8";  
        if("Unicode".equals(code)){
         code = "UTF-16";
        }
        return code;
 }

Java正確判別出文件的字符集（尤其是帶BOM和不帶BOM的UTF-8字元)

前幾天在專案中需要讀取使用者上傳過來的txt檔案，但不確定txt檔案的字符集 UTF-16、UTF-8(帶BOM)、Unicode可以根據前三個位元組區別 public String getTxtEncode(FileInputStream in) throws IOE

Java導出List集合到txt文件中——（四）

cde cos ajp d+ wap ogr alt jns kvo 有時候，需要將數據以一定格式導出到txt文件中。利用Java的IO可以輕松的導出數據到txt中。 1 package Action.txt; 2 3 import java.io.Buffere

JAVA實用案例之文件導出（JasperReport踩坑實錄）

十分 bytearray message remove 除了只需要老婆不同內存泄露問題寫在最前面想想來新公司也快五個月了，恍惚一瞬間。翻了翻博客，因為太忙，也有將近五個多月沒認真總結過了。正好趁著今天老婆出門團建的機會，記錄下最近這段時間遇到的大坑-J

Java核心類庫-IO-文件過濾器（FilenameFilter）

return 文件過濾 system sof boolean style 接口 strong family 文件操作過濾器（FilenameFilter）： listFiles（FilenameFilter filter ）方法：實際就相當於： //文件過濾器（Fil

Java文件操作（新建，遍歷，刪除）

div oid stack blog ace bytes except stat exception //創建文件 private static void createFile(File file){ try { if(!file.exists()

java學習筆記（九）：Java 流(Stream)、文件(File)和IO

用戶輸入 public 文件內容輸出流 out 單個 java 我們 ready Java 的控制臺輸入由 System.in 完成。為了獲得一個綁定到控制臺的字符流，你可以把 System.in 包裝在一個 BufferedReader 對象中來創建一個字符流。需要i

spingmvc的外置properties文件讀取（java循環利用properties內容）

bank return nco ping throw ssp per exce oid 既然已經有了applicationContext.xml的properties路徑，java不必再設定properties路徑。 applicationContext.xml 改前:

Ajax異步請求返回文件流（eg：導出文件時，直接將導出數據用文件流的形式返回客戶端供客戶下載）

usermode table logs param onload img height tle http 在異步請求中要返回文件流，不能使用JQuery，因為$.ajax,$.post 不支持返回二進制文件流的類型，可以看到下圖，dataType只支持xml，json，sc

java 網絡文件下載（並命中文名）

close malformed pos encoding download let sys tput not public void download(HttpServletRequest request, HttpServletResponse response){

Java Web 生成Word文件（freemarker方式）

首先在pom檔案中加入下面這個依賴（不是Maven專案的話，把jar包匯入專案即可） <dependency> <groupId>org.freemarker</groupId> <artifactId>freemarker</ar

JAVA應用打開文件對話框並輸出選擇的目錄（簡潔實用）

ati div gif ack select 文件名 you lec http package com.zyq; import javax.swing.JFileChooser; import javax.swing.filechooser.FileNameExtens

JAVA RMI 文件中文（三）

2.7 遠端物件的定位一個簡單的命名伺服器可以儲存命名的遠端物件的引用。java.rmi.Naming可以使用以URL為基礎的方法儲存一個遠端物件的引用。對於客戶端來說，如果要呼叫遠端物件的方法的話，那麼需要先獲取到遠端物件的引用。一個遠端引用通常可以作

JAVA RMI 文件中文（二）

2.6 遠端方法呼叫時的引數傳遞一個遠端物件只要可以序列化就可以是方法引數或是返回值。這就包括了基礎物件、遠端物件和實現了java.io.Serializable的非遠端物件。更多關於如何序列化類的資訊科一參考 “Java Object Serializati

深入理解JVM-java字節碼文件結構剖析（1）

ret 是個 sta 操作數棧 face 列表屬性基表異常 public class MyTest1 { private int a = 1; public int getA() { return a; } pub

深入理解JVM-java字節碼文件結構剖析（練習解讀字節碼）

const class store bytes ret inf get 構造器 art public class MyTest2 { String str = "Welcome"; private int x = 5; publi

Saiku更改導出文件的文件名（十九）

ket substring 系統文件名 and for component per pre Saiku更改導出文件的文件名 Saiku查詢完數據之後，可以以excel,pdf,csv等格式將數據導出，這裏我們來講一下怎麽更改導出的文件名。找到對應的導出方法所在

word 文件匯出（freemaker+jacob）--java開發

工作中終於遇到了需要匯出word文旦的需求了。由於以前沒有操作過，所以就先百度下了，基本上是：部落格園，簡書，CDSN，這幾大機構的相關帖子比較多，然後花了2周時間才初步弄懂。學習順序：第一階段 1,。首先是先了解 java 通過什麼方式來操作word的匯出工作。就有了下面這個帖子了

Fedora Xfce 23 thunar顯不出文件縮略圖卻不知為那般？

work nbsp 網絡管理 media sysconf 默認問題什麽 tags Fedora是一個Linux發行，基於Redhat，算是Redhat的測試版本。而Fedora workstation默認使用的桌面環境是Gnome，使用Xfce作為桌面環境的Fed

如何刪除/mnt/cdrom?|如何刪除只讀文件系統（Read-only files ystem）？ failed !bh ? 掛載光盤？掛載usb？

highlight failed roo aid 刪除 read cdrom oot 丟失 root權限下：首先用umount /mnt/文件夾卸載文件系統，必要時可以用umount -f（可能丟失數據）然後rm -rf /mnt/cdrom mkdir /mnt/c

html中用href 實現點擊鏈接彈出文件下載對話框

就會鏈接 pre html 支持 body 能夠自帶圖片瀏覽器支持能夠打開的格式，他都會默認直接在線打開（比如word或圖片），不支持的格式，他就會彈出下載提示。最好是做成.rar格式、xlsx的文件。瀏覽器自帶下載功能。 <body> <

Java正確判別出文件的字符集（尤其是帶BOM和不帶BOM的UTF-8字元)

相關推薦