Java獲取檔案編碼 - 程式人生

在不告知檔案編碼的情況下，通過一定的手段去探測檔案的編碼，幾乎沒有任何一種方法是絕對正確的。只有成功率大小的問題。一下列出幾個常用的識別檔案編碼的方法。

常見的編碼檔案的開頭來識別檔案編碼：

ANSI：無格式定義
          Unicode：前兩個位元組為FFFE Unicode文件以0xFFFE開頭
Unicode big endian：前兩位元組為FEFF
UTF-8：前兩位元組為EFBB UTF-8以0xEFBBBF開頭

1、通過檔案的前三個位元組來判斷

public static String codeString(String fileName) throws Exception {
        BufferedInputStream bin = new BufferedInputStream(new FileInputStream(fileName));
        int p = (bin.read() << 8) + bin.read();
        bin.close();
        String code = null;
 
        switch (p) {
        case 0xefbb:
            code = "UTF-8";
            break;
        case 0xfffe:
            code = "Unicode";
            break;
        case 0xfeff:
            code = "UTF-16BE";
            break;
        default:
            code = "GBK";
        }
 
        return code;
    }

2、判斷前三個位元組出錯率還是蠻大的，還可以進一步讀取檔案的欄位，進行特殊編碼字元的判斷來確定檔案編碼

    /**
     * 判斷文字檔案的字符集，檔案開頭三個位元組表明編碼格式。 
     * <a href="http://blog.163.com/wf_shunqiziran/blog/static/176307209201258102217810/">參考的部落格地址</a>
     * 
     * @param path
     * @return
     * @throws Exception
     * @throws Exception
     */
    public static String charset(String path) {
        String charset = "GBK";
        byte[] first3Bytes = new byte[3];
        try {
            boolean checked = false;
            BufferedInputStream bis = new BufferedInputStream(new FileInputStream(path));
            bis.mark(0); // 讀者注： bis.mark(0);修改為 bis.mark(100);我用過這段程式碼，需要修改上面標出的地方。 
                        // Wagsn注：不過暫時使用正常，遂不改之
            int read = bis.read(first3Bytes, 0, 3);
            if (read == -1) {
                bis.close();
                return charset; // 檔案編碼為 ANSI
            } else if (first3Bytes[0] == (byte) 0xFF && first3Bytes[1] == (byte) 0xFE) {
                charset = "UTF-16LE"; // 檔案編碼為 Unicode
                checked = true;
            } else if (first3Bytes[0] == (byte) 0xFE && first3Bytes[1] == (byte) 0xFF) {
                charset = "UTF-16BE"; // 檔案編碼為 Unicode big endian
                checked = true;
            } else if (first3Bytes[0] == (byte) 0xEF && first3Bytes[1] == (byte) 0xBB
                    && first3Bytes[2] == (byte) 0xBF) {
                charset = "UTF-8"; // 檔案編碼為 UTF-8
                checked = true;
            }
            bis.reset();
            if (!checked) {
                while ((read = bis.read()) != -1) {
                    if (read >= 0xF0)
                        break;
                    if (0x80 <= read && read <= 0xBF) // 單獨出現BF以下的，也算是GBK
                        break;
                    if (0xC0 <= read && read <= 0xDF) {
                        read = bis.read();
                        if (0x80 <= read && read <= 0xBF) // 雙位元組 (0xC0 - 0xDF)
                            // (0x80 - 0xBF),也可能在GB編碼內
                            continue;
                        else
                            break;
                    } else if (0xE0 <= read && read <= 0xEF) { // 也有可能出錯，但是機率較小
                        read = bis.read();
                        if (0x80 <= read && read <= 0xBF) {
                            read = bis.read();
                            if (0x80 <= read && read <= 0xBF) {
                                charset = "UTF-8";
                                break;
                            } else
                                break;
                        } else
                            break;
                    }
                }
            }
            bis.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
        System.out.println("--檔案-> [" + path + "] 採用的字符集為: [" + charset + "]");
        return charset;
    }

3、通過工具庫cpdetector來獲取檔案編碼

	/**
	 * <div>
	 * 利用第三方開源包cpdetector獲取檔案編碼格式.<br/>
	 * --1、cpDetector內建了一些常用的探測實現類,這些探測實現類的例項可以通過add方法加進來,
	 *   如:ParsingDetector、 JChardetFacade、ASCIIDetector、UnicodeDetector. <br/>
	 * --2、detector按照“誰最先返回非空的探測結果,就以該結果為準”的原則. <br/>
	 * --3、cpDetector是基於統計學原理的,不保證完全正確.<br/>
	 * </div>
	 * @param filePath
	 * @return 返回檔案編碼型別：GBK、UTF-8、UTF-16BE、ISO_8859_1
	 * @throws Exception 
	 */
	public static String getFileCharset(String filePath) throws Exception {
		CodepageDetectorProxy detector = CodepageDetectorProxy.getInstance();
		/*ParsingDetector可用於檢查HTML、XML等檔案或字元流的編碼,
		 * 構造方法中的引數用於指示是否顯示探測過程的詳細資訊，為false不顯示。
	    */
		detector.add(new ParsingDetector(false));
		/*JChardetFacade封裝了由Mozilla組織提供的JChardet，它可以完成大多數檔案的編碼測定。
		 * 所以，一般有了這個探測器就可滿足大多數專案的要求，如果你還不放心，可以再多加幾個探測器，
		 * 比如下面的ASCIIDetector、UnicodeDetector等。
        */
		detector.add(JChardetFacade.getInstance());
		detector.add(ASCIIDetector.getInstance());
		detector.add(UnicodeDetector.getInstance());
		Charset charset = null;
		File file = new File(filePath);
		try {
			//charset = detector.detectCodepage(file.toURI().toURL());
			InputStream is = new BufferedInputStream(new FileInputStream(filePath));
			charset = detector.detectCodepage(is, 8);
		} catch (Exception e) {
			e.printStackTrace();
			throw e;
		}
 
		String charsetName = "GBK";
		if (charset != null) {
			if (charset.name().equals("US-ASCII")) {
				charsetName = "ISO_8859_1";
			} else if (charset.name().startsWith("UTF")) {
				charsetName = charset.name();// 例如:UTF-8,UTF-16BE.
			}
		}
		return charsetName;
	} 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    Java獲取檔案編碼
      
                                        
                                                        在不告知檔案編碼的情況下，通過一定的手段去探測檔案的編碼，幾乎沒有任何一種 

  
 

    

    
    Java獲取檔案大小
       
 
 一、通過length方法： 
 1、建立一個檔案： 
 1 File file = new File("E:\\全部軟體\\軟體壓縮包\\Windows7_W64_SP1_ent.iso"); 
 2、獲取檔案大小： 
  
     /**
     * 獲取檔案長度
     * @param  

  
 

    

    
    java 獲取檔案的字尾
      
                public static void main(String[] args) {
		// TODO Auto-generated method stub
		String filename="D:\\新建.文字.文件.txt";
		String newoldName =  

  
 

    

    
    java獲取檔案MD5，獲取字串MD5
      
                 獲取md5值4個步驟：

1.建立MessageDigest物件md5。

2.使用md的update(byte[] buffer)方法將資料更新到md5物件中。

3.使用md5的digest()方法獲得摘要，該摘要是一個長度為16的陣列。

4.將該摘要陣列轉換為32位 

  
 

    

    
    Java獲取檔案型別/副檔名
      import java.io.IOException;
import java.io.InputStream;
import java.net.URL;
import java.util.HashMap;
import java.util.Map;

public class FileTypeUt 

  
 

    

    
    java獲取檔案Mime Type的幾種方式
      
                
本文是在看了http://blog.csdn.net/chaijunkun/article/details/7046343之後實踐了一下，為自己加深印象再寫一遍。
jar包是用火狐下載的，放在哪裡忘了。是在寫檔案下載時，提示框要告訴使用者下載的是什麼型別的檔案用到的。
首先 

  
 

    

    
    Java中文編碼及各種編碼互轉和Java判斷檔案編碼
      
                
Unicode UTF-8 GBK 及一點Java程式碼
Unicode UTF-8 GBK這些不同的編碼，我們可以想象為不同的字典。同一個漢字，在不同的字典裡面，我們用不同的編號儲存。比如漢字"陳"在Unicode裡編號為9648,在GBK裡面是0xB3C2,在UTF-8 

  
 

    

    
    關於java獲取檔案路徑的幾種方式
      
                
第一種： 
File f = new File(this.getClass().getResource("/").getPath()); 
System.out.println(f); 
結果: 
C:\Documents%20and%20Settings\Administ 

  
 

    

    
    使用Java獲取檔案型別
      
                

Using Java 7
Files.html#probeContentType


import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Path;
import jav 

  
 

    

    
    java獲取檔案路徑的二種方式
      
                方式一：使用類載入器

    @Test
	public void test_path1() {
		String path = ClassLoader.getSystemResource("").getPath();
		System.out.println(path); 

  
 

    

    
    Java獲取檔案路徑的幾種方法
      
                
第一種： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 結果: C:\Documents%20and%20Settings\Administrato 

  
 

    

    
    JAVA獲取檔案的MD5值
      
								
								            
						
                
1.推薦如下方法：
 /**
	  * 推薦此方法獲取檔案MD5
	  * @param path 檔案路徑
	  * @return
	  */
	 public static String get 

  
 

    

    
    java獲取檔案路徑[轉]
      平時寫程式的時候,很多時候提示檔案找不到,而丟擲了異常,現在整理如下 一 相對路徑的獲得 說明:相對路徑(即不寫明時候到底相對誰)均可通過以下方式獲得（不論是一般的java專案還是web專案） String relativelyPath=System.getProperty("user.dir"); 上述相對 

  
 

    

    
    java  獲取檔案返回 pdf檔案並列印
      
								
								            
						
                
<%@ page language="java" import="java.util.*,java.io.*"
pageEncoding="UTF-8"%>
<%
String pa 

  
 

    

    
    JAVA獲取檔案MD5值
      
                
/**
 * Md5校驗工具類
 * @author Fengwx
 */
public class MD5Util {

    private static final char[] hexDigits = {'0', '1', '2', '3', '4', '5',  

  
 

    

    
    java獲取檔案md5碼
      
                
最近下載了一些檔案，不是官方的，為了核對MD5碼寫了一個java版本的，小工具。
package pri.yang.MD5;

import java.io.File;
import java.io.FileInputStream;
import java.io.FileN 

  
 

    

    
    Java獲取檔案字尾的方式
      
                
Using Java 7



import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Path;
import java.nio.file.Paths;

public cl 

  
 

    

    
    java獲取檔案建立時間
      
                
方案一：

   private static Date getCreateTime(String fullFileName){
        String str = null;
        try { 
            Process p = Runtim 

  
 

    

    
    linux環境，java獲取檔案出現 (沒有那個檔案或目錄)
      
                針對linux下，沒有那個檔案或目錄的原因：1、有可能是檔案沒有許可權，用 ls -l 命令查下許可權，如下：-rw-r-----. 1 root總共有10位，第一個'-'先不看，從第二個往後看。r 表示可讀取，w 表示可寫入，x 表示可執行。2、路徑有問題本屌的問題是因為  

  
 

    

    
    c#獲取檔案編碼型別
      
                public class EncodingType   
//編碼問題目前為止，基本上沒人解決，就連windows的IE的自動識別有時還識別錯編碼呢。--yongfa365   
//如果檔案有BOM則判斷，如果沒有就用系統預設編碼，缺點：沒有BOM的非系統編碼檔案會顯示亂碼