解析XML檔案時,無效的XML 字元 (Unicode: 0x7)異常處理

阿新 • • 發佈：2019-02-18

報錯資訊：

2015-01-29 00:10:22,075  ERROR commonapi.CommonApiAction - errorCode:5000,5000-00；Description:程式異常。Error on line 1 of document  : An invalid XML character (Unicode: 0x19) was found in the CDATA section. Nested exception: An invalid XML character (Unicode: 0x19) was found in the CDATA section.
org.dom4j.DocumentException: Error on line 1 of document  : An invalid XML character (Unicode: 0x19) was found in the CDATA section. Nested exception: An invalid XML character (Unicode: 0x19) was found in the CDATA section.
at org.dom4j.io.SAXReader.read(SAXReader.java:482)
at org.dom4j.DocumentHelper.parseText(DocumentHelper.java:278)
at com.hoodong.engine.commonapi.CommonApiAction.getWapDocsSearchJsonInfo(CommonApiAction.java:1866)
at sun.reflect.GeneratedMethodAccessor43.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)

錯誤原因：

這些無效的字元在一些文件中作為文件處理器的控制編碼（微軟選擇了那些再0x82到0x95之間的字元作為"smart"標點），這些也被Unicode保留作為控制編碼的，並且在XML中是不合法的。這裡的無效字元不是指<,>等不能出現在XML檔案的標籤以外的字元，也不是由於編碼問題引起的亂碼，而是一些超出XML合法字元範圍的不可見字元。根據W3C標準，有一些字元不能出現在XML檔案中：

// Document authors are encouraged to avoid "compatibility characters", as defined in 
// Unicode [Unicode]. The characters defined in the following ranges are also discouraged. // They are either control characters or permanently undefined Unicode characters:

[#x1-#x8], [#xB-#xC], [#xE-#x1F], [#x7F-#x84], [#x86-#x9F], [#xFDD0-#xFDDF],
[#x1FFFE-#x1FFFF], [#x2FFFE-#x2FFFF], [#x3FFFE-#x3FFFF],
[#x4FFFE-#x4FFFF], [#x5FFFE-#x5FFFF], [#x6FFFE-#x6FFFF],
[#x7FFFE-#x7FFFF], [#x8FFFE-#x8FFFF], [#x9FFFE-#x9FFFF],
[#xAFFFE-#xAFFFF], [#xBFFFE-#xBFFFF], [#xCFFFE-#xCFFFF],
[#xDFFFE-#xDFFFF], [#xEFFFE-#xEFFFF], [#xFFFFE-#xFFFFF],
[#x10FFFE-#x10FFFF].

解決辦法：

為了保證常用XML解析工具能將自己生成的XML檔案成功解析，就需要先將檔案中的無效字元過濾掉，或在生成XML檔案時就對字元的有效性進行判斷，拋棄無效字元。

Unicode是國際組織制定的可以容納世界上所有文字和符號的字元編碼方案。目前的Unicode字元分為17組編排，0x0000 至 0x10FFFF，每組稱為平面（Plane），而每平面擁有65536個碼位，共1114112個。然而目前只用了少數平面。UTF-8、UTF-16、UTF-32都是將數字轉換到程式資料的編碼方案。

查了一下W3C中對XML 1.0的定義[1]，其Unicode的合法字元範圍(16進位制)是：

Character Range
[2]   	Char	   ::=   	#x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]	
/* any Unicode character, excluding the surrogate blocks, FFFE, and FFFF. */

方法一：

// 保留合法字元
public String stripNonValidXMLCharacters(String in) {
    StringBuffer out = new StringBuffer(); // Used to hold the output.
    char current; // Used to reference the current character.

    if (in == null || ("".equals(in))) return ""; // vacancy test.
    for (int i = 0; i < in.length(); i++) {
        current = in.charAt(i); // NOTE: No IndexOutOfBoundsException caught here; it should not happen.
        if ((current == 0x9) ||
            (current == 0xA) ||
            (current == 0xD) ||
            ((current >= 0x20) && (current <= 0xD7FF)) ||
            ((current >= 0xE000) && (current <= 0xFFFD)) ||
            ((current >= 0x10000) && (current <= 0x10FFFF)))
            out.append(current);
    }
    return out.toString();
}

方法二：

//過濾非法字元
//注意，以下正則表示式過濾不全面，過濾範圍為
//  0x00 - 0x08
//  0x0b - 0x0c
//  0x0e - 0x1f

public static String stripNonValidXMLChars(String str) {
  if (str == null || "".equals(str)) {
    return str;
  }
  return str.replaceAll("[\\x00-\\x08\\x0b-\\x0c\\x0e-\\x1f]", "");
}

解析XML檔案時,無效的XML 字元 (Unicode: 0x7)異常處理

報錯資訊： 2015-01-29 00:10:22,075 ERROR commonapi.CommonApiAction - errorCode:5000,5000-00；Description:程式異常。Error on line 1 of document :

如何解決在使用Eclipse在配置xml檔案時，xml檔案底部不出現namespace等選項。

如題：使用Eclipse在配置*.xml檔案時，需要配置名稱空間namspace, .xml檔案底部不出現配置選項：如下為正常顯示的情況如無法顯示此列：解決方法： 1、開啟 Window-> preferences->General-&

用JDOM解析XML檔案時如何解決中文問題？如何解析？

1 import javax.xml.parsers.DocumentBuilder; 2 import javax.xml.parsers.DocumentBuilderFactory; 3 import javax.xml.transform.OutputKeys; 4 import jav

解析XML時DTD的處理--解析時忽略，生成XML檔案時加上

一、解析XML檔案時，遇到DTD的定義要怎麼辦？下面這段程式碼是ibatis配置檔案，用w3c Dom(其實任意一種解析方式都是這樣)都會從http://www.ibatis.com/dtd/sql-map-config-2.dtd 這個地址找對應的DTD檔案進行校驗，如果因特網上這個地址

Sax 解析xml檔案時, 資料資訊不完整問題解決方法

使用Sax對xml檔案進行解析時,Sax每次只讀入2k資料,當xml檔案大於2k時,資料資訊可能回出現不完成的情況. 此時,我們只需要使用StringBuffer對資訊進行組合. 同時,在使用完StringBuffer之後,需要對StringBuffer進行清空操作.

解析xml檔案時，錯誤資訊org.xml.sax.SAXParseException:Parser has reached the entity expansion limit "64,000" set by the Application.的解決辦法

最近一個處理非常大的XML的程式遭遇瞭如下的異常：org.xml.sax.SAXParseException:Parser has reached the entity expansion limit "64,000" set by the Application. (org

用 jdom 解析 xml 檔案時如何解決中文問題?如何解析?

<span style="font-size:18px;">package test; import java.io.*; public class DOMTest{ private St

關於eclipse ADT 編輯xml檔案時不能自動提示問題的解決

在編輯android佈局檔案時，eclipse總是不能自動提示，在網上找了一些資料，大部分都是說關於xml editor配置的，下面也把這個方法羅列在下面，以供參考： &nb

編輯xml檔案時不能自動提示問題的解決

在編輯xml檔案時，eclipse總是不能自動提示，在網上找了一些資料，大部分都是說關於xml editor配置的，下面也把這個方法羅列在下面，以供參考：解決辦法：在eclipse的選單裡，找到window

android 中讀寫xml檔案時取得路徑的方法/data/sdcard/src

package com.eboy.readwritexml; import java.io.File; import java.io.FileNotFoundException; import java.io.FileOutputStream;

Intellij Idea在開啟mybatis逆向工程生成的mapper.xml檔案時出現大塊黃色或者是綠色背景

當我們剛剛安裝完idea時，開啟一個mybatis工程的xml對映檔案會看到，介面上出現一大堆的黃色背景，特別難看將游標放在黃色背景處，可以發現出現提示語“No data sources are configured to run this SQL and provide advance

使用自定義logback.xml檔案時,出現沒有許可權建立日誌檔案的錯誤

首先如果你沒有建立好資料夾的話,你需要建立所需要的資料夾資料夾建立好了，然後給你的日誌檔案所屬的資料夾加權,比如你的路徑是這個樣的:/var/log/aa/aa.log，那麼你就需要給aa資料夾加上相應的許可權,在命令列上面執行命令:chmod +777

使用XmlDocument/XmlDataDocument類載入XML檔案時如何忽略DTD驗證

在XML檔案含有外部DTD驗證的時候，使用XmlDocument/XmlDataDocument類的Load方法會丟擲如下的例外： System.Xml.XmlException: 未找到所需的 DTD 標記。行 m，位置 n。我們可以採用下面的方法不去載入外部資源：

使用XmlDocument類載入XML檔案時忽略DTD驗證

這是因為要載入的xml檔案有外部的DTD驗證，解決辦法就是不去載入外部資源。 1 XmlDocument xml= newXmlDocument(); 2 xml.XmlResolver = null; 3 xml.Load(url);

在用c++讀取xml檔案時，執行時出現以下錯誤：出現未處理的“System.Xml.XmlException”型別的異常出現在 system.xml.dll 中

各位高手，我剛剛開始接觸c++,使用的是Microsoft Visual Studio 2003版本，在使用c++讀取xml檔案時，編譯已經通過，但是執行.exe程式時，老是出現這個錯誤：“未處理的“System.Xml.XmlException”型別的異常出現在 syste

Java如何解析某個目錄下xml檔案，將XML檔案轉換為報表資料來源？

在Java開發的報表工具FineReport中，假如在目錄下儲存了幾個XML檔案，希望把XML檔案轉換為報表資料來源，同時希望展示動態xml資料來源的效果，這時可通過引數的方式，動態獲取xml欄位中的值再作為報表資料來源。Northwind.xml記錄資料格式如下：<?

myeclipse 配置spring的xml檔案時類路徑不能自動補全

一、提出問題例如：我們想配置一個註解的處理器對映器，在class=”“的雙引號中輸入RuquestMapping後按alt+/是不會有這樣的提示的二、問題解決下載sts外掛： help

Dom4J讀取XML檔案時出現的connection timed out:connect Nested exception異常解決方法

最近在專案中實現一個雙資料庫的動態讀取樹形選單功能，通過了Dom4J來實現，執行過程中出現以下問題：在本論壇查到原因為 dom4j會去拿DTD增加那些DOCTYPE的預設屬性，因此加入下面一段話即可。解決辦法連結http://topic.csdn.ne

Java中讀取XML檔案，生成XML格式的字串並解析這個字串

由於最近要用的是XML格式的字串，而不用寫到檔案中，所以對原始程式碼進行了修改如下：要讀的xml檔案 <?xml version="1.0" encoding="GB2312"?> <學生花名冊> <學生性別 = "男">

Python解析大XML檔案及讀取XML不全的問題

之前用python的minidom寫過解析xml的指令碼檔案，在前期是比較好用的，因為xml檔案比較小。但是當xml檔案超過了70M的時候，minidom不僅效率低，而且會佔用非常大的記憶體空間，因為他是將整個xml讀入進去並且按照整個xml樹進行建樹（雖然這樣寫程式碼邏輯

解析XML檔案時,無效的XML 字元 (Unicode: 0x7)異常處理

相關推薦