linux用java解析html出現中文亂碼問題

阿新 • • 發佈：2019-02-09

一，用java解析html文件遇到的問題

在windows環境下用BufferedReader讀取utf-8的html檔案時，沒有任何亂碼問題，但是在linux環境下讀取的時候就出現亂碼了，不知道什麼問題引起的。
後來用FileInputStream讀取，用new String方式去轉換，發現大部門亂碼問題解決了，但是由於是1024位元組去讀的所以存在一個問題，部分位元組沒讀全，就去new String導致亂碼問題。

二，解決方式

個人總結了下問題，應該試html中存在一些特殊字元，導致普通的方式在linux環境下存在轉碼問題，百度了一下，發現通過jsoup來解析html，會解決此類問題。

用法如下

//maven配置
<dependency>
	<groupId>org.jsoup</groupId>
	<artifactId>jsoup</artifactId>
	<version>1.11.3</version>
</dependency>

//實現程式碼
File htmlFile = new File("E:/a.html")
StringBuffer htmlSb = new StringBuffer();
Document parse = Jsoup.parse(htmlFile, "utf-8");
htmlSb.append(parse.html());

linux用java解析html出現中文亂碼問題

一，用java解析html文件遇到的問題在windows環境下用BufferedReader讀取utf-8的html檔案時，沒有任何亂碼問題，但是在linux環境下讀取的時候就出現亂碼了，不知道什麼問題引起的。後來用FileInputStream讀取，用new Str

記一個bug：Linux中Java Graphics drawString寫中文亂碼

近期用到了動態生成二維碼的功能，並且在二維碼底下加文字，win下開發沒有出現問題，但是部署到Linux環境下出現中文亂碼。經排查之後發現程式碼中Font類（new Font("微軟雅黑", Font.PLAIN, 35)）用到了"微軟雅黑"中文字型，但Centos預設沒有這種

ubuntu下用vim打開出現中文亂碼

開啟終端：在檔案末尾新增如下程式碼： set fileencodings=gb2312,utf-8 set fileencoding=gb2312 set termencoding=utf-8 儲存後退出，問題解決。 1、支援中文編碼的基礎 V

Navicat for MySQL 匯出來的資料再用SQLyog匯入，出現中文亂碼的原因

Navicat for Mysql 工具匯出來的資料如下：（一個簡單例子）而從SQLyog工具匯出來如下：如果要想將Navicat for MySQL匯出來的資料，導到SQLyog工具，則需要加上 /*!40101 SET NAMES utf8 */;

用java程式碼寫xml檔案時，出現中文亂碼的解決方法

phoneElement.addAttribute("name", "家庭電話");emailElement.setText("[email protected]");try {/*** 特別注意：* * java中有Writer類繼承下來的子類沒有提供編碼格式處理，所以dom4j也無法歲輸出的

JAVA與C++用socket通訊出現中文亂碼

java接收C++資料出現中文亂碼：將java這邊的socket編碼改為GBK就行了！ java和C++使用Socket通訊，其實底層Socket都是相通的，所以只需要按照各自的語法去做就是了。 java伺服器端使用ServerSocket的accept建立S

在mac下，用excel開啟csv檔案出現中文亂碼的情況

解決，在mac下，用excel開啟csv檔案出現中文亂碼的情況方法就是用python轉換檔案編碼方式在python命令列下：首先，讀取檔案： with open('dianying.csv', 'r') as f: dy=f.read() print f.read() 其

Android 4.4 網路get請求出現中文亂碼導致伺服器無法對傳輸的資料進行解析

最近在進行Android開發的過程中，發現了一個問題，特意在這裡記錄一下。下面我來描述一下這個問題：當我在Android 4.4版本進行http get請求的時候，我的get請求連結裡的中文字串顯示為???，導致伺服器不能正常識別我的引數，從而使程式執行出錯（並不是所有的An

使用volley請求資料，Gson解析json的時候出現中文亂碼問題

首先來看一下我出現的問題！遇到的過問題的人，或上網也可以查的到，仔細看，我列印的Log日誌就是解析的資料，出現亂碼了，那說明這個jsonString是獲取到的資料，看後的兩個引數，第一個是.data這個意思應該就資料，而後面的就是轉碼格式，看原始碼就會知道，這個應該是預設

（org.json.JSONObject類）java使用JSONObject讀取json檔案，出現中文亂碼

出現問題的程式碼 //從json檔案中讀取資料 StringBuffer stringBuffer = new StringBuffer(); try { BufferedReader bufferedReader = new BufferedReader(ne

linux下mysql出現中文亂碼（中文問號）

　　今天遇到一個很特別的情況，由於mysql的外網伺服器遭受了攻擊，無法不能使用視覺化的方式連線資料庫，這樣給我的資料查詢造成不小的麻煩，可是程式的問題往往是需要比對資料庫的資訊的，那怎麼辦？　　後

dom4j解析utf-8 的xml出現中文亂碼的為

首先檔案的報文頭是 <?xml version="1.0" encoding="utf-8"?>,儲存檔案應該是無符號uff-8編碼其次要注意的是，如果儲存好，再開啟中文顯示本身就是亂碼只需要刪掉重新修改然後儲存就可以了，如果不改會出現解析出錯，但是通過讀取流

java讀取txt檔案出現中文亂碼

在保證程式碼沒有問題的前提下，讀取txt檔案出現瞭如下亂碼。解決方法： 1.檢視檔案程式碼的編碼方式是否是ANSI（我使用的文字編輯器為EditPlus） 2.檢視.txt檔案的編碼方式是否是ANSI 修改儲存，結果如下這裡附如上讀取txt檔案的程式

javac命令編譯java檔案成class檔案出現中文亂碼問題解決

javac命令中文亂碼問題解決今天在做web socket通訊的時候需要將兩個java檔案同時跑起來，使用命令列編譯java檔案時出現javac編譯java檔案成class檔案出現中文亂碼問題,如下圖：這個問題的原因是因為javac XXX.ja

tips：linux伺服器上java應用圖片中中文亂碼的解決

專案中需要將一定的業務邏輯實時的用圖片繪出來，難免用到中文，在自己電腦上開發時沒有任何問題，但是部署到linux下tomcat中時，圖片中的中文全部亂碼，口口口口...... 檢索了一下原因，是由於當前執行的系統環境下缺乏中文字型導致，將文字繪製出來時，會將文字拆成畫素點進

HTML+servlet+js（使用ajax傳參）出現中文亂碼

在js中，通過ajax傳參給servlet，然後servlet 進行資料庫插入資料，但出現中文亂碼，function save_active(){ $.ajax({ url :'active_info',

載入到Myeclipse中的java檔案出現中文亂碼的問題

用MyEclipse開啟Web工程的程式碼後，發現個別java檔案出現中文顯示亂碼的問題，到網上查了一下，此亂碼問題可以通過下面的兩種辦法來解決： 1、將整個proje

python3 使用matplotlib畫圖出現中文亂碼的情況

中文顯示出現使用 com style ims dataframe figure python3使用matplotlib畫圖，因python3默認使用中unicode編碼，所以在寫代碼時不再需要寫 plt.xlabel(u’人數’)，而是直接寫plt.xlabel(‘人

點滴記錄——Ubuntu 14.04中Chrome瀏覽器標題欄出現中文亂碼

art pos post 點滴 class 方法 csdn 字體出現今天不知道在系統裏裝的哪個軟件與Chrome瀏覽器所用的字體向沖突了，導致標題欄顯示的中文都變成了亂碼，其次收藏欄中的中文也變成了亂碼。導致原有的收藏內容都無法辨認了。在網上搜索了一下，

Java解析html頁面,獲取想要的元素

parse tails src www 標準 pro 1.8 com 9.png 背景:通過接口訪問數據，獲取的內容是個標準的html格式，使用jsoup的方式獲取頁面元素值先推薦比較好的博客：http://www.open-open.com/jsoup/、單個案例比較

linux用java解析html出現中文亂碼問題

一，用java解析html文件遇到的問題

二，解決方式

相關推薦