Jsoup爬取網頁亂碼編碼格式gb2312轉utf8

阿新 • • 發佈：2019-02-08

最近做的一個專案需要爬取股票公告並存儲於mongodb中用來顯示，當我在用jsoup爬取新浪財經股票公告的時候，發現了亂碼問題。網頁連結如下http://vip.stock.finance.sina.com.cn/corp/view/vCB_AllBulletinDetail.php?stockid=600958&id=3735125，開啟控制檯可以看到新浪財經採用的是gb2312的編碼方式，mongodb預設utf8，其實簡體中文不做編碼轉換也是可以儲存，但是例如繁體中文以及特殊字元就會出現亂碼問題。於是寫了段程式來統一編碼格式，程式碼如下：

//獲取公告
public String getAnnouncementFromSina(){
	String text = "";
	String url = "http://vip.stock.finance.sina.com.cn/corp/view/vCB_AllBulletinDetail.php?stockid=600958&id=3735125";
	try{
		Document doc = Jsoup.parse(new URL(url).openStream(), "GBK", url);
		Element element = doc.select("div#content").first().getElementsByTag("pre").first();
		
		//呼叫轉換方法
		text = getUTF8BytesFromGBKString(element.text());
	}catch (Exception e){
		e.printStackTrace();
		return null;
	}	


	return text

}


//有損轉換
public String getUTF8BytesFromGBKString(String gbkStr) throws UnsupportedEncodingException {
    int n = gbkStr.length();
    byte[] utfBytes = new byte[3 * n];
    int k = 0;
    for (int i = 0; i < n; i++) {
        int m = gbkStr.charAt(i);
        if (m < 128 && m >= 0) {
            utfBytes[k++] = (byte) m;
            continue;
        }
        utfBytes[k++] = (byte) (0xe0 | (m >> 12));
        utfBytes[k++] = (byte) (0x80 | ((m >> 6) & 0x3f));
        utfBytes[k++] = (byte) (0x80 | (m & 0x3f));
    }
    if (k < utfBytes.length) {
        byte[] tmp = new byte[k];
        System.arraycopy(utfBytes, 0, tmp, 0, k);
        utfBytes = tmp;


    }
    return new String(utfBytes,"UTF-8");
}

如有錯誤，歡迎糾正！

Jsoup爬取網頁亂碼編碼格式gb2312轉utf8

Jsoup爬取網頁亂碼編碼格式gb2312轉utf8

python爬取網頁—網站編碼

HtmlUnit、httpclient、jsoup爬取網頁資訊並解析

如何使用Jsoup爬取網頁內容

檔案編碼格式ANSI轉UTF8

Jsoup簡單例子——爬取網頁內的郵箱

Jsoup簡單例子2.0——多執行緒爬取網頁內的郵箱

爬取網頁是發現文字亂碼問題

爬取網頁資料出現中文亂碼 UTF-8中文亂碼

[Java爬蟲] 使用 Jsoup + HttpClient 爬取網頁圖片

python爬取網頁中文亂碼。解決方案。python3

如何通過jsoup網路爬蟲工具爬取網頁資料,並通過jxl工具匯出到excel

python urllib爬取網頁編碼問題

jsoup爬取指定網頁的url和圖片

一個鹹魚的Python爬蟲之路（三）：爬取網頁圖片

常用正則表達式爬取網頁信息及HTML分析總結

python+selenium+PhantomJS爬取網頁動態加載內容

python爬取網頁圖片

獲取任意網頁的編碼格式

爬蟲rewquests爬去網頁亂碼問題

Jsoup爬取網頁亂碼編碼格式gb2312轉utf8

相關推薦