【網路爬蟲】【java】微博爬蟲（四）：資料處理——jsoup工具解析html、dom4j讀寫xml

阿新 • • 發佈：2019-02-04

之前提到過，對於簡單的網頁結構解析，可以直接通過觀察法、手工寫正則解析，可以做出來，比如網易微博。但是對於結構稍微複雜點的，比如新浪微博，如果還用正則，用眼睛一個個去找，未免太麻煩了。

本文介紹兩個工具包：解析html, xml的jsoup，和讀寫xml的dom4j。

工具包jsoup是解析html、xml的利器，利用jsoup可以快速讀取html等規範文件格式的節點資料，比正則解析省事多了，而且自己寫正則容易考慮不周導致潛在bug，也很容易出錯。

同時我們提取出來的微博資料直接存在txt文件裡顯得結構層次不太清晰，也可以以xml的形式輸出，自定義節點，當然首先是得對xml格式有所瞭解，寫xml檔案有個工具包dom4j。

下面僅僅給出這兩個工具包在這個微博爬蟲專案中使用的例子，其實這兩個強大的工具包還有其他很多的用法，更多的應用詳見官方說明文件。

一、jsoup解析HTML

Jsoup是一個基於java的html解析器，可直接解析某個URL地址、HTML文字內容，其提供的API可以通過DOM, CSS,類jQuery的操作方法讀取和操縱資料。

Jsoup主要功能：

1.從一個url、檔案或字串解析html。

2.使用DOM或CSS選擇器查詢、取出資料。

3.可以操作HTML的元素、屬性、文字。

當然jsoup比其他解析器更有優勢的地方就是它的選擇器功能，很多解析只要一行程式碼就搞定，而用其他工具包至少都要寫很多行。選擇器操作比如doc.select(“a[herf]”);選擇器select可以選擇你想要的任何元素。

在本專案中的程式碼：

	public String parse(String html) {
		String s = "";
		Document doc = Jsoup.parse(html);
		Elements userNames = doc.select("dt[class].face > a");
		Elements userids = doc.select("span > a[action-data]");
		Elements dates = doc.select("a[date]");
		Elements tweetids = doc.select("dl[mid]");
		Elements tweets = doc.select("p > em");
		Elements forwardNums = doc.select("a:contains(轉發)");
		Elements commentNums = doc.select("a:contains(評論)");
		for(Element userName : userNames) {
			String attr = userName.attr("title");
			s += "<userName> " + attr + " </userName>";
		}
		for(Element userid : userids) {
			String attr = userid.attr("action-data");
			attr = attr.substring(attr.indexOf("uid="));
			Pattern p = Pattern.compile("[0-9]+");
			Matcher m = p.matcher(attr);
			if(m.find()) {
				attr = m.group();
			}
			s += "<userid> " + attr + " </userid>";
		}
		for(Element date : dates) {
			String attr = date.text();
			s += "<date> " + attr + " </date>";
		}
		for(Element tweetid : tweetids) {
			String attr = tweetid.attr("mid");
			s += "<tweetid> " + attr + " </tweetid>";
		}
		for(Element tweet : tweets) {
			String attr = tweet.text();
			s += "<tweetSentence> " + attr + " </tweetSentence>";
		}
		for(Element forwardNum : forwardNums) {
			String attr = forwardNum.text();
			if(attr.equals("轉發")) {
				attr = "0";
			}
			else {
				if(!attr.contains("轉發(")) {
					attr = "0";
				}
				else {
					attr = attr.substring(attr.indexOf("轉發(")+3, attr.indexOf(")"));
				}
			}
			System.out.println(attr);
			s += "<forwardNum> " + attr + " </forwardNum>";
		}
		for(Element commentNum : commentNums) {
			String attr = commentNum.text();
			if(attr.equals("評論")) {
				attr = "0";
			}
			else {
				if(!attr.contains("評論(")) {
					attr = "0";
				}
				else {
					attr = attr.substring(attr.indexOf("評論(")+3, attr.indexOf(""));
				}
			}
			System.out.println(attr);
			s += "<commentNum> " + attr + " </commentNum>";
		}
		//System.out.println(s);
		return s;
	}

二、dom4j寫出微博資料到xml

在本專案中的程式碼：

	public void writeVector2xml(Vector<String> vector, String saveXMLPath) throws IOException {
		int vectorSize = vector.size();
		String oneIniTweet;
		OutputFormat format = OutputFormat.createPrettyPrint();
		format.setEncoding("GB2312"); //xml被識別格式僅為gb2312,預設utf8不被識別
		File f = new File(saveXMLPath);
		f.createNewFile(); //先建立一個空xml檔案
		FileWriter fw = new FileWriter(f);
		org.dom4j.Document document = DocumentHelper.createDocument(); //建document物件例項
		org.dom4j.Element rootElement = document.addElement("tweets"); //節點增加方法
		rootElement.addAttribute("totalNumber", String.valueOf(vectorSize)); //設定屬性
		for(int j=0; j<vectorSize; j++) {
			oneIniTweet = vector.get(j);
			String userName = oneIniTweet.substring(oneIniTweet.indexOf("<userName> "), oneIniTweet.indexOf(" </userName>"));
			String userId = oneIniTweet.substring(oneIniTweet.indexOf("<userName> "), oneIniTweet.indexOf(" </userName>"));
			String prettyTime = oneIniTweet.substring(oneIniTweet.indexOf("<userName> "), oneIniTweet.indexOf(" </userName>"));
			String tweetSentence = oneIniTweet.substring(oneIniTweet.indexOf("<tweetSentence> "), oneIniTweet.indexOf(" </tweetSentence>"));
			org.dom4j.Element tweetElement = rootElement.addElement("tweet");
			tweetElement.addAttribute("userName", userName);
			tweetElement.addAttribute("userId", userId);
			tweetElement.addAttribute("prettyTime", prettyTime);
			tweetElement.setText(tweetSentence); // 設定節點文字內容
		}
		XMLWriter xw = new XMLWriter(fw, format);
		xw.write(document);
		xw.close();
	}

寫出的xml的結果：

【網路爬蟲】【java】微博爬蟲（四）：資料處理——jsoup工具解析html、dom4j讀寫xml

之前提到過，對於簡單的網頁結構解析，可以直接通過觀察法、手工寫正則解析，可以做出來，比如網易微博。但是對於結構稍微複雜點的，比如新浪微博，如果還用正則，用眼睛一個個去找，未免太麻煩了。本文介紹兩個工具包：解析html, xml的jsoup，

【Unity3D基礎教程】給初學者看的Unity教程（四）：通過製作Flappy Bird瞭解Native 2D中的RigidBody2D和Collider2D

引子認識RigidBody 當RigidBody2D的質量屬性被設定為0時，剛體的質量變為無限大，此時剛體相當於靜態剛體，永遠一動不動。但是在Unity中你是無法把一個RigidBody2D的質量設定為0的，所以，當你想建立一個靜態剛體時，只需要建立碰撞器，而不需要建立RigidBo

微信開發（四）：獲取access_token和微信伺服器IP

獲取access_token和微信伺服器IP access_token access_token是公眾號的全域性唯一介面呼叫憑據，公眾號呼叫各介面時都需使用access_token ac

程式設計師之網路安全系列（四）：資料加密之非對稱祕鑰

系列目錄: 前文回顧假如，明明和麗麗相互不認識，明明想給麗麗寫一封情書，讓隔壁老王送去如何保證隔壁老王不能看到情書內容？（保密性) 如何保證隔壁老王不修改情書的內容？（完整性) 如何保證隔壁老王不冒充明明？（身份認證) 如何保證明明不能否認情書是自己寫的？（來源的不可否認) 但是上面的問題是明

Java for Web學習筆記（四）：Servlet（2）HelloServlet

繼承關係： javax.servlet.GenericServlet –》javax.servlet.http.HttpServlet。 405返回如果我們不重寫Servlet的doGet而採用HTTP GET的方式，將返回405 將返回405 Method Not Allowed。如果我們重寫do

【Java入門提高篇】Day5 Java中的回調（二）

彈出對話框 java入門也會 color 編程 args performed show clas 　　Java中有很多個Timer，常用的有兩個Timer類，一個java.util包下的Timer，一個是javax.swing包下的Timer，兩個Timer類都有用到回調

python爬蟲（四）：scrapy 【1. 快速上手】

中文文件：http://www.scrapyd.cn/doc/ Scrapy是採用Python開發的一個快速、高層次的螢幕抓取和web抓取框架。什麼是爬蟲框架？爬蟲框架是實現爬蟲功能的一個軟體結構和功能元件集合。爬蟲框架是一個半成品，能夠幫助使用者實現專業網路

python爬蟲（四）：scrapy 【2. 其他重要部分】

中文文件：http://www.scrapyd.cn/doc/ 本節包括： 1. resquest 和 response 的屬性方法 2. scrapy提取資訊的強大方法 request 和 response request：

【冷知識】安卓微信取證（2）-加密資料解析

ID：Pansafe1EnMicroMsg.dbEnMicroMsg.db是一個加密的SQLit

【計算機網路】資料鏈路層（一）：資料幀和物理定址

資料鏈路層是物理層的上層，物理層是把電腦連線起來的物理手段，它主要規定了網路的一些電氣屬性，其作用是負責傳送0和1的電訊號。資料鏈路層位於物理層的上層，簡單的闡述它的作用就是確定0和1的分組方式。下

【Unity3D基礎教程】給初學者看的Unity教程（零）：如何學習Unity3D

cos 詳解 component lock index unity3d遊戲 design 技術棧 log 【Unity3D基礎教程】給初學者看的Unity教程（零）：如何學習Unity3D http://www.cnblogs.com/neverdie/p/How_To_

【Win 10 應用開發】UI Composition 劄記（四）：繪制圖形

圖形 package 記得 aml 3.5 平時 surf 繪圖 str 使用 Win 2D 組件，就可以很輕松地繪制各種圖形，哪怕你沒有 D2D 相關基礎，也不必寫很復雜的 C++ 代碼。先來說說如何獲取 Win 2D 組件。很簡單，創建 UWP 應用項目後，你打開&

【AI基礎】python:openCV——圖像算術運算（2）：按位運算

按位運算 openCV 按位運算按位操作有：AND，OR，NOT，XOR 等。當我們提取圖像的一部分，選擇非矩形 ROI 時這些操作會很有用，常用於Logo 投射。本節操作思路：通過 threshold 函數將圖片固定閾值二值化，定義：圖像的二值化，就是將圖像上的像素點的灰度值設置為0或25

Spring Cloud（四）：服務容錯保護 Hystrix【Finchley 版】

回調 alt 差異 ner 隔離簡化保護不可用無法 Spring Cloud（四）：服務容錯保護 Hystrix【Finchley 版】發表於 2018-04-15 | 更新於 2018-05-07 | 分布式系統中經常會出現某個基礎服務不可用造成整個系統

【移動開發】關於一對一視訊聊天直播技術（七）：直播雲 SDK 效能測試模

本篇是《一對一視訊直播技術詳解》系列的最後一篇直播雲 SDK 效能測試模型，SDK 的效能對最終 App 的影響非常大。SDK 版本迭代快速，每次釋出前都要進行系統的測試，測試要有比較一致的行為，要有效能模型作為理論基礎，對 SDK 的效能做量化評估。本文就是來探討影響 SDK 效能的指標並建立相應的效能模型

【TeeChart Pro ActiveX教程】（四）：軸控制—附加軸和軸事件

下載TeeChart Pro ActiveX最新版本（一）附加軸 1.1 複製軸 TeeChart提供5個軸與資料系列，Left，Right，Top，Bottom和Depth相關聯。向圖表新增新系列時，可以定義系列應與哪些軸相關（轉到“Series”選項卡“General”頁面）。您可以使用Axis

【Android開發—智慧家居系列】（四）：UDP通訊傳送指令

【Android開發—智慧家居系列】（四）：UDP通訊傳送指令思路回顧【1】手機連線WIFI模組【2】UDP通訊對WIFI模組傳送指令，以和WIFI模組保持連線狀態【3】UDP通訊對WIFI模組傳送指令，讓其搜尋可用的無線網，返回WIFI列表

【SpringBoot學習之路】08.Springboot配置檔案詳解（四）

【AI實戰】快速掌握TensorFlow（四）：損失函式

在前面的文章中，我們已經學習了TensorFlow激勵函式的操作使用方法（見文章：快速掌握TensorFlow（三）），今天我們將繼續學習TensorFlow。本文主要是學習掌握TensorFlow的損失函式。一、什麼是損失函式損失函式（loss function）是機器學習

【更新】CLion v2018.3釋出（四）：單元測試和編譯資料庫驗證

下載CLion最新版本 CLion是一款專為開發C及C++所設計的跨平臺IDE。它是以IntelliJ為基礎設計的，包含了許多智慧功能來提高開發人員的生產力。這種強大的IDE幫助開發人員在Linux、OS X和Windows上來開發C/C++，同時它還使用智慧編輯器來提高程式碼質量、自動程式碼重構並且深

【網路爬蟲】【java】微博爬蟲（四）：資料處理——jsoup工具解析html、dom4j讀寫xml

一、jsoup解析HTML

二、dom4j寫出微博資料到xml

相關推薦