利用htmlunit和jsoup來實現爬取js的動態網頁實踐(執行js)

阿新 • • 發佈：2018-12-26

更新，這就尷尬了，這篇文章部落格閱讀文章最多，但是被踩得也最多。

爬取思路：

所謂動態，就是通過請求後臺，可以動態的改變相應的html頁面，頁面並不是一開始就全部展現出來的。

大部分操作都是通過請求完成的，一次請求，一次返回。而在大多數網頁中請求往往都被開發者隱藏在了js程式碼中。

所以爬取動態網頁的思路就轉化為找出相應的js程式碼，並且執行相應的js程式碼，從而能夠通過java程式碼動態的改變頁面。

而當頁面能夠正確顯示出來，我們也就可以類似於爬取靜態網頁般去爬取資料啦！

首先，可以利用htmlunit來模擬滑鼠點選事件，這個容易實現：

	/**
	 * 通過htmlunit來獲得一些搜狗的網址。
	 * 通過模擬滑鼠點選事件來實現
	 * @param key
	 * @return
	 * @throws Exception
	 */
	public String getNextUrl(String key){
		String page = new String();
		try {
			WebClient webClient = new WebClient();
			webClient.getOptions().setCssEnabled(false);
			webClient.getOptions().setJavaScriptEnabled(false);
			//去拿網頁
			HtmlPage htmlPage = webClient.getPage("http://pic.sogou.com/");
			//得到表單
			HtmlForm form = htmlPage.getFormByName("searchForm");
			//得到提交按鈕
			HtmlSubmitInput button = form.getInputByValue("搜狗搜尋");
			//得到輸入框
			HtmlTextInput textField = form.getInputByName("query");
			//輸入內容
			textField.setValueAttribute(key);
			//點一下按鈕
			HtmlPage nextPage = button.click();
			String str = nextPage.toString();
			page = cutString(str);
			webClient.close();
		} catch (Exception e) {
			e.printStackTrace();
		} 
		return page;
	}

如上圖所示，我就是通過java程式碼，向搜尋礦中填入關鍵字，然後在通過getInputByValue方法獲得button控制元件，最後直接button.click()，

即可以模擬點選，並且把點選後的返回的http請求解析到htmlpage中。

這個功能其實很強大，比如你可以通過這個功能去模擬搶票，或者利用點選事件，加上搜索相關知識，將某一整個系統離線下來，並且以html的形式儲存。

接下來就是利用強大的htmlunit來執行js程式碼的過程了。

首先寫一個簡單的jsp頁面：

<%@ page language="java" contentType="text/html; charset=UTF-8"
	pageEncoding="UTF-8"%>
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<title>Insert title here</title>

</head>

<body id="body">

	<label id="test">原數字</label>
</body>
<script type="text/javascript">
	function change(value) {
		document.getElementById("test").innerHTML = value;
		return "hello htmlUnit";
	}
</script>
</html>

由上可知，jsp頁面很簡單，就一個函式change，用於給htmlUnit呼叫。

再下來就是一個使用htmlunit的類。該類通過支援JavaScript直譯器，

然後在頁面中嵌入自己寫的JavaScript程式碼從而執行，並且獲得執行後的返回結果以及返回頁面。

package com.blog.anla;

import com.gargoylesoftware.htmlunit.ScriptResult;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;

public class TestMyOwnPage {
	private void action() {
		WebClient webClient = new WebClient();
		try {

			webClient.getOptions().setCssEnabled(false);
			webClient.getOptions().setJavaScriptEnabled(true); // 設定支援JavaScript。
			// 去拿網頁
			HtmlPage htmlPage = webClient
					.getPage("http://localhost:8989/testHtmlScrop/index.jsp");

			String s = "更改後的數字";
			ScriptResult t = htmlPage.executeJavaScript("change(\"" + s
					+ "\");", "injected script", 500);
			// 這裡是在500行插入這一小行JavaScript程式碼段，因為如果在預設的1行，那不會有結果
			// 因為js是順序執行的，當你執行第一行js程式碼時，可能還沒有渲染body裡面的標籤。
			HtmlPage myPage = (HtmlPage) t.getNewPage();
			String nextPage = myPage.asXml().toString();
			String nextPage2 = myPage.asText().toString();
		} catch (Exception e) {
			e.printStackTrace();
		} finally {
			webClient.close();
		}

	}

	public static void main(String[] args) {
		TestMyOwnPage tmop = new TestMyOwnPage();
		tmop.action();
	}
}

在t.getNewPage()中有兩個屬性，一個是
javaScriptResult：執行該段程式碼後返回的結果，如果有（如上我寫的，就返回hello htmlunit），如果沒有（返回Undefined）。

newPage_:執行該段程式碼後返回的整個頁面。

結果如圖：

最終這段程式碼執行的結果如下：

asXml():將整個頁面的html程式碼返回給我們：

而asText()則僅僅返回頁面上能顯示的值，即head和label標籤：

這樣的執行思路也就能夠去動態的執行相應的js程式碼，從而爬取到需要的資料了。

----------------------------------------------------------------------------------------2017年7月更新--------------------------------------------------------------------------------------------------------

這兩天在做一個有關於網路爬蟲的系統

但是呢，一開始爬的時候就發現問題，js的動態頁面的爬不下來

網上找了好多方法，google也問了，主要還是提到htmlunit，以下是核心程式碼，

使用htmlunit主要就是為了模擬瀏覽器操作，因為有些連結點選無法直接通過src來獲得url，而通常使用JavaScript

進行簡單拼接後的網址，所以這樣一來，使用htmlunit直接來模擬瀏覽器點選，相比來說就更加的簡單了。

        WebClient webClient = new WebClient();  
        webClient.getOptions().setJavaScriptEnabled(true); //啟用JS直譯器，預設為true  
        webClient.getOptions().setCssEnabled(false); //禁用css支援      
        webClient.getOptions().setThrowExceptionOnScriptError(false); //js執行錯誤時，是否丟擲異常   
        webClient.getOptions().setTimeout(20000);      
        HtmlPage page = wc.getPage("http://www.hao123.com");  
	//我認為這個最重要
        String pageXml = page.asXml(); //以xml的形式獲取響應文字  
  
        /**jsoup解析文件*/  
        Document doc = Jsoup.parse(pageXml, "http://cq.qq.com");

這個時候，就可以得到jsoup中的document物件了，接下來就好寫了，就像爬普通靜態網頁一樣了。

不過，webclient解析是還是會出現一些問題，js的問題，

主要是由於目標url的js寫的有些問題，但在實際的瀏覽器中卻會忽略，eclipse中會報異常。

今天一看，好多人踩啊哈，可能當時並沒有認真的寫部落格吧，如果大家想找一個java爬蟲的專案，可以去我的專欄

圖片搜尋包括使用jsoup來爬圖，以及lire來建立索引以及搜尋圖片。

贈人玫瑰手留餘香，有問題的大家可以多多討論呀！

利用htmlunit和jsoup來實現爬取js的動態網頁實踐(執行js)

更新，這就尷尬了，這篇文章部落格閱讀文章最多，但是被踩得也最多。爬取思路：所謂動態，就是通過請求後臺，可以動態的改變相應的html頁面，頁面並不是一開始就全部展現出來的。大部分操作都是通過請求完成的，一次請求，一次返回。而在大多數網頁中請求往往都被開發者隱藏在了js程

Java爬蟲學習:利用HttpClient和Jsoup庫實現簡單的Java爬蟲程式

利用HttpClient和Jsoup庫實現簡單的Java爬蟲程式 HttpClient簡介 HttpClient是Apache Jakarta Common下的子專案，可以用來提供高效的、最新的、功能豐富的支援HTTP協議的客戶端程式設計工具包，並且它支

EXCEL 中利用 INDEX 和match 來實現多條件查詢

1: 先建立一個sheet: 2: 測試：有兩個人叫同一個“胡天”，只是來自不同的省份：先測試一下match: MATCH(A24&B24,A2:A16&B2:B16,0) 注意是要 ctrl + shift + enter 一起按下去，才生效。看到

Python利用xpath和正則re爬取新浪新聞

今天我們來進行簡單的網路爬蟲講解:利用用from lxml import html庫+Xpath以及requests庫進行爬蟲 1.我們將爬取新浪微博首頁要聞我們摁F12檢視網頁原始碼查詢要聞內容所對應的HTML的程式碼通過觀察我們可以發現每個標題都在<h1 data-client

爬蟲任務二：爬取(用到htmlunit和jsoup)通過百度搜索引擎關鍵字搜取到的新聞標題和url，並保存在本地文件中（主體借鑒了網上的資料）

標題 code rgs aps snap one reader url 預處理采用maven工程，免著到處找依賴jar包 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http:

Java爬蟲--利用HttpClient和Jsoup爬取部落格資料並存入資料庫

由於今日頭條等頭條類產品的出現，以今日頭條為代表所使用的爬蟲技術正在逐漸火熱，在爬蟲領域具有良好效能和較好效果的Python在最近一年的時間裡逐漸火熱起來，同時因為Python良好的資料分析和機器學習的能力，Python的應用越來越廣泛。不過，今天我們要提到

利用Requests庫和正則表示式爬取豆瓣影評Top250

說明最近看了下爬蟲基礎，想寫個部落格來記錄一下，一來是可以方便和我一樣剛入門的小白來參考學習，二來也當做自己的筆記供自己以後查閱。本文章是利用python3.6和Requests庫（需自行安裝，cmd裡執行pip install r

利用redis的訂閱和釋出來實現實時監控的一個DEMO（Python版本）

redis的list型別有個很好的特性，就是每次新增元素後會返回當前list的長度，利用這個特點，我們可以監控它的長度，比如我們的key是使用者註冊的IP地址，list中存放的是已經在此IP地址上註冊的使用者的ID，當用戶數超過1000的時候來發一個告警，而r

Crawler：基於splinter.browser庫實現爬取12306網站來實現快速搶票

Python之Crawler：爬取12306網站來實現快速搶票 # -*- coding: utf-8 -*- from splinter.browser import Browser from ti

Android利用泛型和反射來實現對資料庫的操作--SqlHelper

利用泛型和反射來實現對資料庫的操作 1.對資料庫操作的介面類 package com.dou361.dal; import java.util.List; /** * @author jjdxm * http://www.dou361.com * http:/

利用百度搜索結果爬取郵箱

.... sheet pro 編輯部 pic exception exc gecko 正則表達幫同學做一個關於爬取教授郵箱的任務，在百度搜索中輸入教授的名字+長江學者+郵箱，爬取並篩選每個教授的郵箱，最後把郵箱信息寫入到Excel表中：--爬取結果爭取率大概在50%-60

python實現爬取30頁百度校園女神圖片！

dpi 分享圖片 ges pat path lis 校園 one sha 1、以下是源代碼import requestsimport osdef getManyPages(keyword,pages): params=[] for i in range(30,3

scrapy初探之實現爬取小說

scrapy 爬取小說一、前言上文說明了scrapy框架的基礎知識，本篇實現了爬取第九中文網的免費小說。二、scrapy實例創建 1、創建項目 C:\Users\LENOVO\PycharmProjects\fullstack\book9>scrapy startproject book

用Requests和正則表示式爬取豆瓣圖書TOP250

思路和上文大同小異。 import requests from requests.exceptions import RequestException import re import json headers = {'User-Agent':'Mozilla/5.0(Macinto

用Requests和正則表示式爬取貓眼電影(TOP100+最受期待榜）

目標站點分析目標站點（貓眼榜單TOP100）：如下圖，貓眼電影的翻頁offset明顯在URL中，所以只要搞定第一頁的內容加上一個迴圈加上offset就可以爬取前100。流程框架 1、抓取單頁內容利用requests請求目標站點，得到單個網頁HTML程式碼，返回結

ThinkPHP5.0下，利用Cookie和Session來儲存使用者資訊

利用tp5框架封裝好的Cookie類和Session類。若發現過期時間沒有生效，可以試試清除快取。登入頁面Login.php <?php/** * Created by PhpStorm. * User: zjl * Date: 2018/11/1 * Time: 15:21 */namespac

ThinkPHP5.0下，利用Cookie和Session來存儲用戶信息

gin rect 開啟 cookie con _id session func Nid 利用tp5框架封裝好的Cookie類和Session類。若發現過期時間沒有生效，可以試試清除緩存。登錄頁面Login.php <?php/** * Created by PhpS

Jsoup簡單例子——爬取網頁內的郵箱

一、前言 Jsoup 是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API，可通過DOM，CSS以及類似於jQuery的操作方法來取出和操作資料。主要功能： 1）從一個URL，檔案或字串中解析HTM

HttpClient 實現爬取百度搜索結果（自動翻頁）

如果你對HttpClient還不是很瞭解，建議先移步我的另一篇部落格HttpClient4.x之請求示例後再來看這篇部落格。我們這裡的專案採用maven搭建。在閱讀前要對jdk和maven有一定的瞭解。另外開發工具這裡我這裡使用的是：Spring Tool Suite（STS）當然你也可以使用其

Python實現爬取好友頭像拼接成大圖！這不就暴露了我的好友了！

前言筆者無意間發現一個有趣的第三方庫itchat,itchat模組是一位叫little codersh的大神寫的模組，附上大神的github地址,有興趣的朋友可以去嘗試玩一下itchat模組，很有趣的！！！ https://github.com/littlecodersh/ItChat

利用htmlunit和jsoup來實現爬取js的動態網頁實踐(執行js)

相關推薦