Jsoup配合使用htmlunit爬取動態頁面

阿新 • • 發佈：2021-01-26

技術標籤：爬蟲 java

今天使用jsoup在做爬蟲的功能的時候，發現jsoup只能爬取靜態頁面，對於ajax和json動態生成的頁面的支援並不友好。

於是我嘗試直接用請求傳送param和資料頭，希望能直接返回json資料，但可能是由於網站介面不支援沒能成功。

在嘗試其他方法之後，從網上發現可以使用htmlunit模擬瀏覽器，生成動態的網頁之後，再用jsoup對生成的動態網頁進行解析

以下是pom.xml maven依賴程式碼

    <dependencies>
        <!--jsoup-->
        <dependency>
            < 
groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.11.3</version>
        </dependency>
 
        <!--htmlunit-->
        <dependency>
            <groupId>net.sourceforge.htmlunit</groupId>
            < 
artifactId>htmlunit</artifactId>
            <version>2.33</version>
        </dependency>
    </dependencies>

下面是java程式碼

import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document; 

import org.jsoup.nodes.Element;

import java.io.IOException;

public class JsoupTest {
	public static void main(String[] args) {
		queryDocument("北斗");
	}
	public static void queryDocument(String documentName){
		WebClient browser = new WebClient();
		browser.getOptions().setCssEnabled(false);
		browser.getOptions().setJavaScriptEnabled(true);
		browser.getOptions().setThrowExceptionOnScriptError(false);
		String url = "http://oar.nstl.gov.cn/Paper/Search?searchKey="+documentName+"&x=0&y=0";
		try {
			HtmlPage htmlPage = browser.getPage(url);
			browser.waitForBackgroundJavaScript(3000);
			Document document = Jsoup.parse(htmlPage.asXml());
			Element paper = document.getElementById("paper");
			System.out.println(paper);
		} catch (IOException e) {
			e.printStackTrace();
		}
	}
}

Jsoup配合使用htmlunit爬取動態頁面

技術標籤：爬蟲java 今天使用jsoup在做爬蟲的功能的時候，發現jsoup只能爬取靜態頁面，對於ajax和json動態生成的頁面的支援並不友好。

使用Jsoup和htmlunit爬取動態網頁

　　在對http://zkgg.tjtalents.com.cn/newzxxx.jsp這個網頁爬取內容時，如果只使用Jsoup進行解析的話，起內部的a href標籤內容無法獲取到。

Puppeteer爬取單頁面網站的資料示例

場景昨天試了一下爬取根據網頁查詢引數的不同而變化的頁面，今天來試試爬取單頁面應用，url不發生變化，只是頁面內的按鈕點選導致資料的重新請求。

python如何爬取動態網站

python有許多庫可以讓我們很方便地編寫網路爬蟲，爬取某些頁面，獲得有價值的資訊！但許多時候，爬蟲取到的頁面僅僅是一個靜態的頁面，即網頁的原始碼，就像在瀏覽器上的“檢視網頁原始碼”一樣。一些動態的東西如j

scrapy與selenium結合爬取資料(爬取動態網站)的示例程式碼

scrapy框架只能爬取靜態網站。如需爬取動態網站，需要結合著selenium進行js的渲染，才能獲取到動態載入的資料。

python爬取動態載入的資料

程式開發資源庫 https://zyk.mingrisoft.com/Develop/view/id/2562/type/7/cid/49.html 分析網頁，查詢資料位置

基於selenium的元素查詢及chrome-headless設定-爬取動態網頁

　　本文就是介紹第二篇中介紹的方法二：利用selenium操縱瀏覽器來模擬瀏覽器行為從而獲取資料。

python爬蟲學習筆記(二十八)-Scrapy 框架爬取JS生成的動態頁面

問題有的頁面的很多部分都是用JS生成的，而對於用scrapy爬蟲來說就是一個很大的問題，因為scrapy沒有JS engine，所以爬取的都是靜態頁面，對於JS生成的動態頁面都無法獲得

HttpClient+Jsoup爬取頁面資料

為什麼不使用爬蟲框架？　　原本使用的WebMagic框架，但是報了協議版本不一致異常，百度很多方法沒解決掉，而且也是自己寫著玩，就換了方式；

requests實現動態爬取頁面

　　首先，介紹一種反爬機制：UA檢測（User-Agent：請求載體的身份標識）：　　　　入口網站的伺服器會檢測對應請求的載體身份標識，如果到該請求的UA為某瀏覽器，則說明該請求是正常的請求，允許訪問；反之，若檢

Jsoup爬取愛奇藝高分電影排行榜資料

原文地址：xeblog.cn/articles/27 Jsoup簡介 Jsoup官網：jsoup.org/ jsoup 是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API，可通過DOM，CSS以及類似於jQuery的操作方法

python爬取Ajax動態載入網頁過程解析

常見的反爬機制及處理方式 1、Headers反爬蟲：Cookie、Referer、User-Agent 解決方案: 通過F12獲取headers,傳給requests.get()方法

node爬取新型冠狀病毒的疫情實時動態

寫在前面：新型冠狀病毒有多麼可怕，我想大家都已經知道了。湖北爆發了新型冠狀病毒，湖南前幾天爆發了禽流感，四川發生地震，中國加油！昨天晚上我突發奇想地打算把疫情實時動態展示在自建站上，於是說幹就幹（先附

SpringBoot中使用Jsoup爬取網站資料的方法

爬取資料匯入jar包 <properties> <java.version>1.8</java.version> <elasticsearch.version>7.6.1</elasticsearch.version>

Python網路爬蟲第三彈《爬取get請求的頁面資料》

Python網路爬蟲第三彈《爬取get請求的頁面資料》一.urllib庫　　urllib是Python自帶的一個用於爬蟲的庫，其主要作用就是可以通過程式碼模擬瀏覽器傳送請求。其常被用到的子模組在Python3中的為urllib.reque

java.net.*爬取網頁，Jsoup解析網頁內容

java.net.* 建立網路連線 Jsoup解析網頁內容 package com.sun.util; import java.io.BufferedReader;

python3.8通過python selenium+（requests+BeautifulSoup）對頁面進行徹底爬取

首先說一下requests+BeautifulSoup對頁面的解析安裝requests和BeautifulSoup安裝步驟我在這裡就不說了

python 爬取頁面所有的url

#coding=utf-8 import openpyxl # -*- coding: GBK -*- from selenium import webdriver import urllib.request import re

使用Puppeteer爬取頁面資料，以豆瓣的即將上映頁面為例

Puppeteer簡單介紹 Puppeteer 是 Chrome 開發團隊在 2017 年釋出的一個 Node.js 包,用來模擬 Chrome 瀏覽器的執行。

Python實現爬取網頁中動態載入的資料

在使用python爬蟲技術採集資料資訊時，經常會遇到在返回的網頁資訊中，無法抓取動態載入的可用資料。例如，獲取某網頁中，商品價格時就會出現此類現象。如下圖所示。本文將實現爬取網頁中類似的動態載入的資料。

Jsoup配合使用htmlunit爬取動態頁面

相關推薦