使用Jsoup和htmlunit爬取動態網頁

阿新 • • 發佈：2020-07-24

　　在對http://zkgg.tjtalents.com.cn/newzxxx.jsp這個網頁爬取內容時，如果只使用Jsoup進行解析的話，起內部的a href標籤內容無法獲取到。

但是實際上通過

Document doc = Jsoup.connect(url).get();

獲取到的文件只是newzxxx.jsp中respose的內容。

實際我們想要的內容通過js載入得到的。

function query(){
   $("formzx").fid.value = "C09.01.01.05";
    $("formzx").set('send',{
        url: 'MainServlet.action', 
        onRequest:  
function(){
        },
        //成功的回撥函式
        onSuccess: function(responseText){  
          $('listspan').innerHTML = responseText;
        },
        //失敗的回撥函式. 404. 500. 以及返回JSON串success為false時執行
        onFailure: function(responseText){
          $('listspan').innerHTML = responseText;
         }
      });
    $( 
"formzx").send();
  }

所以這種情況我們可以使用htmlunit來模擬瀏覽器，並且等待js載入完畢後，再讀取整個頁面。

public String getPageWaitJS (String url) throws IOException {
        WebClient webClient = new WebClient();
        webClient.getOptions().setJavaScriptEnabled(true); //啟用JS直譯器，預設為true
        webClient.getOptions().setCssEnabled(false 
); //禁用css支援
        webClient.getOptions().setThrowExceptionOnScriptError(false); //js執行錯誤時，是否丟擲異常
        HtmlPage page = webClient.getPage(url);
        webClient.waitForBackgroundJavaScript(3*1000);
        String pageXml = page.asXml(); //以xml的形式獲取響應文字
        return pageXml;
    }

這樣的話就能夠獲取全部的html頁面，之後再使用Jsoup來對頁面進行解析即可，這裡就不放上Jsoup的程式碼了。

使用Jsoup和htmlunit爬取動態網頁

　　在對http://zkgg.tjtalents.com.cn/newzxxx.jsp這個網頁爬取內容時，如果只使用Jsoup進行解析的話，起內部的a href標籤內容無法獲取到。

Jsoup配合使用htmlunit爬取動態頁面

技術標籤：爬蟲java 今天使用jsoup在做爬蟲的功能的時候，發現jsoup只能爬取靜態頁面，對於ajax和json動態生成的頁面的支援並不友好。

基於selenium的元素查詢及chrome-headless設定-爬取動態網頁

　　本文就是介紹第二篇中介紹的方法二：利用selenium操縱瀏覽器來模擬瀏覽器行為從而獲取資料。

python 爬蟲實現增量去重和定時爬取例項

前言：在爬蟲過程中，我們可能需要重複的爬取同一個網站，為了避免重複的資料存入我們的資料庫中通過實現增量去重去解決這一問題本文還針對了那些需要實時更新的網站增加了一個定時爬取的功能；

基於Python爬取fofa網頁端資料過程解析

FOFA-網路空間安全搜尋引擎是網路空間資產檢索系統（FOFA）是世界上資料覆蓋更完整的IT裝置搜尋引擎，擁有全球聯網IT裝置更全的DNA資訊。探索全球網際網路的資產資訊，進行資產及漏洞影響範圍分析、應用分佈統計、應

python 爬取指定網頁中的圖片（python crawls the image in the specified page）

來自《Python專案案例開發從入門到實戰》（清華大學出版社鄭秋生夏敏捷主編）中爬蟲應用——抓取百度圖片

python 爬取指定網頁中的圖片精細版（python crawls the image in the specified page fine version）

來自《Python專案案例開發從入門到實戰》（清華大學出版社鄭秋生夏敏捷主編）中爬蟲應用——抓取百度圖片

python如何爬取動態網站

python有許多庫可以讓我們很方便地編寫網路爬蟲，爬取某些頁面，獲得有價值的資訊！但許多時候，爬蟲取到的頁面僅僅是一個靜態的頁面，即網頁的原始碼，就像在瀏覽器上的“檢視網頁原始碼”一樣。一些動態的東西如j

scrapy與selenium結合爬取資料(爬取動態網站)的示例程式碼

scrapy框架只能爬取靜態網站。如需爬取動態網站，需要結合著selenium進行js的渲染，才能獲取到動態載入的資料。

python爬取動態載入的資料

程式開發資源庫 https://zyk.mingrisoft.com/Develop/view/id/2562/type/7/cid/49.html 分析網頁，查詢資料位置

使用Node.js爬取任意網頁資源並輸出高質量PDF檔案到本地

本文適合無論是否有爬蟲以及Node.js基礎的朋友觀看~ 需求： Node.js PDF 如果你是一名技術人員，那麼可以看我接下來的文章，否則，請直接移步到我的github倉庫，直接看文件使用即可，倉庫地址:附帶文件和原始碼,別忘

typescript 學習筆記 - 簡單網頁爬蟲1：爬取整個網頁的內容

1. 新建資料夾。 crowller 2. 在資料夾下，進行 npm init -y ,進行初始化，出現package.json檔案。

Java 爬蟲爬取html網頁解析

技術標籤：java 1、springboot專案，引入jsoup <dependency> <groupId>org.jsoup</groupId>

python3爬蟲-6.使用requests和BeautifulSoup爬取豆瓣Top250電影

初次探查這次我們就要來使用上次說的BeautifulSoup + Reuqests進行爬取豆瓣TOP250電影

Node-RED中使用html節點爬取HTML網頁資料之爬取Node-RED的最新版本

場景 Node-RED簡介與Windows上安裝、啟動和執行示例： https://blog.csdn.net/BADAO_LIUMANG_QIZHI/article/details/121884766

用response和scrapy爬取電影天堂電影的電影名並儲存下來

response import requests from lxml import etree url=\'https://www.dytt89.com/html/bikan/\' headers={\'User-Agent\': \'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko

使用selenium和python，實現靜態、多級、動態網頁的資訊爬取

前言其中的過程適用於靜態網頁（豆瓣電影資訊、嗶哩嗶哩評論區等）、動態頁面（百度圖片滾輪觸發頁面更新、下拉框觸發頁面更

python爬取Ajax動態載入網頁過程解析

常見的反爬機制及處理方式 1、Headers反爬蟲：Cookie、Referer、User-Agent 解決方案: 通過F12獲取headers,傳給requests.get()方法

使用 BeautifulSoup 和 Selenium 進行網頁爬取

概述 html幾乎是平鋪直敘的。css是一個偉大的進步，它清晰地區分了頁面的結構和外觀。JavaScript新增一些魅力。道理上講是這樣的。現實世界還是有點不一樣。

java.net.*爬取網頁，Jsoup解析網頁內容

java.net.* 建立網路連線 Jsoup解析網頁內容 package com.sun.util; import java.io.BufferedReader;

使用Jsoup和htmlunit爬取動態網頁

相關推薦