如何使用Jsoup爬取網頁內容

阿新 • • 發佈：2020-04-25

前言：

這是一篇遲到很久的文章了，人真的是越來越懶，前一陣用jsoup實現了一個功能，個人覺得和selenium的webdriver原理類似，所以今天正好有時間，就又來更新分享了。

實現場景：

爬取部落格園https://www.cnblogs.com/longronglang，文章列表中標題、連結、釋出時間及閱讀量

思路：

1、引入jar包

2、通過httpclient，設定引數，代理，建立連線，獲取HTML文件（響應資訊）

3、將獲取的響應資訊，轉換成HTML文件為Document物件

4、使用jQuery定位方式，這塊就和web自動化一樣了定位獲取文字及相關屬性

相關詳細使用參考官網：https://jsoup.org/

實現：

1、引入依賴

<dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.10.3</version>
        </dependency>
        <dependency>
            <groupId>commons-httpclient</groupId>
            <artifactId>commons-httpclient</artifactId>
            <version>3.1</version>
</dependency>

2、通過httpclient，設定引數，代理，建立連線，獲取HTML文件（響應資訊）

        String requestUrl = "https://www.cnblogs.com/longronglang/";
        HttpClient client = new HttpClient();
        HttpClientParams clientParams = client.getParams();
        clientParams.setContentCharset("UTF-8");
        GetMethod method = new GetMethod(requestUrl);
        String response =method.getResponseBodyAsString();

3、將獲取的響應資訊，轉換成HTML文件為Document物件

  Document document = Jsoup.parse(response);

4、使用jQuery定位方式，這塊就和web自動化一樣了定位獲取文字及相關屬性

這裡可以仔細看下，也可以說是核心思路了，如下圖：

從圖中可以看到，文章標題在在a標籤中，也就是通過class屬性為postTitle2進行繫結，那麼我們的dom物件就定位到這裡即可，那麼我想獲取文章標題這個dom物件，可以寫成如下程式碼：

 Elements postItems = document.getElementsByClass("postTitle2");

同理，獲取釋出時間及閱讀量，也可以寫成如下程式碼：

 Elements readcontexts = document.getElementsByClass("postDesc");

最後我們來段整合的程式碼如下：

import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.HttpStatus;
import org.apache.commons.httpclient.methods.GetMethod;
import org.apache.commons.httpclient.params.HttpClientParams;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
import org.junit.Test;

import java.io.IOException;

public class JsoupTest {

    @Test
    public void test() {
        String requestUrl = "https://www.cnblogs.com/longronglang/";
        HttpClient client = new HttpClient();
        HttpClientParams clientParams = client.getParams();
        clientParams.setContentCharset("UTF-8");
        GetMethod method = new GetMethod(requestUrl);
        String response = null;
        int code = 0;
        try {
            code = client.executeMethod(method);
            response = method.getResponseBodyAsString();
            if (code == HttpStatus.SC_OK) {
                Document document = Jsoup.parse(response);
                Elements postItems = document.getElementsByClass("postTitle2");
                Elements readcontexts = document.getElementsByClass("postDesc");
                for (int i = 0; i < postItems.size(); i++) {
                    System.out.println("文章標題:" + postItems.get(i).text());
                    System.out.println("文章地址:" + postItems.get(i).attr("href"));
                    System.out.println("釋出資訊:" + readcontexts.get(i).text());
                }
            } else {
                System.out.println("返回狀態不是200,可能需要登入或者授權，亦或者重定向了！");
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

執行結果如下：

到此，一個爬蟲搞完，這裡只事拋磚引用，有興趣的同學，請自行擴充套件。

如果感情一開始就是不對等的，那麼索性就早點結束掉它，利人利己。

如何使用Jsoup爬取網頁內容

前言：這是一篇遲到很久的文章了，人真的是越來越懶，前一陣用jsoup實現了一個功能，個人覺得和selenium的webdriver原理類似，所以今天正好有時間，就又來更新分享了。實現場景：爬取部落格園https://www.cnblogs.com/longronglang，文章列表中標題、連結、釋出時間

PHP爬取網頁內容

1.使用file_get_contents方法實現 $url = "http://www.baidu.com"; $html = file_get_contents($url); //如果出現中文亂碼使用下面程式碼 //$getcontent = iconv("

利用BeautifulSoup爬取網頁內容

利用BeautifulSoup可以很簡單的爬取網頁上的內容。這個套件可以把一個網頁變成DOM Tree 要使用BeautifulSoup需要使用命令列進行安裝，不過也可以直接用python的ide。基礎操作 : ① 使用之前需要先從bs4中匯入包：from

Python之簡單爬取網頁內容

爬去網頁通用流程這樣看著雖然很麻煩，但是爬取網頁都離不開這四個步驟，以後如果爬取更復雜的網頁內容，只需要在這個基礎上新增內容就ok了。 import requests class Qiushi: # 初始化函式 def __init__(self,name):

Python爬蟲：selenium掛shadowsocks代理爬取網頁內容

selenium掛ss代理爬取網頁內容 from selenium import webdriver from selenium.webdriver.chrome.options import Options from selenium.common.exceptions import

JAVA爬取網頁內容

之前的文章沒有整理好，這邊重新標註一下，有需要可以到我的個人部落格看完整的三篇文章。在此之前，大家先了解一個Jsoup，一個html頁面解析的jar包。如果你上面的Jsoup看完了。前期準備工作：需要去檢視一下要爬的網頁的結構，對自己要爬的資料的標籤要熟悉。操作：在頁面上按F

python3定向爬取網頁內容

import requests import bs4 from bs4 import BeautifulSoup def getHTMLText(url): # 獲取網頁內容 try: r = requests.get(url, timeout=30) r.ra

爬蟲小白——利用pycharm爬取網頁內容

概述：這是一個利用pycharm在phthon環境下做的一個簡單爬蟲分享，主要通過對豆瓣音樂top250的歌名、作者（專輯）的爬取來分析爬蟲原理什麼是爬蟲？我們要學會爬蟲，首先要知道什麼是爬蟲。網路爬蟲（又被稱為網頁蜘蛛，網路機器人，在FOAF社群中間，更經常的稱為網頁追逐者

HtmlUnit、httpclient、jsoup爬取網頁資訊並解析

1.爬取頁面效果圖點選"百度一下"按鈕前頁面點選"百度一下"按鈕後頁面天涯社群登入頁面登入進去之後個人主頁二、具體實現程式碼 HtmlUnit(底層也

Jsoup爬取網頁亂碼編碼格式gb2312轉utf8

最近做的一個專案需要爬取股票公告並存儲於mongodb中用來顯示，當我在用jsoup爬取新浪財經股票公告的時候，發現了亂碼問題。網頁連結如下http://vip.stock.finance.sina.

PHP加JavaScript爬取網頁內容，超實用簡易教程

php+js爬取網頁內容—–先看下效果如何做到的呢？我們一直以為只有Python才能爬取網頁內容，那是因為Python本身集合很多類庫用來爬取網頁很方便，但是我們使用PHP+js的方法一樣很方便，一樣可以拿到我們想要的網頁內容，而且也不用很繁瑣。

使用HTTPURLConnection模擬登陸，爬取網頁內容

如果你需要爬取某些網頁的內容，但這些網站需要登入，那就需要一些額外的步驟來由程式來完成這些登入並爬取我們需要的網頁內容了，任意登入頁面都是向伺服器傳送請求，如果我們能夠模擬向伺服器傳送請求，那麼自然登入也就不在話下，通過Fiddler抓取我們需要的一些資訊，很輕鬆的就能模擬

python+selenium+PhantomJS爬取網頁動態加載內容

use for ive comm 自動化測試 mac os x page 影響 blank 一般我們使用python的第三方庫requests及框架scrapy來爬取網上的資源，但是設計javascript渲染的頁面卻不能抓取，此時，我們使用web自動化測試化工具Selen

Python 爬取網頁中JavaScript動態添加的內容（二）

python tab sta exe div int rom ava script 使用 selenium + phantomjs 實現 1、準備環境 selenium（一個用於web應用程測試的工具）安裝：pip install seleniumphantomjs（是

Jsoup簡單例子——爬取網頁內的郵箱

一、前言 Jsoup 是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API，可通過DOM，CSS以及類似於jQuery的操作方法來取出和操作資料。主要功能： 1）從一個URL，檔案或字串中解析HTM

Jsoup簡單例子2.0——多執行緒爬取網頁內的郵箱

上一篇文章講了利用Jsoup爬取貼吧帖子裡的郵箱，雖然爬取成功了，但我對效率有所追求。10頁的帖子爬取了兩百多個郵箱，最快用時8秒，一般需要9秒。在思考了一下怎麼提升效率後，決定採用多執行緒的方式爬取網頁內的郵箱。廢話不多說，直接上程式碼。引入Jsoup的jar包此處省略，沒有的可以檢視上篇文

Python 爬取網頁中JavaScript動態新增的內容（二）

使用 selenium + phantomjs 實現 1、準備環境 selenium（一個用於web應用程測試的工具）安裝：pip install selenium phantomjs（是一種無介面的瀏覽器，用於完成網頁的渲染）下載：http://phantomjs.or

Python 爬取網頁中JavaScript動態新增的內容（一）

當我們進行網頁爬蟲時，我們會利用一定的規則從返回的 HTML 資料中提取出有效的資訊。但是如果網頁中含有 JavaScript 程式碼，我們必須經過渲染處理才能獲得原始資料。此時，如果我們仍採用常規方法從中抓取資料，那麼我們將一無所獲。那麼，通過Web kit可以簡單解決這個

[Java爬蟲] 使用 Jsoup + HttpClient 爬取網頁圖片

一、前言把一篇圖文並茂的優秀文章全部爬取下來，就少不了 Java 爬蟲裡邊的圖片爬取技術了。很多人都用來爬取美女圖片，但是筆者覺得這有傷大雅。下面筆者使用它來爬取 CSDN 【今日推薦】文章附帶的圖片二、程式碼、依賴筆者對本程式碼經過多次

jsoup爬取分頁的內容

網站顯示內容基本上都是通過分頁來顯示，我們用jsoup簡單爬取頁面僅能獲取本頁的內容，對於其他頁面的內容該如何爬取？其實很簡單，就是通過檢查下一頁的連結地址，基本上下一頁的超連結地址都是有規律的，基本上都是*****/1或者*****/2等等，所以我們可以按照這個規律，迴圈訪

如何使用Jsoup爬取網頁內容

前言：

實現場景：

思路：

實現：

相關推薦