基於Jsoup的網路爬蟲的使用以及網頁分析的基本方法

阿新 • • 發佈：2018-12-13

至於網路爬蟲是什麼我在此就不再多做介紹，本篇部落格主要講解

Jsoup的實現原理以及使用

如何通過對網頁分析實現爬蟲

通過一個例項具體演示以上介紹的方法

Jsoup是什麼？

官方對它的解釋是：一個HTML解析器。

它可以從URL、檔案、字串中提取並解析HTML，通過DOM遍歷或CSS選擇器查詢並提取資料，也可以修改HTML各個元素的各種屬性。

Jsoup的幾個重要方法：

attr(String attributeKey)：獲取當前標籤attributeKey屬性中的內容
attr(String attributeKey,String attributeValue)：將當前標籤的attributeKey屬性內容替換成attributeValue。

child(int index)：獲取當前標籤的第index個子標籤
children():獲取當前標籤的全部子標籤
getAllElements()：獲取當前Dom樹的全部標籤

我們通過抓取CSDN部落格的頁面內容，實際演示一下Jsoup的使用

我們首先建立一個基於Gradle或者Maven的Java專案(當然不用它們直接導jar包也可以)，我這裡是用的Gradle。

1、選擇用Gradle建立專案

這裡隨便填

剩下兩步預設就好。

然後我們匯入Jsoup的依賴

Gradle：

compile group: 'org.jsoup', name: 'jsoup', version: '1.11.3'

Maven ：

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.11.3</version>
</dependency>

此工具類可以獲取網頁的全部標籤元素

public class JsoupUtil {
    /**
     * 獲取網頁的全部標籤元素
     * @param url   網頁的Url
     * @return 網頁的全部標籤元素
     */
    public static Elements doConnect(String url){
        Connection.Response rs=null;
        try {
            rs = Jsoup.connect(url).execute();
        } catch (IOException e) {
            e.printStackTrace();
            System.out.println("連線超時");
        }
        return Jsoup.parse(rs.body()).getAllElements();
    }
}

分析網頁得知，

1、所有含有博文連結的標籤class為"article-item-box csdn-tracking-statistics"

2、它的子標籤(<h4>)的子標籤<a>中屬性("href")為指向博文的連結，文章名為其文字內容。

那麼寫出程式碼（注意導包時Element的包不要導錯，它所在的包為org.jsoup.nodes.Element）

public class Main {
    List<Blog> blogs=new ArrayList<>();     //儲存獲取到的url及其文章名稱
    public void getBlog(){
        Elements elements=JsoupUtil.doConnect("https://blog.csdn.net/qq_36598186");
        for (Element element:elements){
            if (element.attr("class").equals("article-item-box csdn-tracking-statistics")){  //獲取class屬性為article...的標籤
                System.out.println(element.child(0).child(0).attr("href")); //輸出當前標籤子標籤的子標籤的href屬性值
                System.out.println(element.child(0).child(0).text()); //輸出當前標籤子標籤的子標籤的文字內容
                Blog blog=new Blog(element.child(0).child(0).text(),element.child(0).child(0).attr("href"));
                blogs.add(blog);
            }
        }
        
    }

    class Blog{   
        String name;  //文章名
        String url;    //文章url
        public Blog(String name, String url) {
            this.name = name;
            this.url = url;
        }
    }
    public static void main(String args[]){
        new Main().getBlog();
    }
}

我們如果想獲取每一個文章的內容，該怎麼辦呢？

右鍵文章內容檢視元素。

分析得知所有的內容都在class屬性為htmledit_views的標籤內

因為已經成功獲取到了我們所需的url，那麼我們只需在原來程式碼上稍作修改：

public class Main {
    List<Blog> blogs=new ArrayList<>();
    public void getBlog(){
        Elements elements=JsoupUtil.doConnect("https://blog.csdn.net/qq_36598186");
        for (Element element:elements){
            if (element.attr("class").equals("article-item-box csdn-tracking-statistics")){
                System.out.println(element.child(0).child(0).attr("href"));
                System.out.println(element.child(0).child(0).text());
                Blog blog=new Blog(element.child(0).child(0).text(),element.child(0).child(0).attr("href"));
                blogs.add(blog);
            }
        }

        blogs.remove(0);   //這裡是因為發現一段被原網頁註釋掉的程式碼被解析成為了指向內容的url
        for (Blog blog : blogs) {
            Elements elements1=JsoupUtil.doConnect(blog.url);
            for (Element element:elements1){
                if (element.attr("class").equals("htmledit_views")){
                    System.out.println(element.text()); //獲取所有class屬性為htmledit_views的文字
                }
            }
        }
    }
    class Blog{
        String name;
        String url;
        public Blog(String name, String url) {
            this.name = name;
            this.url = url;
        }
    }
    public static void main(String args[]){
        new Main().getBlog();
    }
}

大功告成！

基於Jsoup的網路爬蟲的使用以及網頁分析的基本方法

至於網路爬蟲是什麼我在此就不再多做介紹，本篇部落格主要講解 Jsoup的實現原理以及使用如何通過對網頁分析實現爬蟲通過一個例項具體演示以上介紹的方法 Jsoup是什麼？官方對它的解釋是：一個HTML解析器。它可以從URL、檔案、字串中提取並解析H

網路爬蟲_網頁登入（蘇寧有驗證碼）—基於HtmlUnit

輸入驗證碼： public static String getCode(){ System.out.println("請輸入驗證碼："); Scanner sc = new Scanner(System.in); String code = s

如何通過jsoup網路爬蟲工具爬取網頁資料,並通過jxl工具匯出到excel

1：閒話少說,直接看需求: 抓取的url:http://www.shparking.cn/index.php/welcome/municipal_parking?key=&per_page=. 參考的資料:http://blog.csdn.net/lmj6235

【轉載儲存】Java丨jsoup網路爬蟲登入得到cookie並帶上cookie訪問

優秀文章:https://blog.csdn.net/wisdom_maxl/article/details/65631825 jsoup使用cookie： Set<Cookie> cookie_set = LoadCSDN.load(); // WebClient

網路爬蟲以及自動化測試中圖形驗證碼識別解決思路以及方法

前言做自動化測試的朋友都知道圖形驗證碼在整個自動化執行過程中，很可能是阻礙推進的問題，可以採用萬能驗證碼（開發哥哥會流出一個供自動化測試用的），如果不通過開發預留，有以下解決方案。解決思路 1.python3自帶光學字元識別模組tesserocr與pytesseract，可以識別簡單驗證碼； 2.稍

網路爬蟲工作原理分析

網路爬蟲工作原理　　1、聚焦爬蟲工作原理及關鍵技術概述　　網路爬蟲是一個自動提取網頁的程式，它為搜尋引擎從Internet網上下載網頁，是搜尋引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始，獲得初始網頁上的URL，在抓取網頁的過程中，不斷從當前頁面上抽取新的URL放入佇列，直到滿足系統的一定停止條件

基於hadoop 網路爬蟲

一。用hadoop作網路爬蟲的原因爬蟲程式的海量計算特性要求必須要用分散式方式來實現。一般爬蟲爬取的是整個網際網路上的所有或部分資料，這個資料量一般是P byte級，至少也是T byte級，因此用分散式的方式來獲取這是不二之選。在眾多的分散式計算框架裡hadoop絕對

Java實現爬蟲給App提供資料（Jsoup 網路爬蟲）

需求 ## 最近基於 Material Design 重構了自己的新聞 App，資料來源是個問題。有前人分析了知乎日報、鳳凰新聞等 API，根據相應的 URL 可以獲取新聞的 JSON 資料。為了鍛鍊寫程式碼能力，筆者打算爬蟲新聞頁面，自己獲取資料構建 A

基於HtmlUnit網路爬蟲（一）

由於時間關係，我不知道下一集會什麼時候寫，但是歡迎大家交流。很多網路爬蟲新手肯定會遇到的2個問題：執行JavaScript和處理Ajax請求。好了，我先貼一些關鍵配置的程式碼，使得我們模擬的瀏覽器可以執行CSS和JavaScript。 BrowserVersion

爬蟲中網頁分析的幾種技術

一般來說我們只抓取網頁中的特定資料，比如抓取某人所有的blog，我們就只關心list 頁面中文章列表那部分的連結和title 有幾種技術可以用來分析網頁 1）正則匹配 2）一般字串匹配content.substring(pattern, startIndex)，一般是帶有

字母數字窮舉排列組合域名，位數遞增，網路爬蟲，網頁抓取

List<List<string>> res = Generate("abcdefghijklmnopqrstuvwxyz0123456789-"); Console.WriteLine("Count = "

python爬蟲--解析網頁幾種方法之正則表達式

ima 3.5 ref string tex href quest user lin 1、正則表達式正則表達式是一個特殊的字符序列，它能幫助你方便的檢查一個字符串是否與某種模式匹配。 re 模塊使 Python 語言擁有全部的正則表達式功能。 re.match函數 re.

python爬蟲--解析網頁幾種方法之BeautifulSoup

first div xml html find 抓取 XML 格式速度慢析取一.解析器概述 soup=BeautifulSoup(response.body) 對網頁進行析取時，並未規定解析器，此時使用的是python內部默認的解析器“html.parser”

使用中國CDN網路分發Unity 網頁外掛的方法

為了讓中國使用者以最快的速度下載並使用Unity Web Player外掛，從而執行使用Unity引擎開發的網頁遊戲和應用，Unity公司已經與中國的CDN網路提供商ChinaCache達成了深度的合作協議，允許中國使用者通過ChinaCache來下載Unity Web

自動文摘（Automatic document summarization）方法綜述（四）——基於神經網路的（neural summarization）方法

前三篇部落格（一）、（二）、（三）總結了抽取式自動文摘的一些經典方法，傳統抽取式自動文摘方法將文件簡單地看作是一組文字單元（短語、句子等）的集合，忽略了文件所表達的全域性語義，難免“斷章取義”。隨著算力的提升，深度學習在很多應用中非常的火熱也取得了state-o

網路爬蟲突破限制的常見方法

開發十年，就只剩下這套架構體系了！ >>>

Java基於httpclient獲取網頁資料，實現簡單網路爬蟲

1、pom檔案引入httpclient依賴 <dependency> <groupId>org.apache.httpcompon

[Python]網路爬蟲（一）：抓取網頁的含義和URL基本構成

一、網路爬蟲的定義網路爬蟲，即Web Spider，是一個很形象的名字。把網際網路比喻成一個蜘蛛網，那麼Spider就是在網上爬來爬去的蜘蛛。網路蜘蛛是通過網頁的連結地址來尋找網頁的。從網站某一個頁面（通常是首頁）開始，讀取網頁的內容，找到在網頁中的其它連結地址

自己動手搭建一個簡單的基於Hadoop的離線分析系統之一——網路爬蟲

自己動手搭建一個簡單的基於Hadoop的離線分析系統之一——網路爬蟲之前對大資料頗感興趣，在學習了一個月的相關原理和應用後，感覺自己需要動手一個實戰專案來鞏固之前學到的東西，加之很早之前就接觸過一些爬蟲知識，因此利用手上現有的資源（一臺膝上型電腦）來搭建一個關於房屋租賃的簡

爬蟲的一些知識點目錄 1. 網路爬蟲 1 2. 產生背景垂直領域搜尋引擎 2 3. 1 聚焦爬蟲工作原理以及關鍵技術概述 3 4. 涉及技術 3 4.1. 下載網頁一般是通過net api

爬蟲的一些知識點目錄 1. 網路爬蟲 1 2. 產生背景垂直領域搜尋引擎 2 3. 1 聚焦爬蟲工作原理以及關鍵技術概述 3 4. 涉及技術 3 4.1. 下載網頁一般是通過net api 3 4.2. 分析網頁（html分析

基於Jsoup的網路爬蟲的使用以及網頁分析的基本方法

Jsoup是什麼？

我們通過抓取CSDN部落格的頁面內容，實際演示一下Jsoup的使用

相關推薦