Java爬蟲專案實戰案例四之Jsoup使用

阿新 • • 發佈：2018-12-22

Java爬蟲專案實戰案例四之 `Jsoup` 使用

1. `Jsoup`簡介

Jsoup是一款java的HTML解析器，可直接解析某個URL地址，HTML文字內容。它提供了一套非常簡便的API，可通過DOM，CSS以及類似jQuery的操作方法來取出資料和操作資料。
在爬取到網頁之後，就需要使用Jsoup進行網頁的解析。

2. 程式碼

public static void test3() throws IOException{
        CloseableHttpClient httpClient = HttpClients.createDefault();//建立httpClient例項
        HttpGet httpGet = 
 new HttpGet("https://www.cnblogs.com/"); //建立httpGet例項

        HttpHost proxy = new HttpHost("114.235.22.147", 9000);
        RequestConfig config = RequestConfig
                .custom()
                .setProxy(proxy)
                .setConnectTimeout(10000)//連線超時
                .setSocketTimeout(10000)//讀取超時
                . 
build();
        httpGet.setHeader("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64; rv:63.0) Gecko/20100101 Firefox/63.0");

        CloseableHttpResponse response = httpClient.execute(httpGet);//指向http get請求

        HttpEntity entity = response.getEntity();//獲取返回實體

        //System.out.println("網頁內容："+ EntityUtils.toString(entity,"utf-8"));//獲取網頁內容 

        System.out.println("Content-Type :"+entity.getContentType());//獲取內容型別
        System.out.println("Status : "+response.getStatusLine());//判斷響應狀態

        String content = EntityUtils.toString(entity);

        //way 1:
        Document docment = Jsoup.parse(content);
        Elements elements = docment.getElementsByTag("title");
        Element speciEle = elements.get(0);
        String title = speciEle.text();
        System.out.println("網頁標題是："+title);


        //way 2
        Element site_nav_top = docment.getElementById("site_nav_top");
        String slogan = site_nav_top.text();
        System.out.println("slogan :" + slogan);

        response.close();
        httpClient.close();
    }

3.執行結果

在這裡插入圖片描述

4.程式碼詳解

獲取資訊方式1

        //way 1:
        Document docment = Jsoup.parse(content);
        Elements elements = docment.getElementsByTag("title");
        Element speciEle = elements.get(0);
        String title = speciEle.text();
        System.out.println("網頁標題是："+title);

content是上文的entity得到
通過Jsoup解析content，得到一個Document物件
每個Document物件中包涵很多元素，但是我們只需要Tag = 'title’的集合，注意這裡是集合。所以如果需要某個具體的值，就需要指定集合中元素的下標，這裡取下標為0 的Element。【這時取到的就是Element，而是不Elements】
然後通過取出來的Element物件獲取其中的文字。最後輸出
獲取資訊方式2

        //way 2
        Element site_nav_top = docment.getElementById("site_nav_top");
        String slogan = site_nav_top.text();
        System.out.println("slogan :" + slogan);

獲取content，獲取document同方式1
通過document物件，找到其中id ='site_nav_top’的內容，注意，因為在一個html頁面中，id具有唯一性，所以這裡找到的值就是唯一值。
輸出即可

Java爬蟲專案實戰案例四之Jsoup使用

Java爬蟲專案實戰案例四之 Jsoup 使用 1. Jsoup簡介 Jsoup是一款java的HTML解析器，可直接解析某個URL地址，HTML文字內容。它提供了一套非常簡便的API，可通過DOM，C

Java 爬蟲專案實戰之爬蟲簡介

Java 爬蟲專案實戰之爬蟲簡介 0. 前言今年三四月份學習Hbase，瞭解到openTSDB的底層儲存使用到了Hbase，於是乎，學習openTSDB，在閱讀openTSDB原始碼【其原始碼使用java編寫】的過程中，發現裡面全是I/O，多執行緒，httpclient等。

Java 爬蟲實戰案例三之 HttpClient 詳解

Java 爬蟲實戰案例三之 HttpClient 詳解 1. 程式碼 package httpClient; import org.apache.http.HttpEntity; import org.apache.http.client.methods.CloseableHt

使用Jquery+EasyUI 進行框架專案開發案例講解之四組織機構管理原始碼分享

作者：出處：http://www.cnblogs.com/huyong/ Email：[email protected] QQ交流：406590790 框架官網：http://www.rdiframework.net/ 框架官網部落格：http://blog.rdifr

使用Jquery+EasyUI 進行框架專案開發案例講解之四--組織機構管理原始碼分享

使用Jquery+EasyUI 進行框架專案開發案例講解之四組織機構管理原始碼分享在上三篇文章　　我們分享了使用Jquery EasyUI來進行ASP.NET專案的開發的相關方法，每一個模組都有其共用性，細細理解與掌握，我相信使用EasyUI進行開發還是相當方便的。　　接

【Java專案實戰】Oracle之口令管理

Oracle在安裝時沒有進入“口令管理”而直接按確定關閉了，怎麼辦？這篇文章我們就來解決一下這個問題。首先啟動sqlplus 在開啟的對話方塊中輸入使用者名稱sqlplus/as

專案實戰-日誌分析之ELK stack實戰

專案實戰-日誌分析之ELK stack實戰 elk在這兩年確實火得一塌糊塗了，在與傳統日誌分析對比上，es可以說是以快速實時搜尋在日誌分析方面脫穎而出的。而elk 一些列外掛也沒有想象中那麼難學，包括官方提供的beat外掛，監控和分析可以說是手到擒來。這套視訊意在快速幫助入門和

【java練習】SDUT 實驗四之集合框架類

I 2714下沉的船一艘船很不幸的撞上了暗礁，船長組織大家上救生艇，而且船長決定女人（woman）和小孩（child）先上船，然後其次是男人（man）,最後是船長（captain）。給出原來的順序，通過程式設計得到按船長要求排列後的順序。身份優先順序: woman = child >

【java練習】SDUT 實驗四之常用類

述： 1.這個實驗涉及到：Date類，String類（str.toCharArray()字串轉陣列；a=a.replace(in1, out1);字串替換），Integer類（Integer.parseInt(t[0])字元轉數字，BigInteger類（=new BigInteger(str1

簡單爬蟲專案實戰（一）

概述　　最近自己想搞一個小的專案，這個專案我們就先從爬蟲開始，爬取直播吧的NBA滾動新聞，再存入資料庫。先寫個簡單點的，後期再不斷的優化下。準備　　直播吧對於喜歡看球的朋友肯定不陌生，https://www.zhibo8.cc/，開啟我們看到如下介面，我們選擇NBA新聞tab,然後選擇滾動

java多執行緒案例1之簡單銀行取款問題及其優化

之前學java的時候，學校老師由於課時問題，沒有教我們多執行緒，最近學校外聘的企業教師給我們做實訓要用到多執行緒，因此才初步瞭解多執行緒，以下這個案例只是介紹java程式碼優化，程式碼中有涉及多執行緒，但今天不對其講解，只簡單講解程式碼優化的問題,希望對初學者有幫

微信小程式專案實戰【四】------實現評論+轉發+收藏

上一節我們實現了視訊列表展示，接下啦我們需要在上一節的基礎之上繼續詳細解釋下當我們點選相應的視訊列表圖片我們可以跳轉到相應的視訊播放介面以及顯示當前評論訊息。效果展示如下點選評論按鈕跳轉到評論介面【解析】通過上面的效果圖可知我們要實現這個效果首先要明白我們的資料

專案實戰：四、判斷有網沒網並解析資料新增到資料庫

1.這個比較複雜程式碼比較多發的這個是其中的一個頁面我就簡單寫一下思路吧如果要往資料庫裡面新增的話先建立一個數據庫然後在Dao層寫增刪改查方法下面開始寫頁面展示內容內容太多我也不多說了 public class Fragment01 extends Fragment {

使用Jquery+EasyUI 進行框架專案開發案例講解之三---角色管理原始碼分享

使用Jquery+EasyUI 進行框架專案開發案例講解之三角色管理原始碼分享　　在上兩篇文章　　我們分享了使用Jquery EasyUI來進行UI佈局等開發的相關方法，也許你在使用EasyUI的過程過更熟練，有更方便快捷的技巧，我強烈建議你可以分享出來，大家共同進步、

java web專案實戰

最近，我想學點後臺的知識，於是找了一篇教程跟著做。本文是結合教程做點補充和記錄，畢竟小白懂的太少。 1、教程使用的是Javaee IDE，我的eclipse沒有建立動態web專案這個按鈕我還裝外掛吭哧了好久各種報錯，最後還是用了Javaee。按照教程建立好檔案、寫上內容後

使用Jquery+EasyUI 進行框架專案開發案例講解之二---使用者管理原始碼分享

$(function () { grid.bind(); AddUser(); //新增使用者 EditUser(); //編輯使用者 DeleteUser(); //刪除使用者 SetUserPassword(); //設定使用者密碼 $(

使用Jquery+EasyUI 進行框架專案開發案例講解之三角色管理原始碼分享

作者：出處：http://www.cnblogs.com/huyong/ Email：[email protected] QQ交流：406590790 框架官網：http://www.rdiframework.net/ 框架官網部落格：http://blog.rdifr

Python爬蟲專案實戰3 | 圖片文字識別（以驗證碼識別為例）

1.專案背景我在實習過程中，當我抓取環保平臺相關資料時，常常發現有圖片的情況，比如以下這種圖片，所以抓取這種圖片中的資訊是我進行圖片文字識別的動力： 2.專案思路因為在某一網站中有大量這種想要抓取的圖片，所以我的思路是， 1.先抓取這些圖片的名稱和URL； 2.然後再根

Java爬蟲入門簡介（四）——抓包工具的使用以及使用HttpClient模擬使用者登入的訪問

網路爬蟲需要解決的一個重要的問題就是要針對某些需要使用者名稱和密碼訪問的頁面可以模擬使用者自動登入。在這一篇部落格中我們將介紹如何使用Chrome瀏覽器自帶的抓包工具分析頁面並模擬使用者自動登入。我們會以CSDN的使用者登入為例，講述如何使用抓包工具獲取登入

yii2專案實戰-restful api之授權驗證

什麼是restful風格的api呢？我們之前有寫過大篇的文章來介紹其概念以及基本操作。既然寫過了，那今天是要說點什麼嗎？這篇文章主要針對實際場景中api的部署來寫。我們今天就來大大的侃侃那些年api遇到的授權驗證問題！獨家幹活，如果看完有所受益，記得不要忘記給

Java爬蟲專案實戰案例四之Jsoup使用