Jsoup網頁資料抓取案例

阿新 • • 發佈：2019-01-14

關於Jsoup的基礎知識點這裡就不說了，個人認為很多大牛寫的很詳細也比較全面，這裡就簡單舉一個使用例子玩玩，社長也比較喜歡拿例子來理解一些知識點。

給幾個有用的連結：

1、jsoup下載地址

2、待會兒會用到，主要用來測試一些選擇器之類的是否選擇到資料，還可以查詢當前瀏覽器user-Agent

廢話不多說，以泡在網上的日子Android分類內容為例子。

頁面地址：

點選F12或者右鍵檢視網頁元素去分析需要抓取的資料所在位置

可以注意到幾個比較重要的標籤<div class="archive-detail">和子元素<h3>包含了抓取資料的連結和標題；<p>包含了抓取內容的簡介。現在可以去剛才推薦的第二個網址內測試一下。當然也可以不測。

點選Fetch URL把抓取資料的網頁地址複製進來。

在搜尋框中輸入dic.archive-detail

成功了，說明<div class="archive-detail">可以獲取選擇到我們需要的內容。

抓取網頁資料最重要的就是去分析資料所在位置。其次就是用Jsoup的api去獲取得到資料。那麼接下來著手程式碼。

//獲取抓取內容
    public void getSelectData(String url) throws IOException {
        Document doc = Jsoup.connect(url).timeout(60 * 1000)
                .userAgent("Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:48.0) Gecko/20100101 Firefox/48.0")
                .get();
        //例項div.archive-detail元素集合
        Elements links = doc.select("div.archive-detail");
        //遍歷集合下<a>標籤包含的href和title值
        for(int i=0;i<links.size();i++){
            Elements a = links.get(i).select("a");
            Log.i("shezhang","標題 = "+a.attr("title"));
            Log.i("shezhang","連結 = "+a.attr("abs:href"));
            //獲取<p>標籤包含的內容
            Elements p = links.get(i).select("p");
            Log.i("shezhang","簡介 = "+p.text());
        }
    }

    private void findViewById(){
        btnTest = (Button) findViewById(R.id.btn_test);
        btnTest.setOnClickListener(new View.OnClickListener() {
            @Override
            public void onClick(View v) {
                new Thread(){
                    @Override
                    public void run() {
                        try {
                            for(int i=1;i<=30;i++){
                                try {
                                    Log.i("jiawei","第"+i+"頁");
                                    getData(url+i);
                                    sleep(3000);
                                } catch (InterruptedException e) {
                                    e.printStackTrace();
                                }
                            }
                        } catch (IOException e) {
                            e.printStackTrace();
                        }
                    }
                }.start();
            }
        });
    }

程式碼很簡單，過個過場。因為泡在網上的日子請求有時間限制，所有我的執行緒中睡3秒再繼續請求下一頁的內容一共有30頁。從剛才給出的泡在上網的日子的第一頁網址可以看出只要改改最後那個頁碼就好哈哈。比較重要的就是getSelectData()中的獲取資料的程式碼。

首先例項Document物件，然後獲得主要元素，

 Elements links = doc.select("div.archive-detail");

這個div就是包含了各個文章連結啊標題啊簡介啊的部分，然後通過遍歷這個div元素去獲得我們想要的連結啊標題啊巴拉巴拉。先得到子元素

Elements h3 = links.get(i).select("a");

然後通過a元素去獲得a裡面的內容，包括連結啊標題啊。

Log.i("shezhang","標題 = "+h3.attr("title"));
Log.i("shezhang","連結 = "+h3.attr("abs:href"));

簡介被包含在<p>標籤中

<span style="font-size:18px;">Elements p = links.get(i).select("p");
Log.i("shezhang","簡介 = "+p.text());</span>

OK！執行得到：



搞定！步驟還是挺簡單的，社長寫的內容呢比較粗略。程式碼粗略。圖片粗略。。。。如果同學們專案需要用到的話，不妨把請求資料部分另外開個專門的類非同步封裝好點，把請求的資料封裝成bean物件勉強就可以用啦。這裡就做個簡單例子，學習了基本用法的時候看一些案例可以加深理解。

Jsoup網頁資料抓取案例

Jsoup網頁資料抓取案例

HttpClient+jsoup實現網頁資料抓取和處理

Android 使用jsoup 進行資料抓取

網頁資料抓取--爬蟲

網頁資料抓取之讀取網頁資料

php 網頁資料抓取簡單例項

R語言實現簡單的網頁資料抓取

網頁資料抓取之大眾點評資料

Java網頁資料抓取例項

一次網頁資料抓取採集儲存我的電子商務業務

網頁資訊抓取進階支援Js生成資料 Jsoup的不足之處

QueryList免費線上網頁採集資料抓取工具-toolfk.com

爬蟲--python3.6+selenium+BeautifulSoup實現動態網頁的資料抓取，適用於對抓取頻率不高的情況

實現從網頁上抓取資料(htmlparser)

java爬蟲--jsoup簡單的表單抓取案例

java webmagic 抓取靜態網頁資源,抓取動態網頁資源

spider資料抓取（第二章）

C# NetCore使用AngleSharp爬取周公解夢資料 MySql資料庫的自動建立和頁面資料抓取

爬蟲[1]---頁面分析及資料抓取

爬蟲實戰-酷狗音樂資料抓取--XPath，Pyquery,Beautifulsoup資料提取對比實戰

Jsoup網頁資料抓取案例

相關推薦