jsoup爬取分頁的內容

阿新 • • 發佈：2019-01-14

網站顯示內容基本上都是通過分頁來顯示，我們用jsoup簡單爬取頁面僅能獲取本頁的內容，對於其他頁面的內容該如何爬取？其實很簡單，就是通過檢查下一頁的連結地址，基本上下一頁的超連結地址都是有規律的，基本上都是*****/1或者*****/2等等，所以我們可以按照這個規律，迴圈訪問頁面，抓取資訊即可；當然，通過選擇器直接將下一頁的url獲取出來也可以，不過我覺得直接分析還是比較簡單。

上程式碼：

    public int startSpiderFullHandler(String url) {
        int resultCode = 0;
        Document document = null;
        List<String> titleList = new ArrayList<>();
        for (int i = 0; i < 7; i++) {
            document = getDocument(url + "/page/" + (i + 1));
            //全部標題
            Elements elements2 = document.getElementsByClass("meta-title");
            for (Element element : elements2) {
                logger.info("全部標題" + element.text());
                titleList.add(element.text());
            }
            logger.info("本頁文章：" + elements2.size());
        }
        logger.info("文章總數：" + titleList.size());
        return resultCode;
    }

如果需要其他程式碼，我上傳到我的資源裡，可以直接下載

http://download.csdn.net/download/bbs_baibisen/10156414

jsoup爬取分頁的內容

jsoup爬取分頁的內容

python 爬蟲（五）爬取多頁內容

利用Jsoup爬取天貓列表頁資料

如何使用Jsoup爬取網頁內容

python實現爬取30頁百度校園女神圖片！

java爬蟲問題二: 使用jsoup爬取數據class選擇器中空格多選擇怎麽解決

爬蟲（GET）——爬取多頁的html

python3 學習1（搜尋關鍵字爬取一頁word格式的百度文庫並下載成文字）

php XPath爬取小說站內容

Python爬取多頁糗事百科

Jsoup爬取CSDN部落格

node.js學習筆記(3)——使用cheerio處理爬取的網頁內容

初涉爬蟲時的requests庫---爬取貼吧內容

Python-爬取小說文字內容（使用beautiful soup實現）

利用requests庫和pyquery庫爬取指定頁數的京東商品資訊

Jsoup爬取table頁面資料

Python3網路爬蟲：requests爬取動態網頁內容

爬取多頁資訊——爬取自己CSDN部落格

java初試爬蟲jsoup爬取縱橫小說免費模組

Java爬蟲--利用HttpClient和Jsoup爬取部落格資料並存入資料庫

jsoup爬取分頁的內容

相關推薦