jsoup爬取分頁的內容
網站顯示內容基本上都是通過分頁來顯示,我們用jsoup簡單爬取頁面僅能獲取本頁的內容,對於其他頁面的內容該如何爬取?其實很簡單,就是通過檢查下一頁的連結地址,基本上下一頁的超連結地址都是有規律的,基本上都是*****/1或者*****/2等等,所以我們可以按照這個規律,迴圈訪問頁面,抓取資訊即可;當然,通過選擇器直接將下一頁的url獲取出來也可以,不過我覺得直接分析還是比較簡單。
上程式碼:
public int startSpiderFullHandler(String url) { int resultCode = 0; Document document = null; List<String> titleList = new ArrayList<>(); for (int i = 0; i < 7; i++) { document = getDocument(url + "/page/" + (i + 1)); //全部標題 Elements elements2 = document.getElementsByClass("meta-title"); for (Element element : elements2) { logger.info("全部標題" + element.text()); titleList.add(element.text()); } logger.info("本頁文章:" + elements2.size()); } logger.info("文章總數:" + titleList.size()); return resultCode; }
如果需要其他程式碼,我上傳到我的資源裡,可以直接下載
http://download.csdn.net/download/bbs_baibisen/10156414
相關推薦
jsoup爬取分頁的內容
網站顯示內容基本上都是通過分頁來顯示,我們用jsoup簡單爬取頁面僅能獲取本頁的內容,對於其他頁面的內容該如何爬取?其實很簡單,就是通過檢查下一頁的連結地址,基本上下一頁的超連結地址都是有規律的,基本上都是*****/1或者*****/2等等,所以我們可以按照這個規律,迴圈訪
python 爬蟲(五)爬取多頁內容
import urllib.request import ssl import re def ajaxCrawler(url): headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/5
利用Jsoup爬取天貓列表頁資料
由於技術有限天貓詳細頁的銷售資料爬取不到,所以採用折中的方法改為爬列表頁. 本文針對的是店內搜尋頁 以下是獲取網頁資料: /** * @param URL 根據URL獲取document
如何使用Jsoup爬取網頁內容
前言: 這是一篇遲到很久的文章了,人真的是越來越懶,前一陣用jsoup實現了一個功能,個人覺得和selenium的webdriver原理類似,所以今天正好有時間,就又來更新分享了。 實現場景: 爬取部落格園https://www.cnblogs.com/longronglang,文章列表中標題、連結、釋出時間
python實現爬取30頁百度校園女神圖片!
dpi 分享圖片 ges pat path lis 校園 one sha 1、以下是源代碼import requestsimport osdef getManyPages(keyword,pages): params=[] for i in range(30,3
java爬蟲問題二: 使用jsoup爬取數據class選擇器中空格多選擇怎麽解決
凱哥Java問題描述: 在使用jsoup爬取其他網站數據的時候,發現class是帶空格的多選擇,如果直接使用doc.getElementsByClass(“class的值”),這種方法獲取不到想要的數據。 爬取網站頁面結構如下: 其中文章列表的div為:<div class="am-cf in
爬蟲(GET)——爬取多頁的html
調度 不同 odin 新建 文件內容 存儲 rom 寫入 adp 工具:python3 目標:將編寫的代碼封裝,不同函數完成不同功能,爬取任意頁數的html 新學語法:with open as 除了有更優雅的語法,with還可以很好的處理上下文環境產生的
python3 學習1(搜尋關鍵字爬取一頁word格式的百度文庫並下載成文字)
#coding: utf-8 from bs4 import BeautifulSoup # -*- coding: UTF-8 -*- from selenium import webdriver import time browser = webdriver.Chrome
php XPath爬取小說站內容
今天覆習php的時候看到dom這個擴充套件,想了想在php裡面貌似最大的用途就只是xpath $content = file_get_contents("https://read.qidian.com/chapter/bLkfqG4_EUSoUTngny7bXQ2/lUKaD4PkCBR
Python爬取多頁糗事百科
這次帶來的是如何爬取糗事百科 且 寫入txt文件 大家都知道,糗事百科可以帶給大家很多快樂。 在這裡,我們將實現對其內容的爬取,將這些好笑的段子記錄下來,可以讓我們打發無聊或沒網時的時間。 當爬取我們想要的內容時,幾乎都離不開這幾個步驟: 1、網站地址; 2、獲取其原始碼; 3、匹配
Jsoup爬取CSDN部落格
個人Jsoup練習之作,只做參考: <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <versi
node.js學習筆記(3)——使用cheerio處理爬取的網頁內容
一、簡介 node.js本身自帶爬取網站網頁內容的功能。 var http = require('http'); router.get('/test', function(req, res){ var url = 'http://www.baidu.com';
初涉爬蟲時的requests庫---爬取貼吧內容
requests庫在爬蟲的實踐開發運用中較為常用,實現HTTP請求協議時方法簡單,操作方便,易於實現。對於一般的靜態網頁,都可以方便抓取想要的內容,比起scrapy等框架有明顯的優勢,爬取定向的簡單內容,是極好的。 下面就是運用requests模組,實現一個簡單的爬取貼吧網
Python-爬取小說文字內容(使用beautiful soup實現)
Python-爬取小說文字內容(beautiful soup) 本次爬取的網站為[http://www.136book.com/][6],你可以在頁面選擇你想要爬取的小說。 文中程式碼使用Anaconda的Jupyter書寫。 Beautiful Soup簡介 官
利用requests庫和pyquery庫爬取指定頁數的京東商品資訊
大概思路:首先利用requests庫獲取京東商品搜尋的頁面資訊,然後利用pyquery庫對爬取的資料進行分析,然後利用格式化輸出的方法輸出所爬取的資料。 要爬取的頁面截圖為 對前幾頁的網址進行分析可觀察出相應的規律 第一頁:https://search.jd.
Jsoup爬取table頁面資料
昨天接到一個任務需要爬取一個網頁的table資料,因為第一次接觸有些打怵。查詢資料尋找解決的方法。 查到不少資料都在用jsoup . 需要下載jsoup-1.8.1.jar 包 jsoup 是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文字
Python3網路爬蟲:requests爬取動態網頁內容
本文為學習筆記 學習博主:http://blog.csdn.net/c406495762 Python版本:python3.+ 執行環境:OSX IDE:pycharm 一、工具準備 抓包工具:在OSX下,我使用的是Charles4.0 下載連結以及安裝教
爬取多頁資訊——爬取自己CSDN部落格
在學完莫煩B站的爬蟲視訊的3.3節之後,我完成了這個專案,感覺收穫還是不小的。 體會是自己練手感覺進步挺快,能做出一個小專案給了我一些自信心,中間幾個棘手的問題: 1如何獲取下一頁:分析我的主頁的HTML,發現有一個總的文章數、有pagesize(每頁最多顯示幾篇文章),有此兩值就可以得到總
java初試爬蟲jsoup爬取縱橫小說免費模組
java初試爬蟲jsoup爬取縱橫小說免費模組 之前一直學習java ee,上個月到深圳工作,被招去做java爬蟲,於是自己學著jsoup,寫了個簡單的爬蟲 因為平時喜歡看小說就爬了縱橫。 將整個過程分為了 1. 獲取當前頁小說列表的詳細資料 2. 切換到下一分頁的列表 3. 獲取當
Java爬蟲--利用HttpClient和Jsoup爬取部落格資料並存入資料庫
由於今日頭條等頭條類產品的出現,以今日頭條為代表所使用的爬蟲技術正在逐漸火熱,在爬蟲領域具有良好效能和較好效果的Python在最近一年的時間裡逐漸火熱起來,同時因為Python良好的資料分析和機器學習的能力,Python的應用越來越廣泛。不過,今天我們要提到