webMagic爬蟲抓取某個部落格全部文章名稱

阿新 • • 發佈：2019-02-20

主要類:

package testMagic;

import java.util.List;

import javax.management.JMException;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.monitor.SpiderMonitor;
import us.codecraft.webmagic.pipeline.ConsolePipeline;
import us.codecraft.webmagic.processor.PageProcessor;
/**
 * PageProcessor是webmagic-core的一部分，定製一個PageProcessor即可實現自己的爬蟲邏輯。
 * 以下是抓取csdn部落格的一段程式碼
 */
public class OschinaBlogPageProcesser implements PageProcessor {
	private Site site = Site.me().setSleepTime(1);
	public Site getSite() {
		return site;
	}
	int temp=1;
	//process（過程）
	public void process(Page page) {
		//通過page.putField()來儲存抽取結果
		//page.getHtml().xpath()則是按照某個規則對結果進行抽取，這裡抽取支援鏈式呼叫
		List<String> pages=page.getHtml().xpath("[@class='pagelist']").links().all();
		if (pages.size()>5) {
			pages.remove(pages.size()-1);
		}
		page.addTargetRequests(pages);//用於獲取所有滿足"(http://blog\\.csdn\\.net/u012012240/article/month/2016/08/\\d+)"這個正則表示式的連結
		//區分是列表頁面還是資訊頁面
		if (page.getUrl().regex("article/list").match()) {
			List<String> links = page.getHtml().xpath("[@class='link_title']").links().regex("http://blog\\.csdn\\.net/chenyufeng1991/article/details/\\d+").all();
			//通過page.addTargetRequests()方法來增加要抓取的URL
			page.addTargetRequests(links);	
		}else {
			System.out.println("記錄數:"+temp++);
			page.putField("title", page.getHtml().xpath("//[@class='link_title']/a/text()").toString());
		}
	}

	//執行這個main方法，即可在控制檯看到抓取結果。webmagic預設有3秒抓取間隔，請耐心等待。
	public static void main(String[] args) {
		//Spider是爬蟲的入口類,addurl為入口url
		Spider oschinaSpider = Spider.create(new OschinaBlogPageProcesser()).addUrl("http://blog.csdn.net/CHENYUFENG1991/article/list/1")
				//Pipeline是結果輸出和持久化的介面，這裡ConsolePipeline表示結果輸出到控制檯
				.addPipeline(new ConsolePipeline());
		try {
			//新增到JMT監控中
			SpiderMonitor.instance().register(oschinaSpider);
			//設定執行緒數
			//oschinaSpider.thread(5);
			oschinaSpider.run();
		} catch (JMException e) {
			e.printStackTrace();
		} 
	}
}

webMagic爬蟲抓取某個部落格全部文章名稱

demo下載地址:點選開啟連結主要類: package testMagic; import java.util.List; import javax.management.JMException; import us.codecraft.webmagic.Pag

JAVA爬蟲挖取CSDN部落格文章(續)

前言之前寫過一篇用jsoup爬取csdn部落格的文章JAVA爬蟲挖取CSDN部落格文章，當時博主還在上一家公司實習，由於公司辦公網路需要代理才能訪問外網，那一篇的程式碼邏輯與代理密切相關，可能有些不熟悉jsoup怎麼使用的朋友看了會感覺越看越糊塗，且當時以為爬取所有文章需要用到分

python爬蟲爬取csdn部落格專家所有部落格內容

#coding:utf-8 import urllib2 from bs4 import BeautifulSoup import os import re #import sys #reload(sys) #sys.setdefaultencoding("utf-8") def getPage(hre

抓取csdn部落格的所有文章url

輸入部落格的主域名，就可以抓取這個部落格所有的文章編號。 # -*- coding:utf8 -*- import string import urllib2 import re import time import random class CSDN_Spider:

python爬蟲-- 抓取網頁、圖片、文章

零基礎入門Python，給自己找了一個任務，做網站文章的爬蟲小專案，因為實戰是學程式碼的最快方式。所以從今天起開始寫Python實戰入門系列教程，也建議大家學Python時一定要多寫多練。目標 1，學習Python爬蟲 2，爬取新聞網站新聞列表 3，爬取圖片 4，把爬取到的資料存在本地

nodejs爬蟲抓取搜狗微信文章詳解

成果展示地址使用模組 async -- 非同步流程控制基本使用request -- 抓取網站模組官網cheerio -- 處理html模組官網思路爬取的思路 : 從搜尋開始 ->

Python進階(十八)-Python3爬蟲小試牛刀之爬取CSDN部落格個人資訊

分享一下我的偶像大神的人工智慧教程！http://blog.csdn.net/jiangjunshow 也歡迎轉載我的文章，轉載請註明出處 https://blog.csdn.net/mm2zzyzzp Python進階(十八)-Python3爬蟲實踐

Python爬蟲抓取煎蛋(jandan.net)無聊圖

下載 logs start input req com read ref color 1 #!/usr/bin/python 2 #encoding:utf-8 3 ‘‘‘ 4 @python 3.6.1 5 @author: [email prote

JAVA使用Gecco爬蟲抓取網頁內容

log pro 指定 get www. error 一個 log4j java類 JAVA 爬蟲工具有挺多的，但是Gecco是一個挺輕量方便的工具。先上項目結構圖。這是一個 JAVASE的 MAVEN 項目，要添加包依賴，其他就四個文件。log4j.propertie

[js高手之路]Node.js實現簡易的爬蟲-抓取博客所有文章列表信息

r.js 目錄 ref 抓取 {} attr 視頻 json clist 抓取目標：就是我自己的博客：http://www.cnblogs.com/ghostwu/ 需要實現的功能：抓取博客所有的文章標題，超鏈接，文章摘要，發布時間需要用到的庫： node.js自帶的h

Python爬蟲抓取東方財富網股票數據並實現MySQL數據庫存儲

alt 插入 pytho width 重新 tab 空值 utf word Python爬蟲可以說是好玩又好用了。現想利用Python爬取網頁股票數據保存到本地csv數據文件中，同時想把股票數據保存到MySQL數據庫中。需求有了，剩下的就是實現了。在開始之前，保證已經

python爬蟲抓取zabbix監控圖，並發郵件

python 抓取最近十九大非常煩，作為政府網站維護人員，簡直是夜不能寐。各種局子看著你，內保局，公安部，360，天融信，華勝天成，中央工委，政治委員會...360人員很傻X，作為安全公司，竟然不能抓到XX網站流量，在我們機房放的探針更是搞笑，讓我們手工上報流量數據。白天還行，晚上怎麽辦？給他寫個腳

Python爬蟲--抓取單一頁面上的圖片文件學習

python 爬蟲 #！/usr/bin/python import sys #正則表達式庫 import re import urllib def getHtml(url): page = urllib.urlopen(url) html = page.read() ret

NodeJs爬蟲抓取古代典籍，共計16000個頁面心得體會總結及項目分享

star 完成這樣的過程優點 header 時間 eof ssi 項目技術細節項目大量用到了 ES7 的async 函數, 更直觀的反應程序了的流程。為了方便，在對數據遍歷的過程中直接使用了著名的async這個庫，所以不可避免的還是用到了回調promise

爬蟲抓取網頁來下載小說

程序 rip compile pla ons pos 獲取 except res 利用Python3 編寫爬蟲，從筆趣閣抓個小說下載。 import re import urllib.request import time import easygui as g # 輸

如何利用Python網絡爬蟲抓取微信朋友圈的動態（上）

Python 網絡爬蟲微信朋友圈 Python開發今天小編給大家分享一下如何利用Python網絡爬蟲抓取微信朋友圈的動態信息，實際上如果單獨的去爬取朋友圈的話，難度會非常大，因為微信沒有提供向網易雲音樂這樣的API接口，所以很容易找不到門。不過不要慌，小編在網上找到了第三方工具，它可

如何利用Python網絡爬蟲抓取微信好友數量以及微信好友的男女比例

zha 成功函數通訊好友列表是否 ID 爬蟲實現前幾天給大家分享了利用Python網絡爬蟲抓取微信朋友圈的動態（上）和利用Python網絡爬蟲爬取微信朋友圈動態——附代碼（下），並且對抓取到的數據進行了Python詞雲和wordart可視化，感興趣的夥伴可以戳這

利用Python網絡爬蟲抓取微信好友的所在省位和城市分布及其可視化

Python網絡爬蟲微信好友微信朋友圈可視化數據采集前幾天給大家分享了如何利用Python網絡爬蟲抓取微信好友數量以及微信好友的男女比例，感興趣的小夥伴可以點擊鏈接進行查看。今天小編給大家介紹如何利用Python網絡爬蟲抓取微信好友的省位和城市，並且將其進行可視化，具體的教程如下

利用Python網絡爬蟲抓取微信好友的簽名及其可視化展示

完成 mage 小白 lin 朋友圈簽名教程技術分享 ctu 前幾天給大家分享了如何利用Python詞雲和wordart可視化工具對朋友圈數據進行可視化，利用Python網絡爬蟲抓取微信好友數量以及微信好友的男女比例，以及利用Python網絡爬蟲抓取微信好友的所在省位

Python爬蟲 —— 抓取美女圖片

In root lxml 取圖 ext time style main HR 代碼如下： 1 #coding:utf-8 2 # import datetime 3 import requests 4 import os 5 import sys

webMagic爬蟲抓取某個部落格全部文章名稱

相關推薦