簡單的java爬蟲實現

阿新 • • 發佈：2019-01-29

去年中旬開始接觸爬蟲一直都是淺顯帶過期間也寫過知乎爬蟲和科技網站定向抓取及爬取整個網際網路的爬蟲

今天和大家分享一下第三個及其實現方式和程式碼早期的實現想法附程式碼

關於爬蟲其實理論上很簡單就是通過網際網路上的超連結導航實現頁面的調轉與抓取網際網路的網也因此而來

我也會一步一步的將實現方式和想法展現出來方便大家能夠明白每一步要做什麼應該怎麼做

爬蟲可以分為6個部分：

1.下載器 ——實現爬蟲的基礎

2.連結解析器——獲取文件超連結

3.連結佇列——負責管理連結（分為兩部分 1已經抓取的，2待抓取（實現去重））

4.頁面分析器——負責將有用資訊剝離出來

5.儲存器——將頁面資訊進行儲存（這裡為了方便展示選擇了生成html檔案，同樣也可以持久化資訊）

6.任務分發器——負責以上模組的協作

1.下載器我們選擇了apache提供的httpClient（還有其他一些也不錯，自由選擇）

package com.search.sprider;
import java.io.IOException;
import org.apache.http.HttpEntity;
import org.apache.http.HttpStatus;
import org.apache.http.ParseException;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.config.RequestConfig;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
/**
* @see 爬取網頁內容
* @author zhuGe
*
*/
public class Sprider {
public static String get(String url) {
CloseableHttpClient httpClient = HttpClients.createDefault();
// 建立httpget
HttpGet httpGet;
try {
httpGet = new HttpGet(url);
} catch (Exception e1) {
return null;
}
// 設定表頭
httpHeader(httpGet);
//設定超時
RequestConfig requestConfig = RequestConfig.custom().setSocketTimeout(2000).setConnectTimeout(2000).build();//設定請求和傳輸超時時間
httpGet.setConfig(requestConfig);
String download = null;
try {
// 執行get請求.
CloseableHttpResponse response = httpClient.execute(httpGet);
// 獲取響應實體
HttpEntity entity = response.getEntity();
//System.out.println(httpGet.getURI());
//// 列印響應狀態
//System.out.println(response.getStatusLine());
//System.out.println("--------------------------------------");
/**
* 爬蟲
*/
if(entity != null){
if (response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {
download = EntityUtils.toString(entity);
}
}
// if (entity != null) {
// // 列印響應內容長度
// System.out.println("Response content length: " +
// entity.getContentLength());
// 列印響應內容
// System.out.println(download);
} catch (ClientProtocolException e) {
// TODO Auto-generated catch block
e.printStackTrace();
return null;
} catch (ParseException e) {
// TODO Auto-generated catch block
e.printStackTrace();
return null;
} catch (IOException e) {
// TODO Auto-generated catch block
new Exception("ioe");
return null;
}finally {
// 關閉連線,釋放資源
try {
httpClient.close();
} catch (IOException e) {
e.printStackTrace();
return null;
}
}
return download;
}
//設定表頭
public static void httpHeader(HttpGet httpGet){
httpGet.setHeader("Accept", "Accept text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");
httpGet.setHeader("Accept-Charset", "GB2312,utf-8;q=0.7,*;q=0.7");
httpGet.setHeader("Accept-Encoding", "gzip, deflate");
httpGet.setHeader("Accept-Language", "zh-cn,zh;q=0.5");
httpGet.setHeader("Connection", "keep-alive");
//httpGet.setHeader("Cookie", "__utma=226521935.73826752.1323672782.1325068020.1328770420.6;");
//httpGet.setHeader("Host", "www.cnblogs.com");
httpGet.setHeader("refer",
"http://www.baidu.com/s?tn=monline_5_dg&bs=httpclient4+MultiThreadedHttpConnectionManager");
httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 6.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");
//System.out.println("Accept-Charset: " + httpGet.getFirstHeader("Accept-Charset"));
}
}

2.連結解析器選擇了jsoup 配合正則(通過dom樹更方便獲取，可以選擇單純使用正則或jsoup>_< 早期寫程式碼失誤了下版升級優化)

package com.search.split;
import java.util.HashSet;
import java.util.Set;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
/**
*
* @author zhuGe
* @see 連結獲取器
*/
public class HrefOfPage {
/**
*
* @see 獲取所有符合要求的連結
* @param doc
* @return 所有的http://的a連結裡面的href屬性值
*
*/
@SuppressWarnings({ "rawtypes", "unchecked" })
public static Set<String> printHref(Document doc){
Set aHref = null;
if(aHref==null){
aHref = new HashSet<String>();
}
aHref.clear();
//獲取所有的a元素
Elements aS = doc.getElementsByTag("a");
for (Element element : aS) {
//正則匹配
//獲取屬性href裡面滿足條件的內容
String href = (element.attr("href"));
String regex ="(http://.+)";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(href);
//獲取遍歷所有滿足條件的標籤並獲取連結
while(m.find()){
String a = m.group(0);
aHref .add(a);
}
}
//System.out.println("頁面連結數量："+aHref.size());
return aHref;
}
}

3.連結佇列待抓取佇列選擇了LinkedList的集合（佇列（queue）方便管理）

package com.search.url;
import java.util.LinkedList;
public class UrlQueue {
/**超連結佇列*/
public static LinkedList<String> urlQueue = new LinkedList<String>();
/**佇列中對應最多的超連結數量*/
public static final int MAX_SIZE = 10000;
public synchronized static void addElem(String url)
{
urlQueue.add(url);
}
public synchronized static String outElem()
{
String outUrl = urlQueue.removeFirst();
//將查詢過的去除掉
if(urlQueue.contains(outUrl)){
urlQueue.remove(outUrl);
System.out.println("faxxx");
}
return outUrl;
}
public synchronized static boolean isEmpty()
{
return urlQueue.isEmpty();
}
}

3.連結佇列以抓取佇列選擇了set結婚（可以去重）

package com.search.url;
import java.util.HashSet;
/**
* 已訪問url佇列
* @author zhuGe
*
*/
public class VisitedUrlQueue
{
public static HashSet<String> visitedUrlQueue = new HashSet<String>();
public synchronized static void addElem(String url)
{
visitedUrlQueue.add(url);
}
public synchronized static boolean isContains(String url)
{
return visitedUrlQueue.contains(url);
}
public synchronized static int size()
{
return visitedUrlQueue.size();
}
}

4.頁面分析器同樣採用jsoup（2和4分開方便後期維護管理，只獲取了網站標題,可以定製）

package com.search.split;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
public class PageTitle {
public static String printTitle(Document doc){
Elements title = doc.getElementsByTag("title");
return title.text();
}
}

5.儲存器使用輸出流輸出資料生成html頁面 6.任務分發器配合多執行緒提升效率（加入和深度篩選控制深度優先）

package com.search.tread;
import java.io.BufferedWriter;
import java.io.FileWriter;
import java.io.IOException;
import java.util.Set;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import com.search.split.HrefOfPage;
import com.search.split.PageTitle;
import com.search.sprider.Sprider;
import com.search.url.UrlQueue;
import com.search.url.VisitedUrlQueue;
import com.search.util.Depth;
/**
* @author zhuGe
* @data 2016年1月17日
*/
public class UrlTread implements Runnable{
@Override
public void run() {
while(!UrlQueue.isEmpty()){
String url = UrlQueue.outElem();
System.out.println("移除"+url);
String context = null;
if(!VisitedUrlQueue.isContains(url)){
context = Sprider.get(url);
}
if(context!=null){
//訪問過的連結
addHref(context,url);
}
VisitedUrlQueue.addElem(url);
}
}
/**
* @see 獲取連結並輸出標題
* @param context
* @param url
*/
public void addHref(String context,String url){
Document doc = Jsoup.parse(context);
//獲取所有連結
Set<String> hrefSet = HrefOfPage.printHref(doc);
//獲取網站標題
String title = PageTitle.printTitle(doc);
System.out.println(Thread.currentThread().getName());
String html =("<li><a href='"+url+"'>"+title+"</a></li>\n");
//新增檔案到輸出物件
outFile(html);
System.out.println(html);
//進行深度篩選
if(hrefSet!=null){
hrefSet = Depth.depth(hrefSet, 1);
}
//將連結新增進待訪問佇列
for (String string : hrefSet) {
if(!VisitedUrlQueue.isContains(string)){//判斷是否已被訪問
System.out.println("加入佇列"+string);
UrlQueue.addElem(string);
}else{
System.out.println("重複"+string);
}
}
}
public void outFile(String html){
try {
@SuppressWarnings("resource")
BufferedWriter out = new BufferedWriter(new FileWriter("d://test.html",true));
out.write(html);
out.flush();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}

其他擴充套件

深度控制器

package com.search.util;
import java.util.HashSet;
import java.util.Set;
/**
* @see 篩選連結的深度
* @author zhuGe
*
*/
public class Depth {
/**
*
* @param hrefSet 注入需要控制深度的連結
* @param depth 篩選滿足深度的連結
*/
public static Set<String> depth(Set<String> hrefSet,int depth){
Set<String> deptahHrefSet=null;
if(deptahHrefSet==null){
deptahHrefSet = new HashSet<String>();
}
deptahHrefSet.clear();
String[] str = null;
for (String href : hrefSet) {
str = href.split("/");
//連結深度
int idepth = str==null?0:str.length-2;
//
//System.out.println(href+" [深度:"+idepth+"]");
if(idepth<=depth){
//去除最後的反斜槓
if(href.lastIndexOf("/")==href.length()-1){
deptahHrefSet.add(href.substring(0, href.length()-1));
}else{
deptahHrefSet.add(href);
}
}
}
return deptahHrefSet;
}
}

啟動入口（‘加入睡眠防止開啟時連結數目過少導致執行緒沒有獲取任務“）

package com.search.control;
import com.search.tread.UrlTread;
import com.search.url.UrlQueue;
public class controlCentre {
public static void main(String[] args) {
UrlQueue.addElem("http://www.ifanr.com");
UrlQueue.addElem("http://www.leiphone.com");
UrlQueue.addElem("http://www.huxiu.com");
UrlTread[] t = new UrlTread[8];
for(int i=0;i<t.length;i++){
t[i] = new UrlTread();
try {
Thread.sleep(2000);
} catch (InterruptedException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
new Thread(t[i],"蜘蛛人："+i+"號").start();
}
//
}
}

程式碼還有待優化(這只是簡單爬蟲實現的基礎，不過理論上他已經可以爬取整個網際網路了) ，原始碼下載可以郵箱留言

簡單的java爬蟲實現

去年中旬開始接觸爬蟲一直都是淺顯帶過期間也寫過知乎爬蟲和科技網站定向抓取及爬取整個網際網路的爬蟲今天和大家分享一下第三個及其實現方式和程式碼早期的實現想法附程式碼關於爬蟲其實理論上很簡單

Struts2基礎-1- 簡單java類實現Action控制器

tex rep 初始 font 實例 fig 一個返回結果 action Strut2中，Action可以不繼承任何特殊的類或不實現任何特殊的接口，可以只編寫一個普通的Java類作為Action類，只要該類含有一個返回字符串的無參的public方法即可！實際開發中，通常繼

一篇關於java爬蟲實現的技術分享

最近由於工作的需要，獨自開始研究爬蟲爬取網際網路資料；經過兩週左右的探究，踩過許多坑，也學習到了許多以往不知道的知識。一直都在做伸手黨，很是慚愧_(:_」∠)_感覺都要臉紅了☺，在這裡總結一下經驗，順便分享給大家，希望可以幫助到有需要的朋友。爬蟲技術不是很成熟，如果能有大佬能

【Python】簡單網路爬蟲實現

引言網路爬蟲（英語：web crawler），也叫網路蜘蛛（spider），是一種用來自動瀏覽全球資訊網的網路機器人。其目的一般為編纂網路索引。 --維基百科網路爬蟲可以將自己所訪問的頁面儲存下來，以便搜尋引擎事後生成索引供使用者搜尋。一般有兩個步驟：1.獲取網頁內

簡單Python爬蟲實現（二）

目的：從百度百科python頁抓取相關超連結的詞條，輸出到html中程式的主要目錄為主函式 from test import url_manager from test import html_downloader from test import html_p

http程式設計系列（二）——java爬蟲實現刷個人部落格的訪問量

實現功能這裡實現的功能是一個根據個人部落格主頁，搜尋出所有的個人博文連結，然後一個一個去訪問，從而增加訪問量。這裡我發現一個問題，csdn既沒有做介面ip訪問量的限制，訪問量統計時也沒有做同一ip相同時間段的重複訪問重複計數的處理。這也時這個程式能夠刷訪問量的原因。思路

java爬蟲實現百度地圖資料爬取

本次專案主要實現百度地圖地點檢索功能的資料爬取，可以獲得檢索的相關資訊。主要是採用百度地圖API介面實現，採用的是servlet，資料庫採用的是mybatis。話不多說，上程式碼。1.DAO層資料package dao;import java.util.List;import

APP利用token機制進行身份認證（理解token機制+簡單Java程式碼實現）

什麼是token token的意思是令牌，想象一下用過的qq令牌，是來自（騰訊）服務端生成的一串字元，作為客戶端（我們自己）進行請求的一個標識。比如說：改qq密碼。而這裡我們是自己開發App，我們的使用者用token請求登入，我們對他進行身份認證。當用戶第一

Java基於httpclient獲取網頁資料，實現簡單網路爬蟲

1、pom檔案引入httpclient依賴 <dependency> <groupId>org.apache.httpcompon

Java爬蟲學習:利用HttpClient和Jsoup庫實現簡單的Java爬蟲程式

利用HttpClient和Jsoup庫實現簡單的Java爬蟲程式 HttpClient簡介 HttpClient是Apache Jakarta Common下的子專案，可以用來提供高效的、最新的、功能豐富的支援HTTP協議的客戶端程式設計工具包，並且它支

Java爬蟲-使用HttpClient+Jsoup實現簡單的爬蟲爬取文字

##一、工具介紹 HttpClient是Apache Jakarta Common下的子專案，用來提供高效的、最新的、功能豐富的支援HTTP協議的客戶端程式設計工具包，並且它支援HTTP協議最新的版本和建議。HttpClient已經應用在很多的專案中，比如A

java實現的簡單網頁爬蟲：Servlet 搜尋引擎核心爬蟲程式（三）

/** * * @author Administrator * * JavaSpider 1.6 版本 * * 1，對所有的目標網址進行抽取，得到目標java檔案，也就是我們需要的java原始檔； * 2，將所有的java原始檔儲存到對應的java檔案中

JPush簡單Java服務端案例實現

服務端開發者 comm platform die spa message else 獲取數據一、激光推送準備工作 1、註冊極光推送開發者賬號，創建應用: 2、完成推送設置，填寫應用名提交生成安裝包： 3、掃碼安裝簡單的測試apk，查看應用信息會有AppKey和Mas

Java 簡單的RPC 實現

com java多態 http 技術 images object ice ima framework 借用了網上某大神的例子。。。。目錄結構是這樣的。。。 RpcFramework 主要是兩個方法。一個是暴露服務，一個為引用服務。暴露服務的主要作用是聲明一個接口的實現類。

python實現簡單圖片爬蟲並保存

.com 貪婪模式 web頁面 logs urn 並不是 python 保存 light 先po代碼 #coding=utf-8 import urllib.request #3之前的版本直接用urllib即可，下同 #該模塊提供了web頁面讀取數據的接口，使得我們可以

爬蟲基礎知識與簡單爬蟲實現

春秋屬性 str 版本 page 2017年 light install defaults css規則：選擇器，以及一條或者多條生命。 selector{declaration1;,,,;desclarationN} 每條聲明是由一個屬性和一個值組成 propert

java Socket實現簡單在線聊天（一）

結合線程 java.awt exc iss order 新建 exception connect border 出處：http://blog.csdn.net/tuzongxun 最近的項目有一個在線網頁交流的需求，由於很久以前做過的demo已經忘記的差不多了，因此便重新學

SOCKET簡單爬蟲實現代碼和使用方法

apple 頭信息 cti 實例組元目錄 agent uniq nec 抓取一個網頁內容非常容易，常見的方式有curl、file_get_contents、socket以及文件操作函數file、fopen等。下面使用SOCKET下的fsockopen()函數訪問W

matlab學習 — 實現簡單的爬蟲

mage data- imwrite read dai div 小寫 ranking 解析　　這裏復雜的情況暫時不考慮。。測試網址為pixiv的每日排行榜 = = url = ‘https://www.pixiv.net/ranking.php?mode=daily

Golang 簡單爬蟲實現，爬取小說

為什麼要使用Go寫爬蟲呢？對於我而言，這僅僅是練習Golang的一種方式。所以，我沒有使用爬蟲框架，雖然其很高效。為什麼我要寫這篇文章？將我在寫爬蟲時找到資料做一個總結，希望對於想使用Golang寫爬蟲的你能有一些幫助。爬蟲主要需要解決兩個問題：獲取網頁解析網頁如果這

簡單的java爬蟲實現

相關推薦