利用HttpClient和HtmlParser構造簡單爬蟲

阿新 • • 發佈：2019-01-22

/**
 * 爬蟲主方法入口類
 * @author Qing
 *
 */
public class Clawler {
	/**
	 * 用種子url初始化url佇列
	 * @param seeds
	 */
	 private void initCrawlerWithSeeds(String[] seeds){
		 for(int i = 0; i < seeds.length; i ++){
			 LinkDB.addUnvisitedUrl(seeds[i]);
		 }
	 }
	 public void crawling(String[] seeds){
		 LinkFilter filter = new LinkFilter(){
			 //:http://club.xdnice.com/
			 public boolean accept(String url){
				 if(url.startsWith("http://club.xdnice.com/"))
					 return true;
				 else
					 return false;
			 }
		 };
		 //初始化url佇列
		 initCrawlerWithSeeds(seeds);
		 //visit的url的最大值，並且未訪問的url集不為空
		 while(!LinkDB.unVisitedUrlIsEmpty() && LinkDB.getVisitedUrlNum() <= 10){
			 //隊列出隊一個url
			 String visitUrl = LinkDB.unVisitedUrlDeQueue();
			 if(visitUrl == null){
				 continue;
			 }
			 //下載網頁
			 FileDownLoader fdloader = new FileDownLoader();
			 fdloader.downloadFile(visitUrl);
			 //加入已訪問列表
			 LinkDB.addVisitedUrl(visitUrl);
			 //提取url
			 Set<String> links = HtmlParserTool.extracLinks(visitUrl,filter);
			 for(String link: links){
				 LinkDB.addUnvisitedUrl(link);
			 }
			 
		 }
	 }

FileDownLoader是一個利用HttpClient將網頁的位元組下載到本地，負責網頁下載的物件

/**
 * 網頁下載類
 * @author Qing
 *
 */
public class FileDownLoader {
	/**
	 * 根據url和網頁型別生成需要儲存的網頁中文名，去除url中非檔名字元
	 * @param url
	 * @param contentType
	 * @return
	 */
	public String getFileNameByUrl(String url,String contentType){
		url = url.substring(7);//移除http://
		if(contentType.indexOf("html") != -1){//html
			url = url.replaceAll("[\\?/:*|<>\"]","_");//去掉url中非檔名字元生成檔名
			return url;
		}
		else{
			return url.replaceAll("[\\?/:*|<>\"]","_")+"." + contentType.substring(contentType.lastIndexOf("/")+1);
		}
	}
	/**
	 * 儲存網頁位元組陣列到本地檔案
	 * @param data
	 * @param filePath
	 */
	public void saveToLocal(String data,String filePath){
		try{
			DataOutputStream out = new DataOutputStream(new FileOutputStream(new File(filePath)));
			out.writeUTF(data);//write in utf-8
			out.flush();
			out.close();
		}catch(Exception e){
			e.printStackTrace();
		}
	}
	/**
	 * 下載url網頁
	 * @param url
	 * @return
	 */
	public String downloadFile(String url){
		UrlEncodedFormEntity uefEntity;
		String filePath = null;
		CloseableHttpClient httpclient = HttpClients.createDefault();
		try{
			HttpGet httpget = new HttpGet(url);
			List<NameValuePair> params = new ArrayList<NameValuePair>();
			String str = EntityUtils.toString(new UrlEncodedFormEntity(params, Consts.UTF_8));
			httpget.setURI(new URI(httpget.getURI().toString() +"?" + str));
			
			//執行get請求
			CloseableHttpResponse response = httpclient.execute(httpget);
			//獲取響應實體
			HttpEntity entity = response.getEntity();
			
			filePath = "temp/"+ getFileNameByUrl(url,response.getFirstHeader("Content-Type").getValue());
			saveToLocal(EntityUtils.toString(entity),filePath);
		}catch(Exception e){
			e.printStackTrace();
		}
		return filePath;
		
	}

HtmlParserTool利用HtmlParser對網頁進行過濾，過濾出符合條件的連結

/**
 *分析網頁獲取連結類
 * @author Qing
 *
 */
public class HtmlParserTool {
	/**
	 * 獲取一個網站上的連結，filter用來過濾連結
	 * @param url
	 * @param filter
	 * @return
	 */
	public static Set<String> extracLinks(String url,LinkFilter filter){
		Set<String> links = new HashSet<String>();
		try{
			Parser parser = new Parser(url);
			parser.setEncoding("gb2312");
			//過濾<frame>標籤的filter
			NodeFilter frameFilter = new NodeFilter(){

				@Override
				public boolean accept(Node node) {
					if(node.getText().startsWith("frame src=")){
						return true;
					}
					// TODO Auto-generated method stub
					return false;
				}
				
			};
			//OrFilter設定過濾<a><frame>標籤，or關係
			OrFilter linkfilter = new OrFilter(new NodeClassFilter(LinkTag.class),frameFilter);
			NodeList list = parser.extractAllNodesThatMatch(linkfilter);
			for(int i = 0; i < list.size(); i++){
				Node tag = list.elementAt(i);
				if(tag instanceof LinkTag){
					LinkTag link = (LinkTag) tag;
					String linkUrl = link.getLink();
					if(filter.accept(linkUrl)){
						links.add(linkUrl);
					}
				}
				else{
					String frame = tag.getText();
					int start = frame.indexOf("src=");
					frame = frame.substring(start);
					int end = frame.indexOf(" ");
					if(end == -1){
						end = frame.indexOf(">");
					}
					frame = frame.substring(5, end -1);
					if(filter.accept(frame)){
						links.add(frame);
					}
				}
			}
	}catch(Exception e){
		e.printStackTrace();
	}
		return links;
	}

LinkDB負責管理未訪問的連結的集合，和未訪問的連結的佇列

public class LinkDB {
	private static Set<String> visitedUrl = new HashSet<String>();
	private static Queue<String> unVisitedUrl = new ArrayDeque<String>();

LinkFilter是一個Filter介面，實現了accept(String url）方法，因為NodeFilter只能實現accept(Node node)

public interface LinkFilter {
	public boolean accept(String url);

}

利用HttpClient和HtmlParser構造簡單爬蟲

/** * 爬蟲主方法入口類 * @author Qing * */ public class Clawler { /** * 用種子url初始化url佇列 * @param seeds */ private void initCrawlerWit

使用 HttpClient 和 HtmlParser 實現簡易爬蟲

HttpClient 與 HtmlParser 簡介本小結簡單的介紹一下 HttpClinet 和 HtmlParser 兩個開源的專案，以及他們的網站和提供下載的地址。 HttpClient 簡介 HTTP 協議是現在的因特網最重要的協議之一。除了 WEB 瀏覽器之

Java爬蟲學習:利用HttpClient和Jsoup庫實現簡單的Java爬蟲程式

利用HttpClient和Jsoup庫實現簡單的Java爬蟲程式 HttpClient簡介 HttpClient是Apache Jakarta Common下的子專案，可以用來提供高效的、最新的、功能豐富的支援HTTP協議的客戶端程式設計工具包，並且它支

Java爬蟲--利用HttpClient和Jsoup爬取部落格資料並存入資料庫

由於今日頭條等頭條類產品的出現，以今日頭條為代表所使用的爬蟲技術正在逐漸火熱，在爬蟲領域具有良好效能和較好效果的Python在最近一年的時間裡逐漸火熱起來，同時因為Python良好的資料分析和機器學習的能力，Python的應用越來越廣泛。不過，今天我們要提到

利用Express和ejs編寫簡單頁面

light logs 開發 ges 下載 highlight 視圖 script dem 1、創建臨時文件夾ejsdemo $ mkdir ejsdemo　 2、進入ejsdemo 初始化項目 $ npm init 3、安裝express　　 $ npm

node 利用http和cheerio編寫簡易爬蟲

trim -s 監聽 fin this init utf8 爬蟲簡易爬蟲首先cnpm init創建一個package.json 引入cheerio模塊 cnpm install --save cheerio 然後開始編寫代碼 let cheerio = requi

用HttpClient和用HttpURLConnection做爬蟲發現爬取的程式碼少了的問題

最近在學習用java來做爬蟲但是發現不管用那種方式都是爬取的程式碼比網頁的原始碼少了很多在網上查了很多都說是inputStream的緩衝區太小而爬取的網頁太大導致讀取出來的網頁程式碼不完整，但是後面發現並不是這個問這個是用HttoClient所作的public static String getH

HttpClient和HtmlParser配合實現自動CAS單點登入系統抽取頁面資訊

httpclient下載地址：http://mirror.bit.edu.cn/apache//httpcomponents/httpclient/binary/httpcomponents-client-4.5.1-bin.zip 專案中引入所有的jar包，然後看下面的

利用httpclient和mysql模擬搜尋引擎

資料抓取模組 package crowling1; import java.sql.CallableStatement; import java.sql.Connection; import java.sql.DriverManager; import j

利用httpClient和htmlParse獲取網頁iframe資料

public static void main(String[] args) { HttpClient client = new HttpClient(); HttpMethod method = new GetMethod("http://www.ln.

SOCKET簡單爬蟲實現代碼和使用方法

apple 頭信息 cti 實例組元目錄 agent uniq nec 抓取一個網頁內容非常容易，常見的方式有curl、file_get_contents、socket以及文件操作函數file、fopen等。下面使用SOCKET下的fsockopen()函數訪問W

day023正則表示式，re模組，簡單爬蟲和多頁面爬蟲（幹掉數字簽名證書驗證）

本節內容： 1、正則表示式 2、re模組的運用 3、簡單的爬蟲練習一、正則表示式(Regular Expression) 正則表示式是對字串操作的⼀種邏輯公式. 我們⼀般使⽤正則表示式對字串進⾏匹配和過濾. 使⽤正則的優缺點: 優點: 靈活, 功能性強, 邏輯性強. 缺點: 上⼿難. ⼀旦上⼿, 會愛

爬蟲之利用字典推導式構造請求頭

a = '''Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8Accept-Encoding:gzip, deflateAccept-Language:zh-CN,zh;q=

利用selenium和python 爬蟲網站程式碼

利用selenium和python寫的程式： from selenium import webdriver import os br = webdriver.Chrome() br.get("https://www.zymk.cn/2/") br.maximize_window() def cl

習題：任意輸入十個數按大小排序；構造簡單數學運算模組（形參和實參）

任意輸入十個數字，按從大到小的順序排列設定減法運算模組：設定乘除法混合運算模組 int num = 3*chufa(num1, num2,num3); 這裡有這句指令，將該結果擴大三倍，40->120 *通過上面兩個程式引出形參和實參的概念：通俗的來講，

TensorFlow筆記（3）——利用TensorFlow和MNIST資料集訓練一個最簡單的手寫數字識別模型

前言當我們開始學習程式設計的時候，第一件事往往是學習列印"Hello World"。就好比程式設計入門有Hello World，機器學習入門有MNIST。 MNIST是一個入門級的計算機視覺資料集，它包含各種手寫數字圖片：它也包含每一張圖片對應的標籤，告訴我們這個是數字幾。比如，上

利用fopen,fwrite,fclose,fgetcsv簡單的留言本釋出和讀取功能

index.html <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>留言本</titl

利用scrapy框架實現一個簡單的爬蟲專案

首先簡單介紹一下什麼是scrapy框架？具體詳情見百科！！！總之，scrapy是一個用於python開發抓取網站網頁的框架，更加通俗的講就是爬蟲框架！！！下面就是利用scrapy爬取web的一個小專案： import scrapy class BooksSpi

利用ES6中的Proxy和Reflect 實現簡單的雙向數據綁定

prope tlist lec ntb col lis pan pro ref 利用ES6中的Proxy (代理) 和 Reflect 實現一個簡單的雙向數據綁定demo。好像vue3也把 obj.defineProperty() 換成了Proxy+Reflect。

從第一個爬蟲建立起做蟲師的心，request物件，簡單使用，構造簡單的裝置請求頭，爬蟲簡單案例篇（2）

from urllib.request import urlopen from urllib.request import Request url ='http://www.baidu.com/' h

利用HttpClient和HtmlParser構造簡單爬蟲

相關推薦