java網路程式設計____最簡單的爬蟲(爬取網站美女圖片)

阿新 • • 發佈：2019-01-07

package com.company.reptile;

import java.io.BufferedReader;
import java.io.DataInputStream;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;


/***
 * @author God
 * @see java抓取網站 美女圖片
 * @info 一個簡單的爬蟲 不涉及廣度優先和深度優先  僅僅做為理解
 */
public class JavaReptileUtil {
	
	// 地址
	private static final String WEB_SITE = "http://www.4493.com";
	// 獲取img標籤正則
	private static final String IMAGE_TAG_REG = "<img.*src=(.*?)[^>]*?>";
	// 獲取src路徑的正則
	private static final String IMAGE_SRC_REG = "http:\"?(.*?)(\"|>|\\s+)";
	/**
	 * 測試小爬蟲
	 * @param args
	 * @throws Exception 
	 */
	public static void main(String[] args) throws Exception {
		// 1.獲取美女圖片官網地址
		String htmlInfo = getHtmlInfo(WEB_SITE);
		//獲取圖片url連結地址
		List<String> imageSrc = getImageSrc(htmlInfo);
		//下載美女圖片
		downloadImage(imageSrc);
		
	}
	/**
	 * 解析html頁面
	 * @param host
	 * @return
	 * @throws Exception
	 */
	public static String getHtmlInfo(String host) throws Exception{
		URL url=new URL(host);
		URLConnection urlConnection = url.openConnection();
		BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(urlConnection.getInputStream()));
		String buffer=null;
		StringBuffer sbf=new StringBuffer();
		while((buffer=bufferedReader.readLine())!=null){
			sbf.append(buffer);
		}
		return sbf.toString();
	}
	
	/**
	 * 解析所有的image標籤文的src屬性
	 * @param args
	 * @throws Exception
	 */
	public static List<String> getImageSrc(String htmlInfo){
		Matcher matcher_image = Pattern.compile(IMAGE_TAG_REG).matcher(htmlInfo);
		List<String> imageSrc = new ArrayList<String>();
		while (matcher_image.find()) {
			Matcher matcher_src = Pattern.compile(IMAGE_SRC_REG).matcher(matcher_image.group());
			while (matcher_src.find()) {
				imageSrc.add(matcher_src.group().substring(0, matcher_src.group().length() - 1));
			}
		}
		return imageSrc;
	}
	
	/**
	 * 下載爬到的url連結
	 * @param imageSrc
	 * @throws Exception 
	 */
	public static void downloadImage(List<String> imageSrc) throws IOException {
		for (String src : imageSrc) {
			URL url =null;
			try {
				url = new URL(src);
			} catch (IOException e) {
				continue;
			}
			// 下在資源
			DataInputStream dataInputStream = new DataInputStream(url.openStream());
			FileOutputStream fileOutputStream = new FileOutputStream(new File("F:\\beauty\\" + NetUtil.getStrName(src)));
			byte[] bytes = new byte[1024];
			int length = 0;
			while ((length = dataInputStream.read(bytes)) != -1) {
				fileOutputStream.write(bytes, 0, length);
				System.out.println("下載中....");
			}
			System.out.println("下載完成...");
			dataInputStream.close();
			fileOutputStream.close();
		}
	}
    
}

package com.company.reptile;

public class NetUtil {
	
    /**
     * 獲取url連結的圖片名稱
     * @param url
     * @return
     */
    public static String getStrName(String url) {  
        String[] sarry = url.split("/");  
        return sarry[sarry.length - 1];  
    }  
}

//執行結果

//圖片

java網路程式設計____最簡單的爬蟲(爬取網站美女圖片)

package com.company.reptile; import java.io.BufferedReader; import java.io.DataInputStream; import java.io.File; import java.io.FileOutpu

Python簡單爬蟲爬取多頁圖片

初學爬蟲簡單的爬了爬貼吧圖片 #!/usr/bin/python # coding utf-8 import re import time import urllib def getHtml():

python3多執行緒爬蟲爬取某美女圖片網站的指定頁圖片資源，你懂的

Queue（佇列物件） queue是python3中的標準庫，可以直接import queue引用;佇列是執行緒間最常用的交換資料的形式。 python下多執行緒的思考對於資源，加鎖是個重要的環節。因為python原生的list,dict等，都是not

Java實現簡單爬蟲爬取天氣預報

爬蟲爬取網頁的主要流程是： 1.向目標網頁發起請求； 2.對於獲取到的html檔案進行解析； 3.對解析後的資料進行儲存。本次主要是爬取全國城市未來7天的天氣預報，爬取物件為中國天氣網，爬取的資料存入文字中。對於html檔案的解析採用Jsoup結合正則表示式。地區程

C# 網路程式設計之最簡單瀏覽器實現

最近學習C#網路程式設計的HTTP協議程式設計，HTTP即Hypertext Transfer Protocol的縮寫，意為：超文字傳輸協議。其中與HTTP相關的知識主要有六個類的知識，分

PHP簡單爬蟲爬取免費代理ip 一萬條

img mys i++ .com log mage top100 dai code 目標站：http://www.xicidaili.com/ 代碼： <?php require ‘lib/phpQuery.php‘; require ‘lib/QueryList.

java爬蟲爬取網站資訊儲存資料庫

需求分析 1：爬取虎嗅首頁獲取首頁文章地址：https://www.huxiu.com/ 2：爬取虎嗅分頁地址，獲取分頁上的文章地址。 3：爬取文章詳情頁,獲取文章資訊（標題、正文、作者、釋出時間、評論數、點贊數、收藏數）。 4：將爬到的文章資訊入庫。實現思路 1：爬首頁

Python3 大型網路爬蟲實戰 003 — scrapy 大型靜態圖片網站爬蟲專案實戰 — 實戰：爬取 169美女圖片網高清圖片

開發環境 Python第三方庫：lxml、Twisted、pywin32、scrapy Python 版本：python-3.5.0-amd64 PyCharm軟體版本：pycharm-professional-2016.1.4 電腦系統：Wi

Java爬蟲爬取網站電影下載連結

之前有看過一段時間爬蟲，瞭解了爬蟲的原理，以及一些實現的方法，本專案完成於2017年初，一直放在那裡，現在和大家分享出來。網路爬蟲簡單的原理就是把程式想象成為一個小蟲子，一旦進去了一個大門，這個小蟲子就像進入了新世界一樣，只要符合他的口味的東西就會放在自己的袋子裡，但是他還不

java爬蟲爬取網站資料例項

WebSite web = new WebSite（“https://www.bdqnhyq.com”）;<fo

手把手教你利用前端字型檔案(.ttf)混淆數字來阻止爬蟲爬取網站資料

先上一張效果圖假如正確的數字是321456 這時候使用者看到的就是對的而爬蟲在抓取資料的時候抓到得是123456 混淆了數字怎麼實現呢？工具： 1、FontCreator （中文漢化破解版）當然英語好或者土豪的可以無視 2、做好的字型圖片步

Python爬蟲——爬取網站的例項化原始碼

缺點：1爬了一個網站好幾次以後不能再進行爬取。沒有解決這個問題 2在寫入資料的時候還是存在很大問題。以後多加練習這個檔案的儲存的相關工作 import re import urllib.request def function(): """需求：1 https://re

使用python爬蟲——爬取淘寶圖片和知乎內容

本文主要內容：目標：使用python爬取淘寶圖片；使用python的一個開源框架pyspider（非常好用，一個國人寫的）爬取知乎上的每個問題，及這個問題下的所有評論最簡單的爬蟲——如下python程式碼爬取淘寶上模特圖片爬

Python使用BeautifulSoup簡單實現爬取妹子mm圖片--初級篇

先來個效果截圖（屈服在我的淫威之下吧！壞壞...嘿0.0）因為是簡易版而且是自己寫著玩玩而已，自己也剛學，亦是筆記亦是分享，大佬輕噴就好。主要目的是希望更多人能夠體驗爬取一些seqing圖片的快樂？？哈哈完整程式碼：文末已貼出應該安裝個bs4的包就可

Python爬蟲爬取網站上的圖片

python爬蟲爬取百度圖片

爬蟲爬取百度圖片因公司業務需要，而且公司人手不足，我這個測試工程師需要臨時客串一下其他職位，所以，由我來爬取百度圖片。說明 1、最近稍微有點兒忙，沒顧得上整理。而且程式碼量比較少，所以註釋比較少。 2、如果需要直接使用我的程式碼，請將相應路徑檔名稱更改。具體

python爬蟲爬取好看的圖片

遇到好看的圖片你還在一張張用滑鼠點選儲存？作為一個IT從業者那就out了。。。必須高大上起來今天給大家介紹如何用爬蟲爬取好看的圖片，話不多說，開始。。。。。首先小夥伴們需要確保自己已經安裝了python和pip，並且已經配置好了環境變數，接下來需要安裝今天所用到的第

Python爬蟲爬取網站新聞

網站分析爬取過程獲取新聞連結地址使用requests包讀取新聞列表頁面，然後使用正則表示式提取出其中的新聞頁面連結，返回urls列表 def getList(url): li = requests.get(url) re

用python爬蟲爬取網頁桌布圖片（彼岸桌面網唯美圖片）

今天想給我的電腦裡面多加點桌布，但是嫌棄一個個儲存太慢，於是想著寫個爬蟲直接批量爬取，因為爬蟲只是很久之前學過一些，很多基礎語句都不記得了，於是直接在網上找了個有基礎操作語句的爬蟲程式碼，在這上面進行修改以適應我的要求和爬取的網頁需求注意：這次爬取的

python，爬蟲爬取網頁的圖片，基礎改善版

突然發現樣式太坑，還要爬取在css裡面，寫了個基礎的，解決下朋友的問題 import string import urllib.request import re import os import urllib # 根據給定的網址來獲取網頁詳細資訊，得到的

java網路程式設計____最簡單的爬蟲(爬取網站美女圖片)

相關推薦