Java爬蟲

阿新 • • 發佈：2017-10-13

catch splay 保存圖片 lan current array .cn image aps

作為一位Java爬蟲的初學者，分享一下自己的心得。
所用到的jar包

org.codehaus.jettison.jar

jsoup-1.7.3.jar

個人認為爬蟲的實現機制：
獲取Docume對象—>獲取節點—>輸出或者持久化

獲取頁面的圖片地址

獲取Docume對象—>獲取Img元素—>輸出地址

 1 package com.cn.basic;
 2 
 3 import java.io.IOException;
 4 import org.jsoup.Jsoup;
 5 import org.jsoup.nodes.Document;
 6 import org.jsoup.nodes.Element;
 
 7 import org.jsoup.select.Elements;
 8 
 9 public class ImageDemo1 {
10 
11     public static void Get_Url(String htmlUrl, String path) {
12 
13         try {
14             Document doc = Jsoup.connect(htmlUrl).get();
15 
16             Element body = doc.body();
17             Elements elements = body.select("img");
 
18 
19             String src = "";
20             for (Element element : elements) {
21 
22                 src = element.attr("src");
23 
24                 System.out.println(path + src);
25 
26             }
27 
28             System.out.println("elements-size: " + elements.size());
29 
30         } catch 
 (IOException e) {
31             e.printStackTrace();
32         }
33 
34     }
35 
36     public static void main(String[] args) {
37 
38         String url = "http://pic.netbian.com/4kkatongdongman/index_2.html";
39         String path = "http://pic.netbian.com";
40         Get_Url(url, path);
41 
42     }
43 
44 }

View Code

將圖片寫入本地

獲取Docume對象—>獲取Img元素—>將圖片保存本地

  1 package com.cn.basic;
  2 
  3 import java.io.ByteArrayOutputStream;
  4 import java.io.File;
  5 import java.io.FileOutputStream;
  6 import java.io.IOException;
  7 import java.io.InputStream;
  8 import java.net.HttpURLConnection;
  9 import java.net.URL;
 10 import java.util.Date;
 11 
 12 import org.jsoup.Jsoup;
 13 import org.jsoup.nodes.Document;
 14 import org.jsoup.nodes.Element;
 15 import org.jsoup.select.Elements;
 16 
 17 public class ImageDemo2 {
 18 
 19     public static void saveImage(String htmlUrl, String path) {
 20 
 21         try {
 22             Document doc = Jsoup.connect(htmlUrl).get();
 23             Element body = doc.body();
 24             Elements elements = body.select("img");
 25             
 26             String outputFilePath="E:/pythonTest/javaPython/imgs/";
 27             String src = "";
 28 
 29             HttpURLConnection conn = null;
 30             InputStream inStream = null;
 31             byte[] data = null;
 32             String filePath = null;
 33             FileOutputStream outStream = null;
 34             
 35             Long startTime=new Date().getTime();
 36             
 37             for (Element element : elements) {
 38 
 39                 src = element.attr("src");
 40 
 41                 System.out.println(path + src);
 42                 // new一個URL對象
 43 
 44                 if (!src.contains(".jpg")) {
 45                     continue;
 46                 }
 47 
 48                 URL url = new URL(path + src);
 49                 // 打開鏈接
 50                 conn = (HttpURLConnection) url.openConnection();
 51                 // 設置請求方式為"GET"
 52                 conn.setRequestMethod("GET");
 53                 // 超時響應時間為5秒
 54                 conn.setConnectTimeout(5 * 1000);
 55                 // 通過輸入流獲取圖片數據
 56                 inStream = conn.getInputStream();
 57                 // 得到圖片的二進制數據，以二進制封裝得到數據，具有通用性
 58                 data = readInputStream(inStream);
 59                 // new一個文件對象用來保存圖片，默認保存當前工程根目錄
 60                 filePath = outputFilePath + System.currentTimeMillis() + ".jpg";
 61                 // 創建輸出流
 62                 outStream = new FileOutputStream(new File(filePath));
 63                 // 寫入數據
 64                 outStream.write(data);
 65                 // 關閉輸出流
 66                 outStream.close();
 67 
 68             }
 69             System.out.println(elements.size());
 70             System.out.println("讀寫速度："+(new Date().getTime()-startTime)+"毫秒");
 71             
 72 
 73         } catch (IOException e) {
 74             e.printStackTrace();
 75         } catch (Exception e) {
 76             e.printStackTrace();
 77         }
 78 
 79     }
 80 
 81     public static byte[] readInputStream(InputStream inStream) throws Exception {
 82         ByteArrayOutputStream outStream = new ByteArrayOutputStream();
 83         // 創建一個Buffer字符串
 84         byte[] buffer = new byte[1024];
 85         // 每次讀取的字符串長度，如果為-1，代表全部讀取完畢
 86         int len = 0;
 87         // 使用一個輸入流從buffer裏把數據讀取出來
 88         while ((len = inStream.read(buffer)) != -1) {
 89             // 用輸出流往buffer裏寫入數據，中間參數代表從哪個位置開始讀，len代表讀取的長度
 90             outStream.write(buffer, 0, len);
 91         }
 92         // 關閉輸入流
 93         inStream.close();
 94         // 把outStream裏的數據寫入內存
 95         return outStream.toByteArray();
 96     }
 97 
 98     public static void main(String[] args) {
 99         String url = "http://pic.netbian.com/4kkatongdongman/index_2.html";
100         String path = "http://pic.netbian.com";
101         saveImage(url, path);
102     }
103 
104 }

View Code

Java爬蟲

JAVA爬蟲Nutch、WebCollector的正則約束

pre 掃描 utc href inf tracking script nutch rac 爬蟲爬取時，須要約束爬取的範圍。基本全部的爬蟲都是通過正則表達式來完畢這個約束。最簡單的，正則： http://www.xinhuanet.com/.*代表"http://w

Java爬蟲工程師技能列表【轉】

引擎 gin ans acl -h 挖掘 soup dns ora 掌握一半便能夠熟練的開發爬蟲玩了。自己正在努力中... 一、技能列表、掌握java、尤其編程網絡部分；李剛的java基礎至少看了三遍以上； 2、熟悉html、js、 ajax、firedebug3、網

java爬蟲一（分析要爬取數據的網站）

java爬蟲一、獲取你想要抓取的網站地址：http://www.zhaopin.com/然後打開控制臺，F12，打開。我用的是Chrome瀏覽器，跟個人更喜歡Chrome的控制臺字體。找到搜索欄對應的html標簽：http://sou.zhaopin.com/jobs/searchresult.ashx?jl

Java爬蟲

catch splay 保存圖片 lan current array .cn image aps 作為一位Java爬蟲的初學者，分享一下自己的心得。所用到的jar包 org.codehaus.jettison.jar jsoup-1.7.3.jar個人認為爬蟲的實現機制

爬蟲入門手寫一個Java爬蟲

fun sts 重試功能 bool 內核 ftw private 查找本文內容淶源於羅剛老師的書籍 << 自己動手寫網絡爬蟲一書 >> ; 本文將介紹 1: 網絡爬蟲的是做什麽的? 2: 手動寫一個簡單的網絡爬蟲; 1: 網絡爬蟲是做

Java爬蟲--Https繞過證書

round ger text vax get urn oid boolean manager 　　https網站服務器都是有證書的。是由網站自己的服務器簽發的，並不被瀏覽器或操作系統廣泛接受。　　在使用CloseableHttpClient時經常遇到證書錯誤(知乎的網站

java爬蟲問題二: 使用jsoup爬取數據class選擇器中空格多選擇怎麽解決

凱哥Java問題描述：在使用jsoup爬取其他網站數據的時候，發現class是帶空格的多選擇，如果直接使用doc.getElementsByClass(“class的值”),這種方法獲取不到想要的數據。爬取網站頁面結構如下：其中文章列表的div為：<div class="am-cf in

Java爬蟲技術之HttpClient學習筆記

結果小爬蟲如果依賴包很多 tac world 官方靈活第一節、HttpClient 一、HttpClient 簡介超文本傳輸協議【The Hyper-Text Transfer Protocol (HTTP)】是當今互聯網上使用的最重要（significan

Java爬蟲爬取京東商品信息

1.2 image 商品 void code 更改 size pri name 以下內容轉載於《https://www.cnblogs.com/zhuangbiing/p/9194994.html》，在此僅供學習借鑒只用。 Maven地址 <dependency>

Java爬蟲框架 | 爬小說

java爬蟲 bytes 關於 pub util ati document crawl IE Jsoup，Java爬蟲解決方案，中文文檔：jsoup 不得不說Java的生態真的好，原來我以為爬蟲是只能用Pyhton來寫的，結果發現Java的爬蟲框架不要太多……

Java爬蟲模擬登錄——不給我毛概二的H某大學

new AR 核心 md5加密畢業 logon AC value jsession 你的賬號訪問太頻繁，請一分鐘之後再試！從大一開始就用腳本在刷課在專業課踢的只剩下一門C#的情況下活活刷到一周的課大二開始教務系統多了一個非常*

Java爬蟲之下載全世界國家的國旗圖片

stack [] trac node edr string類型微信公眾號 public 過程介紹 ??本篇博客將繼續上一篇博客：Python爬蟲之使用Fiddler+Postman+Python的requests模塊爬取各國國旗的內容，將用Java來實現這個爬蟲，下載

JAVA爬蟲--JS文件數據快速解析

tab cto ade shadow size 輸出執行文件的開源最近在做一個足球數據爬蟲，連接的是某常用足球比分直播平臺的網站。在抓取的過程中方法很簡單。打開網頁地址，進入開發者模式，查看其數據加載。發現其比分數據是采用獲取平臺js文件的方式從服務器下載下來

java 爬蟲

能夠有一個人人網匹配掌握 key val width pcl 由於項目需求，綜合了幾種考慮方案，準備使用java 爬蟲進行數據的獲取，不用自己去費勁的想邏輯的實現使用java爬蟲之前，我們必須要掌握的知識：　　　　　　　　　1.　對前端HTML的元素有一定的認識

java爬蟲學習1

1 需求：比如要從這樣一個網頁上抓取資料這個請求最後面的uid其實是百度地圖上查到該點的uid(也就是5ef5edbdc64c1bb49e9d6899)，我的資料庫裡面已經獲取了武漢的房地產的uid，現在要通過uid獲取詳細資訊。先從一個著手，再多的資料也是迴圈抓取了。

Java爬蟲學習《一、爬取網頁URL》

導包，如果是用的maven，新增依賴： <dependency> <groupId>commons-httpclient</groupId> <artifactId>commons

爬蟲入門手寫一個Java爬蟲

原文：https://www.cnblogs.com/sanmubird/p/7857474.html 本文內容淶源於羅剛老師的書籍 << 自己動手寫網路爬蟲一書 >> ; 本文將介紹 1: 網路爬蟲的是做什麼的?&n

java爬蟲入門jsoup 框架

所需jar包 <dependency>  <groupId>org.jsoup</groupId> <arti

JAVA爬蟲挖取CSDN部落格文章(續)

前言之前寫過一篇用jsoup爬取csdn部落格的文章JAVA爬蟲挖取CSDN部落格文章，當時博主還在上一家公司實習，由於公司辦公網路需要代理才能訪問外網，那一篇的程式碼邏輯與代理密切相關，可能有些不熟悉jsoup怎麼使用的朋友看了會感覺越看越糊塗，且當時以為爬取所有文章需要用到分

jsoup編寫java爬蟲

jsoup是一款簡潔輕便的java網路爬蟲庫，因為它的API與DOM物件操作直接掛鉤，所以收到了廣泛的歡迎，下面來講解如何爬取京東上的圖書。因為我是採用的gradle框架來完成整合的，所以可

Java爬蟲

相關推薦