使用Jsoup技術獲取`阿里拍賣`中法院拍賣的所有拍賣品

阿新 • • 發佈：2018-12-13

前言

最近在學習過程中接到一個任務，要求爬取阿里拍賣中法院拍賣的所有拍賣品。用了點時間完成了任務，並分享出來作為經驗供學習、交流。若文中有任何不妥之處請提出。

最終效果

效果演示

爬取所有記錄

控制檯列印記錄
資料庫記錄

根據條件爬取

控制檯列印記錄
資料庫記錄

專案倉庫

專案前準備

技術選型

HTML解析技術：Jsoup
jsoup 是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API，可通過DOM，CSS以及類似於jQuery的操作方法來取出和操作資料。

開發工具

IDEA 2018.2
MYSQL 5.7
Chrome

用到的jar包

easy-poi:3.0.3
mysql-connector-java:5.1.40
jsoup:1.8.3
fastjson:1.2.47

爬取所有資料

頁面分析

首先我們通過http://sf.taobao.com/court_list.htm?spm=a213w.3065169.sfhead2014.3.3e1f1a333zcUBm，進入要爬取的入口頁，入口頁的結構如下圖所示：

頁面的機構是以省份為區分，在省下包含市，市包含法院，而法院中的連結市我們要獲取資訊的下一個入口。為了實現目的，爬蟲的處理邏輯如下：

1.進入入口頁，獲取所有省份的DOM
2.對第一個省份繼續進行處理，獲取市級列表
3.對第一個市進行處理，獲取法院列表和連結地址
4.進入第一個法院，獲得拍賣品列表
5.進入商品詳情頁獲取需要的資訊
6.重複5，知道所有拍賣品爬完
7.重複4-6，直至所有法院爬完
8.重複3-7，直至所有市爬完
9.重複2-8，直至所有省份爬完
10.結束

第一步：獲取所有省份列表

首先用Chrome瀏覽器檢查爬蟲入口頁面元素，這樣能夠清晰直觀看出頁面的佈局，如下圖所示

圖中，1是省份的div,包裹在一個class="provinces clearfix"的div中，在1中還包含了2，3，4這些元素，這些都是我們接下來需要的內容。
圖中，2是省份的名稱，包裹在一個class="province"的div中，通過檢視多個省份的內容可以發現，這個模型中只會有省份名稱這個中文，所以取出這個資訊時可以通過正則表示式對中文進行匹配，從而取出值。
圖中，3是省份下的市列表，包裹在一個class="province"的div中。每個市在一個單獨的class="city"

的div中。圖中的4，市該市下的法院列表，法院列表中每個法院的連結才是我們需要的內容，通過訪問連結才能進入該法院的拍賣品列表，每個法院的連結規則如下：

獲取也很簡答，只用獲取a標籤中的href屬性即可，但訪問時為了比較明顯，要在前面加個http:
點選連結，進入拍賣品列表，如下：

都這樣的結構也很簡單，第一想法時使用上述相同的方法直接一條一條爬取就行。但如果這樣你會發現，並爬不到資料，後來才發現，所有的資料並不是在頁面請求時就直接載入的，所有的資料會以json的格式放在一個script標籤中，如下圖所示：

這樣就更簡單了，直接通過Json解析，然後取出詳情連結就可以了。但需要注意的是，資料只是這一頁中的，事實上資料可能有很多頁。所以這時的想法就是看下每頁的請求路徑有什麼規律，通過對比就發現翻頁時的路徑類似於http://sf.taobao.com/court_item.htm?spm=a213w.7398554.pagination.1.5edd2fc2Vn735Z&user_id=2364124517&auction_start_seg=-1&page=2，而頁碼對應的就是page的值，所以我們只需要從頁面上獲取總計頁數，通過迴圈就可以得到每頁的資料。

方法很簡單，只需要獲取到class="page-total"的em標籤的text內容即可
接下來就是詳情頁，詳情頁我們只抓三個部分的內容

其中標題和變賣價的規則如下：

這裡根據之前的規則就可以取出值了。接下來通過程式碼來實現這一過程

程式碼實現

本文前面已經附帶了github的地址，原專案使用gradle構建，需要的朋友可以參考。所以本部分以關鍵部分程式碼講解為主。

進入主頁

Document document = Jsoup.connect(ConValues.SF_URL_ENTRANCE).timeout(5000).get();

這一步比較簡單，需要注意的是最好加上timeout()方法設定超時時間，不然可能會出現java.net.SocketTimeoutException:Read timed out異常。通過這一步就可以得到文件物件，來完成下列操作。

解析頁面

獲得所有省的文件模型

Elements select = document.select("div[class=provinces clearfix]");

迴圈，獲取各省的資訊

Elements elements = element.select("div[class=province"); Matcher valueByReg = DataUtil.getValueByReg(ConValues.ZHONG_WEN_REG, elements.toString());
if(valueByReg.find()){
    //省
   province = valueByReg.group(0);
 }

獲得市列表

 Elements citys = var1.select("dl[class=city]");

獲得總頁數和翻頁時的路徑規則

 Elements var4 = var3.select("a");
 for(Element var5:var4){
        if(var5.hasAttr("rel")){
               basePageUrl = "http:"+var5.attr("href").trim();
               break;
        }
    }
 String pageText = var3.select("span[class=page-skip]").select("em[class=page-total]").text();
 if(pageText.length()>0){
         totalPage = Integer.parseInt(pageText);
 }

進入拍賣品列表頁並取出值

//對每一頁進行處理
String pageUrl = basePageUrl.substring(0,basePageUrl.length()-1)+i;
Document document2 = Jsoup.connect(pageUrl).timeout(5000).get();
 //獲得該頁所有商品資訊，該頁的所有商品資訊是以json的格式存放在<script>標籤中的
 String oriData = document2.getElementById("sf-item-list-data").toString();
 //接下來對資料進行處理
 //1.找到“>”標籤的位置
 int start = oriData.indexOf(">");
 //2.找到"</"標籤的位置
 int end = oriData.indexOf("</");
 //截取出值
 String data = oriData.substring(start+1, end);

解析`json`資料獲得詳情路徑，並提取資料

JSONArray data1 = (JSONArray) JsonUtil.convertJsonStrToMap(data).get("data");
Iterator<Object> iterator = data1.iterator();
while(iterator.hasNext()){
    JSONObject next = (JSONObject)iterator.next();
    //需要記錄的url
    String detailUrl = "http:"+next.get("itemUrl");
    //獲取標題
    Document document3 = Jsoup.connect(detailUrl).timeout(5000).get();
    String detailTitle = document3.select("div[class=pm-main clearfix]").select("h1").text();
    //獲取變賣價
    String detailPrice = document3.select("span[class=J_Price]").first().text();
    System.out.println("抓取資訊：");
    System.out.println(province+"  "+city+"  "+countryName+"  "+detailTitle+"  "+detailPrice+"   "+detailUrl);   
}

持久化資料庫

定義POJO

public class AuctionItem {
    private String province;//省份
    private String city;//城市
    private String countryName;//法院
    private String detailTitle;//標題
    private String detailPrice;//變賣價
    private String detailUrl;//資源路徑

  //getter and setter
  .............
}

構造資料庫操作工廠類

public class DbOpFactory {
    // JDBC 驅動名及資料庫 URL
    static final String JDBC_DRIVER = "com.mysql.jdbc.Driver";
    static final String DB_URL = "jdbc:mysql://localhost:3306/spider-data";
    private static DbOpFactory instance;
    public static DbOpFactory getInstance(){
        if(instance==null){
            return new DbOpFactory();
        }else{
            return instance;
        }
    }

    private DbOpFactory(){
        init();
    }
    // 資料庫的使用者名稱與密碼，需要根據自己的設定
    static final String USER = "root";
    static final String PASS = "xda265856";
    Connection conn = null;
    Statement stmt = null;
    ResultSet rs = null;

    public void init() {
        // 註冊 JDBC 驅動
        try {
            Class.forName("com.mysql.jdbc.Driver");
            // 開啟連結
            System.out.println("連線資料庫...");
            conn = DriverManager.getConnection(DB_URL,USER,PASS);
        } catch (ClassNotFoundException e) {
            e.printStackTrace();
        } catch (SQLException e) {
            e.printStackTrace();
        }
    }
      /**
     * 持久化拍賣資訊
     * @param auctionItem
     */
    public void insertAuction(AuctionItem auctionItem){
        try{
            // 執行查詢
           // System.out.println(" 例項化Statement物件...");
            stmt = conn.createStatement();
            String sql;
            sql = String.format("INSERT INTO TB_AUCTION_ITEM(AUCTION_PROVINCE,AUCTION_CITY,AUCTION_COUNTRY_NAME,AUCTION_DETAIL_TITLE,AUCTION_PRICE,AUCTION_DETAIL_URL) VALUES('%s','%s','%s','%s','%s','%s')"
                    ,auctionItem.getProvince(),auctionItem.getCity(),auctionItem.getCountryName(),auctionItem.getDetailTitle(),auctionItem.getDetailPrice(),auctionItem.getDetailUrl());
            stmt.executeUpdate(sql);
        }catch(SQLException se){
            // 處理 JDBC 錯誤
            se.printStackTrace();
        }catch(Exception e){
            // 處理 Class.forName 錯誤
            e.printStackTrace();
        }

    public void close(){
        // 完成後關閉
        try {
            stmt.close();
            conn.close();
        } catch (SQLException e) {
            e.printStackTrace();
        }

    }
}

執行插入

DbOpFactory instance = DbOpFactory.getInstance();
instance.init();
........
AuctionItem auctionItem = new AuctionItem();
auctionItem.setProvince(province);
auctionItem.setCity(city);
auctionItem.setCountryName(countryName);
auctionItem.setDetailTitle(detailTitle);
auctionItem.setDetailPrice(detailPrice);
auctionItem.setDetailUrl(detailUrl);
instance.insertAuction(auctionItem);
System.out.println("存入資料庫成功");
........
instance.close();

至此爬蟲完成，上述程式碼有不詳盡的地方請到github上檢視原始碼。

根據搜尋條件爬取資料

根據條件的爬蟲時根據搜尋欄中輸入的關鍵字進行查詢，這裡將需要查詢的資訊放到EXCEL表格中，方便獲取。

分析

總體思路於爬取所有的內容時相同的。

在搜尋框中輸入關鍵字
搜尋結果頁面的地址如下
值為http://sf.taobao.com/list/0.htm?auction_start_seg=-1&q=%CE%E2%BD%AD%CB%C9%C1%EA%D5%F2%BD%AD%D8%C7%C2%B78%BA%C5A16-1&page=1，令人費解的是%CE%E2%BD%AD%CB%C9%C1%EA%D5%F2%BD%AD%D8%C7%C2%B78%BA%C5A16-1這串字串。猜測應該是搜尋的關鍵字但具體是什麼就不得而知。通過了解發現這是URL字元轉義（想了解更多，請自行百度），所以我們通過下面的方法可以實現對URL的字元轉義功能

 /**
     * url字元轉碼
*/
 public static String getURLEncode(String urlValue){
     String urlEncode= null;

     try {
         urlEncode = java.net.URLEncoder.encode(urlValue, "gb2312");
     } catch (UnsupportedEncodingException e) {
         e.printStackTrace();
     }
     return urlEncode;
 }

我們通過對路徑的拆分、拼接，即可得到完整的路徑

 //查詢地址前面部分
public static String SEARCH_ADDRESS_PREFIX = "http://sf.taobao.com/item_list.htm?q=";
//查詢地址後面部分
public static String SEARCH_ADDRESS_SUFFIX = "&spm=a213w.3064813.9001.1";

從EXCEL中獲得查詢關鍵字

這裡使用Easy-poi獲取excel中的內容

定義pojo

public class SearchAttribute {
    @Excel(name = "序號")
    private String id;
    @Excel(name = "地址")
    private String address;
    @Excel(name = "所有人")
    private String owner;
    @Excel(name = "產證號1")
    private String certNum1;
    @Excel(name = "產證號2")
    private String certNum2;
    @Excel(name = "產證號3")
    private String certNum3;
  //getter and setter
  ...................
}

獲取資訊

public class PoiUtils {


    public static <T> List<T> importExcel(String filePath, Integer titleRows, Integer headerRows, Class<T> pojoClass) throws  Exception {
        ImportParams params = new ImportParams();
        params.setTitleRows(titleRows);
        params.setHeadRows(headerRows);
        List<T> list = null;
        try {
            list = ExcelImportUtil.importExcel(new File(filePath), pojoClass, params);
        } catch (NoSuchElementException e) {
            throw new Exception("模板不能為空");
        } catch (Exception e) {
            e.printStackTrace();
            throw new Exception(e.getMessage());
        }
        return list;
    }
}

//得到Excel中的資訊
List<SearchAttribute> allAttributes = PoiUtils.importExcel("file/paimai.xlsx", 0, 1, SearchAttribute.class);

剩下的內容和爬取所有內容相同在此不做贅述

總結

總體上來說功能實現了，但還有很多細節需要優化
如果有任何問題歡迎留言探討

使用Jsoup技術獲取`阿里拍賣`中法院拍賣的所有拍賣品

前言最近在學習過程中接到一個任務，要求爬取阿里拍賣中法院拍賣的所有拍賣品。用了點時間完成了任務，並分享出來作為經驗供學習、交流。若文中有任何不妥之處請提出。最終效果效果演示爬取所有記錄

【java】<Jsoup>獲取網頁中的圖片

util puts lec import http imp stat tin 畫的要做Android課程設計了，做一個爬漫畫的東東練一下手 1 package asd; 2 3 import java.io.File; 4 import java.io.Fil

jsoup獲取script標籤中的內容

String page = HttpUtil.doGet(href); Document document = Jsoup.parse(page); Elements elements = document.select("

阿里雲資料庫POLARDB技術沙龍火熱報名中，李飛飛，曹偉眾大神齊到場，200個席位先到先得！

本次沙龍將結合RDS雲資料庫技術架構的演化，分享阿里雲自研雲原生資料庫的產品架構和技術創新點，並深度剖析POLARDB在SQL併發效能、多活高可用、讀寫分離延遲、四維彈性、快照備份和查詢加速等應用場景的技術實踐。時間：2019年1月19日 13:00 ～ 2019年1月19日 17:00 地址：北京

區葵阿里技術在實際生活中的領域

想知道更多區塊鏈技術技能知識，請百度【鏈客區塊鏈技術問答社群】由於區塊鏈技術去中心化的特性，其在我們生活中的很多重要領域（如金融、管理）等方面具有重要的意義。例如，我們可以通過在我們的公司構建自己的私有鏈，這也就意味著我們在公司裡的所有電腦（也就是在同一區域網）內搭建了我們的區塊鏈平臺

使用DHTML技術獲取元素和增刪改文件中的元素

(1)獲取元素 getElementById() -- 通過id來獲取指定元素 getElementsByName() -- 通過name來獲取指定元素組成的集合陣列 getElementsByTa

阿里雲中臺技術應用新嘗試，破解德恩精工離散製造“三難題”

開發十年，就只剩下這套架構體系了！ >>>

阿里巴巴技術總監全解中臺架構19頁ppt：中臺是一把手工程

不是所有的建設都是中臺建設中臺是一把手工程中臺是一次變革，避免急功近利穩定實用的技術底座是基礎

js獲取頁面url中的各項值

js一、通過window.location獲取各項參數1、獲取頁面完整的urlurl = window.location.href;2、獲取頁面的域名host = window.location.host;host2=document.domain; 應用場景：頁面跳轉，開發環境和測試環境域名不同，所以需要

vim 正則表達式獲取雙引號中的字符

ram pop mod 正則 clip 建立 rfi strong zhong vim 正則表達式獲取雙引號中的字符 1.獲取雙引號中的字符 [html] view plain copy :%s/.*\".?\".*/\1/ 2.用字

jQuery獲取地址url中"?"符以及其後的字串

jquery 及其 subst nbsp 問號 nor earch normal ear var url = location.search; if (url.indexOf("?") != -1)//url中存在問號，也就說有參數。 { if (url.su

案例15:avro 負載均衡的方式動態獲取文件中內容

it需求: 將131上產生的日誌文件負載均衡到 132 和133機器上如圖: 配置132 機器和133機器 (相同))arov.confa1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configure the sourc

獲取文本中你須要的字段的幾個命令 grep awk cut tr sed

string div line config class rip where ren lin 1,grep 2,awk 3,cut 4,tr 5,sed 實例1 獲取本地IP地址 /sbin/ifconfig -a|grep inet|

jQuery獲取動態表格中checkbox被選中一行的屬性數據

jquery table tr 表格動態 http://www.jianshu.com/p/0ec66caf4c40 jQuery獲取表格中checkbox被選中一行的屬性數據jQuery獲取動態表格中checkbox被選中一行的屬性數據

獲取Java類中註解的詳細信息

ons 信息 size pre stat .get 文件 mvc declare 前言：這篇博客主要是為了後續的獲取SpringMVC中的全部請求URL做的準備。 public class AnnotationHelper { private static fi

三個獲取瀏覽器URL中參數值的方法

() 遇到 col reg object win 瀏覽器 component 般的這三個是一般的獲取瀏覽器傳的參數值的方法，之前有用unescape()解碼的方法，但是遇到漢字會產生亂碼，所以用decodeURI(); 方法一： function getQueryStr

C++入門經典-例6.9-通過指針變量獲取數組中的元素

[0 int play pen c++ class 個數 close sin 1：通過指針引用數組，需要先聲明一個數組，再聲明一個指針。 int a[10]; int *p; 然後通過&運算符獲取數組中元素的地址，再將地址值賦給指針變量。 p=&a[

shell腳本獲取文件中key/value的小方法

cat 方法 rep read line 兩個 color div logs shell腳本方法有N種，awk、sad、grep、cut。。。以上幾種方式不寫了，就寫兩個不太常用到的。廢話少說，直接上代碼： cat a.txt aa.gif=aaaa.gif

JavaSE8基礎 Class getDeclaredFields 獲取一個類中所有的成員變量

dsd scores ase sge 成員變量 demo 基礎 itcast 思考禮悟：好好學習多思考，尊師重道存感恩。葉見尋根三返一，活水清源藏於零。虛懷若谷良心主，皓月當空自在王。願給最苦行無悔，誠勸且行且珍惜。

通用jsonp跨域技術獲取天氣數據

chang csdn 無法獲得 cnblogs 加載 [0 syn tput mat 1. 前言在進行網站開發的過程中經常會用到第三方的數據，但是由於同源策略的限制導致ajax不能發送請求，因此也無法獲得數據。解決ajax的跨域問題可以使用jsonp技術 2.代碼 &l

使用Jsoup技術獲取`阿里拍賣`中法院拍賣的所有拍賣品

前言

最終效果

效果演示

爬取所有記錄

根據條件爬取

專案倉庫

專案前準備

技術選型

開發工具

用到的jar包

爬取所有資料

頁面分析

第一步：獲取所有省份列表

程式碼實現

進入主頁

解析頁面

獲得所有省的文件模型

迴圈，獲取各省的資訊

獲得市列表

獲得總頁數和翻頁時的路徑規則

進入拍賣品列表頁並取出值

解析json資料獲得詳情路徑，並提取資料

持久化資料庫

定義POJO

構造資料庫操作工廠類

執行插入

根據搜尋條件爬取資料

分析

從EXCEL中獲得查詢關鍵字

總結

相關推薦

解析`json`資料獲得詳情路徑，並提取資料