1. 程式人生 > 程式設計 >Java使用httpRequest+Jsoup爬取紅藍球號碼

Java使用httpRequest+Jsoup爬取紅藍球號碼

目錄
  • 1、oup介紹
    • 1.1、簡介
    • 1.2、Jsoup的主要功能
  • 2、源及頁面元素分析
    • 2.1、號碼源
    • 2.2、dom元素分析
  • 3、程式碼實現

    1、Jsoup介紹

    1.1、簡介

    jsoup 是一款 的HTML解析器,可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API,可通過DOM,以及類似於的操作方法來取出和操作資料。

    1.2、Jsoup的主要功能

    1、從一個URL,檔案或字串中解析HTML
    2、使用DOM或CSS選擇器來查詢、取出資料
    3、可操作HTML元素、屬性、文字
    注意:jsoup是基於MIT協議釋出的,可放心使用於商業專案。

    2、源網站及頁面元素分析

    2.1、號碼源

    首先,這裡我選擇近年來比較穩定的資料來源地址【某網站】截圖如下

    Java使用httpRequest+Jsoup爬取紅藍球號碼

    2.2、dom元素分析

    2.2.1、開獎號碼主體分析

    先開啟開發者工具,找到每條開獎號碼對應的dom元素

    可以看到每一期號碼資訊主體在一個<tr>標籤中,其中第一個<td>是開獎日期,第二個<td>是開獎期號,第三個<td>是開獎號碼,每個獎號是單獨的標籤,紅球的class=rr,籃球沒有設定樣式

            <tr>
              <td align="center">2021-06-13</td>
              <td align="center">2021065</td>
              <td align="center" style="padding-left:10px;">          
              <em class="rr">01</em>          
              <em class="rr">04</em>          
              <em class="rr">08</em>          
              <em class="rr">19</em>          
              <em class="rr">29</em>          
              <em class="rr">33</em>                    
              <em>16</em></td>
              <td><strong>362,527,724</strong></td>
              <td align="left" style="color:#999;"><strong>3</strong></td>
              <td align="center"><strong class="rc">82</strong></td>
              <td align="center">
                  <a href="http://www.zhcw.com/ssq/kjgg/" rel="external nofollow"  target="http://www.cppcns.com
    _blank"><img src="http://images.zhcw.com/zhcw2010/kaijiang/zhcw/ssqpd_42.jpg" width="16" height="16" align="absmiddle" title="詳細資訊"></a> <a href="http://www.zhcw.com/video/kaijiangshipin/" rel="external nofollow" target="_blank"><img src="http://images.zhcw.com/zhcw2010/kaijiang/zhcw/ssqpd_43.jpg" width="16" height="16" align="absmiddle" title="開獎視訊"></a> </td> </tr>

    2.2.2、頁碼區域分析

    由於我們爬取資料的時候,需要進行翻頁操作,所以這裡還需要分析翻頁部分的內容,繼續在開發者工具中,定位頁碼區域

    Java使用httpRequest+Jsoup爬取紅藍球號碼

    可以看到頁碼部分是<tbody>中的最後一個<tr>中,翻頁操作的內容再class=pg的 <p> 標籤中
    可以拆分為多個<storage>標籤陣列,可以分析得出翻頁連結的規律。
    /zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=頁碼

    /zhcw/html/ssq/list_頁碼.html

    元素 含義
    0 總頁數
    1 總記錄數
    2 第一頁的連線
    3 上一頁的連結
    4 下一頁的連結
    5 最後一頁的連線
    6 當前頁數

    <tr>
        <td colspan="7"www.cppcns.com align="center" style="background:#fdf2e3;">
            <p class="zhu"></p>
            <p class="pg">
                共<strong>136</strong> 頁 /<strong>2709 </strong>條記錄 
                <strong><a href="/zhcw/inc/ssq/ssq_wqhg.jsp" rel="external nofollow" >首頁</a></strong>
                <strong><a href="/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=1" rel="external nofollow" >上一頁</a></strong>
                <strong><a href="/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=2" rel="external nofollow" >下一頁</a></strong>
                <strong><a href="/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=136" rel="external nofollow" >末頁</a></strong>
                當前第<strong> 1 </strong>頁</p>
         </td>
     </tr>

    3、程式碼實現

    maven引用,這裡使用的是Jsoup1.13.1版本

      <dependency>
          <groupId>org.jsoup</groupId>
          <artifactId>jsoup</artifactId>
          <version>1.13.1</version>
      </dependency>
    

    這使用的是基於jeecg開發的Job,搭建過程不贅述了,直接看主體程式碼。

     public void execute(JobExecutionContext arg0) throws JobExecutionException {
      Integer maxPage=getMaxPage();//獲取總頁數
      for(int pageNo=0;pageNo<maxPage;pageNo++){//迴圈處理每一頁的資料
       String url = "http://kaijiang.zhcw.com/zhcw/html/ssq/list_"+(pageNo+1)+".html";//拼訪問地址
          String strDateFormat = "yyyy-MM-dd";
             SimpleDateFormat sdf = new SimpleDateFormat(strDateFormat);
       String html = JwtHttpUtil.httpRequest(url,"GET",null);//訪問對應的頁面
       Document doc =  Jsoup.parse(html);//用Jsoup解析頁面內容並且解析為Document
       Document doc1= Jsoup.parse(doc.getElementsByClass("wqhgt").toString());//wqhgt是table標籤的class,這裡獲取到開獎號碼的table的內容並且解析為Document
       Elements trs= doc1.getElementsByTag("tr");//根據tag獲取到所有的tr標籤,這裡獲取到的是一個Element陣列
       logger.info("當前頁碼---"+(pageNo+1)+"----"+trs.size());
       for(int i=2;i<trs.size()-1;i++){//這裡是根據頁面內容確定開獎內容是從第三個tr開始到倒數第二個tr結束,最後一個tr是翻頁按鈕
        try {
         Elements tds=trs.get(i).getElementsByTag("td");
         String kjrq=tds.get(0).text();
         String kjqh=tds.get(1).text();
         //這裡是為了防止重複拉取,所以做了判斷,如果已存在當前期的獎號,就直接跳過
         Long count=lotterySsqKjjlService.getCountForJdbc("select count(*) from lottery_ssq_kjjl where SSQ_KJQH='"+ kjqh + "'");
         //下面的內容很容易理解,就是可以對照頁面分析部分內容看,就不贅述了
         if(count>0)break;
         LotterySsqKjjlEntity kjhmEntiry=new LotterySsqKjjlEntity();
            Elements kjhm=tds.get(2).getElementsByTag("em");
         kjhmEntiry.setSsqKjrq(sdf.parse(kjrq));
         kMTjipUMjhmEntiry.setSsqKjqh(kjqh);
            kjhmEntiry.setSsqR1(Integer.parseInt(kjhm.get(0).text()));
            kjhmEntiry.setSsqR2(Integer.parseInt(kjhm.get(1).text()));
            kjhmEntiry.setSsqR3(Integer.parseInt(kjhm.get(2).text()));
            kjhmEntiry.setSsqR4(Integer.parseInt(kjhm.get(3).text()));
            kjhmEntiry.setSsqR5(Integer.parseInt(kjhm.get(4).text()));
            kjhmEntiry.setSsqR6(Integer.parseInt(kjhm.get(5).text()));
            kjhmEntiry.setSsqB1(Integer.parseInt(kjhm.get(6).text()));
            lotterySsqKjjlService.save(kjhmEntiry);
        } catch (ParseException e) {
         // TODO Auto-generated catch block
         e.printStackTrace();
        } catch (Exception e) {
         // TODO Auto-generated catch block
         e.printStackTrace();
        }
       }
      }
      
     }
     
     private Integer getMaxPage(){
      String url = "http://kaijiang.zhcw.com/zhcw/html/ssq/list.html";
      String html = JwtHttpUtil.httpRequest(url,null);
      Document doc =  Jsoup.parse(html);
      Document docPageBar= Jsoup.parse(doc.getElementsByClass("pg").toString());
      Elements elePageBar = docPageBar.getElementsByTag("strong");
      Integer maxPageNo=Integer.parseInt(elePageBar.get(0).text());
      return maxPageNo;
     }
    

    以下是執行完成的部分資料截圖

    Java使用httpRequest+Jsoup爬取紅藍球號碼

    拉取到基礎資料後,我們可以再寫一個job,去計算出每期開獎號碼的指標,可以進行獎號分析,預測等。
    這裡簡單實現了部分分析指標的計算,以下是主體程式碼。

     public void run(){
      List<LotterySsqKjjlEntity> list= lotterySsqKjjlService.findByQueryString("from LotterySsqKjjlEntity t");
      for(int i=0;i<list.size();i++){
       LotterySsqKjjlEntity kjjg=list.get(i);
       logger.info("正在處理:"+kjjg.getSsqKjqh());
       kjjg.setSsqMin(kjjg.getSsqR1());//最小號
       kjjg.setSsqMax(kjjg.getSsqR6());//最大號
       kjjg.setSsqKd(kjjg.getSsqR6()-kjjg.getSsqR1());//號碼跨度
       kjjg.setSsqJsCnt(ssqKjjgUtils(kjjg,"jsCnt"));//奇數個數
       kjjg.setSsqOsCnt(ssqKjjgUtils(kjjg,"osCnt"));//偶數個數
       kjjg.setSsqSum(ssqKjjgUtils(kjjg,"sum"));//號碼和
       lotterySsqKjjlService.updateEntitie(kjjg);
       
      }
      logger.info("結果資料條數"+list.size());
     }
     /**
      * 
      * @param kjjg
      * @param opType jsgs=奇數個數
      * @return
      */
     private Integer ssqKjjgUtils(LotterySsqKjjlEntity kjjg,String opType){
      List<Integer> t =new ArrayList<Integer>();
      t.add(kjjg.getSsqR1());
      t.add(kjjg.getSsqR2());
      t.add(kjjg.getSsqR3());
      t.add(kjjg.getSsqR4());
      t.add(kjjg.getSsqR5());
      t.add(kjjg.getSsqR6());
      Integer result=0;
      switch (opType) {
      case "jsCnt":
      case "osCnt":
       int jsgs=0;
       int osgs=0;
       for(int i=0;i<t.size();i++){
        if(t.get(i)%2==0){
         osgs++;
        }else{
         jsgs++;
        }
       }
       if("jsCnt".equals(opType)){
        result=jsgs;
       }else{
        result=osgs;
       }
       break;
      case "sum":
       int sum=0;
       for(int i=0;i<t.size();i++){
        sum+=t.get(i);
       }
       result=sum;
       break;
      default:
       break;
      }
      return result;
     }
    

    至此,這個簡單的爬蟲就寫完了,可以利用爬過來的這些基礎資料,進行一些資料分析,預測。

    到此這篇關於Java使用httpRequest+Jsoup爬取紅藍球號碼的文章就介紹到這了,更多相關Java 爬取紅藍球號碼內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們!