groovy爬蟲練習之——企業資訊

阿新 • • 發佈：2018-11-20

話不多說，資訊源暫時隱藏了，獲取資料的方法依然才去了regex正則匹配的方法，請求框架採用了java，爬蟲語言是groovy，本地拼接好sql語句，傳送到mysql服務端，完成儲存。

程式碼如下：

package com.fan

import com.fantest.httpclient.FanLibrary
import com.fantest.mysql.MySqlTest
import com.fantest.utils.Regex
import net.sf.json.JSONObject

class Company extends FanLibrary {
    static void main(String[] args) {
        for (def i in 1..1060) {
            getPage(i)
//                getInfo("/eportal/ui?pageId=307900&t=toDetail&ZSBH=D311056737")
        }
        testOver()
    }

    static getPage(int page) {
        def url = "http://www.***.gov.cn/eportal/ui?pageId=307900"
        def params = new JSONObject()
        params.put("filter_LIKE_QYMC", EMPTY)
        params.put("filter_LIKE_YYZZZCH", EMPTY)
        params.put("filter_LIKE_ZSBH", EMPTY)
        params.put("filter_LIKE_XXDZ", EMPTY)
        params.put("currentPage", page)
        params.put("pageSize", 15)
        params.put("OrderByField", EMPTY)
        params.put("OrderByDesc", EMPTY)
        def response = getHttpResponse(getHttpPost(url, params))
        def s = response.getString("content")
        def all = Regex.regexAll(s, "<td s.*?瀏覽")
        for (int i = 1; i < all.size(); i++) {
            def get = all.get(i)
            def regex = Regex.getRegex(get, "href=\".*?\"").replace("amp;", EMPTY)
            getInfo(regex)
            sleep(3)
        }
        return response;
    }

    static getInfo(String url) {
        try {
            url = "http://www.***.gov.cn" + url;
            def response = getHttpResponse(getHttpGet(url))
            def content = response.getString("content")
            def all = Regex.regexAll(content, "<td class=\"label\".*?\n.*\n.*\n.*\n.*\n.*")
            def name = all.get(0).replaceAll("<.*?>", EMPTY).replaceAll("(\n| )", EMPTY).split("：")[1]
            def adress = all.get(1).replaceAll("<.*?>", EMPTY).replaceAll("(\n| )", EMPTY).split("：")[1]
            def money = all.get(2).replaceAll("<.*?>", EMPTY).replaceAll("(\n| )", EMPTY).split("：")[1]
            def sid = all.get(3).replaceAll("<.*?>", EMPTY).replaceAll("(\n| )", EMPTY).split("：")[1]
            def type = all.get(4).replaceAll("<.*?>", EMPTY).replaceAll("(\n| )", EMPTY).split("：")[1]
            def man = all.get(5).replaceAll("<.*?>", EMPTY).replaceAll("(\n| )", EMPTY).split("：")[1]
            def paper = all.get(6).replaceAll("<.*?>", EMPTY).replaceAll("(\n| )", EMPTY).split("：")[1]
            def level = all.get(7).replaceAll("<.*?>", EMPTY).replaceAll("(\n| )", EMPTY).split("：")[1]
            def gov = all.get(8).replaceAll("<.*?>", EMPTY).replaceAll("(\n| )", EMPTY).split("：")[1]
            def time = all.get(9).replaceAll("<.*?>", EMPTY).replaceAll("(\n| )", EMPTY).split("：")[1]
            def start = time.split("~")[0]
            def end = time.split("~")[1]
            String sql = "INSERT INTO company (name,adress,money,sid,type,man,paper,level,gov,start,end) VALUES (\"%s\",\"%s\",\"%s\",\"%s\",\"%s\",\"%s\",\"%s\",\"%s\",\"%s\",\"%s\",\"%s\");"
            sql = String.format(sql, name, adress, money, sid, type, man, paper, level, gov, start, end)
            output(sql)
            MySqlTest.sendWork(sql)
        }
        catch (Exception e) {
            output(e)
        }
    }
}

第一頁的網頁結構如下：

第二頁詳情頁結構如下:

regex是我自己簡單封裝的正則匹配的類，程式碼可以去我碼雲上面看看。

框架已經在碼雲開源邀請連結

歡迎有興趣的一起交流：群號:340964272

groovy爬蟲練習之——企業資訊

話不多說，資訊源暫時隱藏了，獲取資料的方法依然才去了regex正則匹配的方法，請求框架採用了java，爬蟲語言是groovy，本地拼接好sql語句，傳送到mysql服務端，完成儲存。程式碼如下： package com.fan import com.fantest.httpclient.

python爬蟲練習之爬取豆瓣讀書所有標籤下的書籍資訊

第一步，爬取所有圖書標籤及分類到達圖書標籤頁，分類瀏覽，第一步需要爬取所有分類及其分類下的所有標籤並用dict儲存需要解析的內容 1.bs4解析 import requests from bs4 import Beau

模擬登陸CSDN -- Python爬蟲練習之正則表示式和cookie

　　這周學習的主題是正則表示式和cookie，原本是計劃每天晚上11點下班到家，練上一兩個鍾就把這部分過了，結果這周各種事情和不再狀態，所以沒整完，直至今天才把相關問題過掉。其實這部分也挺不錯的，也並沒有想象中容易，所以好事多磨。這周練習的綜合習題就是模擬登陸C

爬蟲練習之迴圈爬取網頁中全部連結(requsets同步)

驗證輸入的url是否可正常連線,無法連線提示使用者再次輸入,正常連線則返回url本身 def url_get(): url = input("請輸入要爬取的首頁url:") try

爬蟲練習之遞迴爬取入口頁面下所有連結(scrapy-redis分散式)

1. 實現scrapy-redis前的一些準備 pycharm中安裝scrapy和scrapy-redis模組 pycharm中開啟scrapy-redis原始碼所在資料夾同scrapy用法,修改四個檔案items, settings, pipelin

Python練習三:爬蟲練習,從一個提供免費代理的網站中爬取IP地址資訊

西刺代理,http://www.xicidaili.com/,提供免費代理的IP,是爬蟲程式的目標網站. 開始寫程式 import urllib.requestimport re def open_url(url): 　　req = urllib.request.Request(url) 　　req

Python進階(十八)-Python3爬蟲小試牛刀之爬取CSDN部落格個人資訊

分享一下我的偶像大神的人工智慧教程！http://blog.csdn.net/jiangjunshow 也歡迎轉載我的文章，轉載請註明出處 https://blog.csdn.net/mm2zzyzzp Python進階(十八)-Python3爬蟲實踐

Java練習之使用Map集合新增學生資訊

public class MapTest { public Map<String,Student> students; public MapTest() { super(); this.students = new HashMap<String,Stude

分析並爬取美團美食資訊的一個簡單爬蟲練習。

閒來無聊，感覺美團資訊可能會爬取有點難度，so，我就想來試一試爬取一下美團的美食的資訊，不過，經過搜尋，也有大佬做過了，但是我自己做的呢，還是寫下來分享一下吧，畢竟是自己寫出來的程式碼。依然用到的是Python3，Request，bs4裡面的Beauti

企業資訊保安之社工學審計

0x00前言在現代的資訊保安中，資料洩露已成為常態。在日常的生活中，各種社交軟體和各種網路平臺的盛行強烈地吸引著眾多的網民去註冊。其中社交軟體和各種跨平臺賬號登入基本上都會涉及到郵箱、賬號、QQ號碼、手機號碼、身份證等多種個人敏感資訊。而這些資訊又在網際網路漏洞出現的

python爬蟲學習之定向爬取股票資訊

一、功能描述目標：獲取上交所和深交所所有股票的名稱和交易資訊輸出：儲存到檔案中技術路線：requests-bs4-re 二、選取原則：股票資訊靜態存在於HTML頁面中，非js程式碼生成，沒有robots協議限制三、程式的結構設計

Python爬蟲實戰專案之小說資訊爬取

我們以奇書網為例進行爬取網址：https://www.qisuu.la 一，先新建一個新的資料夾，名字自取，用於存放py檔案和爬取的資料二，找到要爬取的網站的ur和你自己瀏覽器的請求頭，（因為我是以奇書網為例，瀏覽器為火狐瀏覽器）

物件陣列增刪練習之《學生資訊管理系統（使用ArrayList）》

//請完善實驗給定程式碼，使得工程可以完成學生資訊的管理功能，主要功能包括：新增學生資料、列印學生名單、刪除學生資料三個功能。 import java.io.*; import java.util.ArrayList; import java.util.Scanner;

爬蟲學習之17：爬取拉勾網網招聘資訊（非同步載入+Cookie模擬登陸）

很多網站需要通過提交表單來進行登陸或相應的操作，可以用requests庫的POST方法，通過觀測表單原始碼和逆向工程來填寫表單獲取網頁資訊。本程式碼以獲取拉勾網Python相關招聘職位為例作為練習。開啟拉鉤網，F12進入瀏覽器開發者工具，可以發現網站使用了A

java物件陣列的增刪練習之《學生資訊管理系統》

題目要求：請完善實驗給定程式碼，使得工程可以完成學生資訊的管理功能，主要功能包括：新增學生資料、列印學生名單、刪除學生資料三個功能。方法：（1）新增資訊：每次空間不足時使用copyOf擴容或者每次都new一個數組來代替（2）刪除資訊：刪除第i個位置上

Python爬蟲實戰之爬取B站番劇資訊(詳細過程)

目標：爬取b站番劇最近更新輸出格式:名字+播放量+簡介那麼開始擼吧~ 用到的類庫： requests:網路請求 pyquery:解析xml文件，像使用jquery一樣簡單哦~ 1.分析頁面佈局，找到需要爬取的內

Go指南練習之《Web 爬蟲》(Web Crawler)

練習原文在這個練習中，將會使用 Go 的併發特性來並行執行 web 爬蟲。修改 Crawl 函式來並行的抓取 URLs，並且保證不重複。提示：你可以用一個 map 來快取已經獲取的 URL，但是需要注意 map 本身並不是併發安全的！

python爬蟲練習--爬上海法院開庭公告資訊

本次練習的物件是上海法院開庭公告資訊。資料來源如下：該網站是上海法院的官方網站，網站內會公示未來已確定的開庭資訊。如上圖所示，網站顯示共有資料30528條。這些資料就是本次爬蟲的目標。（一）分析頁面1. 開啟google瀏覽器開發者工具，點選頁面下一頁，觀察網路請求可以發現，

pyspider爬蟲框架之拉勾網招聘資訊爬取

需求遍歷所有職位目錄點選職位分類，進入之後按照地區抓取，職位名稱，釋出時間，薪酬，工作年限要求，學歷要求，招聘公司，所屬行業，所處輪次進入職位詳情頁，抓取HR聊天意願（用時），簡歷處理，活躍時段。程式碼程式碼有詳細的註解，就不一步一步講解了，

爬蟲學習之18：使用selenium和chrome-headerless爬取淘寶網商品資訊（非同步載入網頁）

登入淘寶網，使用F12鍵觀察網頁結構，會發現淘寶網也是非同步載入網站。有時候通過逆向工程區爬取這類網站也不容易。這裡使用selenium和chrome-headerless來爬取。網上有結合selenium和PlantomJS來爬取的，但是最新版的Seleniu

groovy爬蟲練習之——企業資訊

相關推薦