微醫網爬蟲（二） java實現

阿新 • • 發佈：2018-12-31

博主在之前的部落格（傳送門）中寫過使用爬蟲來採集微醫網的一些資訊，但是在採集醫生的歷史問診資訊時，網站卻使用了一些簡單的反爬機制阻礙我們採集這些資訊，這篇部落格主要來介紹一下如何爬取到微醫網醫生患者問診的資訊。

爬蟲在採集每一頁的資訊時，一般都會在url中設定pages以及每頁展示的數量，如圖所示，如果想完整地採集微醫網患者問診資訊時，必須要遍歷所有的頁數：

在一般情況下，我們只需要改變url中的與頁數有關的引數即可，如下圖所示：

但是在改變這個pageNo引數之後，發現系統根本就不認賬，並顯示沒有需要查詢的資訊。經過觀察發現後面的引數如sign何timestamp並不是不變的。每次請求的時候，這兩個引數都會發生變化。如果這兩個引數是js檔案生成的，那就比較麻煩了。不過，這兩個引數並不是實時生成的，而是在請求當前頁面時，就把下次請求的這兩個引數發過來了。如圖：

也就是說，在解析第n頁的時候，就可以把第n+1頁的這兩個引數給解析出來。

在實際程式設計實現的時候，帶上這些引數後，並沒有想要的結果。因此，應該還缺少一些其他的東西。一般情況下，大多數網站要求在請求時要帶上cookies資訊來確認一下身份。

Connection.Response res=null;
        try {
            res = Jsoup.connect("https://www.guahao.com/consultlist/89aa5e32-5609-426e-96bf-7e90d982bcca000/all").execute();
        }catch (IOException e){
            e.printStackTrace();
        }
        cookies=res.cookies();

然後在請求時帶上cookies就可以得到正確的返回資訊了。

doc=Jsoup.connect(url).cookies(cookies).get();

微醫網爬蟲（二） java實現

微醫網爬蟲（二） java實現

微醫網爬蟲（一） java實現

PDF技術（二）-Java實現Txt轉PDF檔案

【網路爬蟲】【java】微博爬蟲（二）：如何抓取HTML頁面及HttpClient使用

Python爬蟲（二）網絡爬蟲的尺寸與約束

基於C#.NET的高端智能化網絡爬蟲（二）（攻破攜程網）

用Java搭建微信公眾號（二）生成access_token

Java 微信公眾號（二）——獲取access_token

Java爬蟲（二）-- httpClient模擬Http請求+jsoup頁面解析

http程式設計系列（二）——java爬蟲實現刷個人部落格的訪問量

Python開發簡單爬蟲（二）---爬取百度百科頁面數據

Linux網絡（二）

微信小程序（二）框架的基本組成

Java學習筆記（二）---java 修飾符

（二）Java數組的使用

從0開始的微服務架構：（二）如何快速體驗微服務架構？

（二）java集合框架綜述

微服務架構 SpringCloud（二）Eureka（服務註冊和服務發現基礎篇）

JavaSE學習總結（二）——Java語言基礎

Python學習之路（三）爬蟲（二）

微醫網爬蟲（二） java實現

相關推薦