HttpUnit爬取中國知網特定大學網頁

阿新 • • 發佈：2018-12-03

繼昨天使用Selenium+ChromeDriver爬取中國知網頁面後，今天又想到了一些別的方法，就是HtmlUnit，作為一名萌新程式設計師，多寫寫總是好的，操蛋的是，還沒想出好的爬取方法。

奉上jar包

             <!-- https://mvnrepository.com/artifact/net.sourceforge.htmlunit/htmlunit -->
                    <dependency>
                        <groupId>net.sourceforge.htmlunit</groupId>
                        <artifactId>htmlunit</artifactId>
                        <version>2.29</version>
                    </dependency>

                <!-- https://mvnrepository.com/artifact/net.sourceforge.htmlunit/htmlunit-core-js -->
                <dependency>
                    <groupId>net.sourceforge.htmlunit</groupId>
                    <artifactId>htmlunit-core-js</artifactId>
                    <version>2.28</version>
                </dependency>

HtmlUnit就是無GUI的瀏覽器操作頁面，本質上還是一個瀏覽器，所以在本質上和Selenium差別不大吧，穩定性可能存在差異。

說一下我的思路把找到特定大學的網址，檢索出論文數量，和頁面數量，抓取每個論文連線特有的filename，然後點選下一頁，以福建農林大學為例，總共100355篇論文，我最多的時候抓取到了10339條記錄，還是不完善。

下面就是程式碼了：

package com.qdcz.plugins;

import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit 
.html.HtmlAnchor;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import com.gargoylesoftware.htmlunit.html.HtmlSpan;
import org.apache.commons.lang3.StringUtils;


import java.io.IOException;
import java.util.List;

public class CnkiPost {
    /*
    * 獲取動態url
    * throws IOException
    * InterruptedException
    * */ 

    public static void main(String args[]) throws IOException, InterruptedException {

        HtmlPage page=null;
        WebClient webClient=new WebClient();
        // 禁止JS
        //webClient.getOptions().setJavaScriptEnabled(false); 暫不需要下一頁需要js渲染點選
        // 禁止CSS
        webClient.getOptions().setCssEnabled(false);
        // 將返回錯誤狀態碼錯誤設定為false
        webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);
        // 啟動客戶端重定向
        webClient.getOptions().setRedirectEnabled(true);
        page=webClient.getPage("http://navi.cnki.net/knavi/PPaperDetail?pcode=CDMD&logo=GFJNU");

        //休息等待資料緩衝
        Thread.sleep(2000);

        //獲取總頁數
        List<HtmlSpan> span=page.getByXPath("//*[@id=\"partiallistcount2\"]");
        String nums=span.get(0).asText();
        int num=Integer.parseInt(nums);
        System.out.println(num);
        int y=0;
        for(int j=0;j<num;j++){
            List<HtmlAnchor> l=page.getByXPath("//*[@id=\"rightCatalog\"]/div[2]/div[2]/table/tbody/tr/td/a");
            //獲取論文的獨有的filename
            for(int i=0;i<l.size();i++){
                String links=StringUtils.substringAfter(l.get(i).toString(),"FD&amp;");
                String linkss=StringUtils.substringBefore(links,"&amp;tab");
                System.out.println("--"+ i+"--"+linkss);
                y++;
            }
            System.out.println("現在爬取到"+ (j+1)+"頁");
            //點選下一頁
            HtmlAnchor next=(HtmlAnchor) page.getByXPath("//*[@id=\"rightCatalog\"]/div[1]/div[2]/a[2]").get(0);
            next.click();
            Thread.sleep(3500);
        }
        System.out.println(y);


    }



}

老大布置的活過了幾天了，還是原地踏步，心塞，頭疼。
諸位有什麼好的想法，可以告知一下在下，不勝感激。

HttpUnit爬取中國知網特定大學網頁

繼昨天使用Selenium+ChromeDriver爬取中國知網頁面後，今天又想到了一些別的方法，就是HtmlUnit，作為一名萌新程式設計師，多寫寫總是好的，操蛋的是，還沒想出好的爬取方法。奉上jar包 <!-- https://mvnrepo

爬取中國知網CNKI的遇到的坑與技術總結

參考部落格及資料【python2.7】爬取知網論文 python實現CNKI知網爬蟲《Python3網路爬蟲開發實戰》崔慶才最近要寫一個數據分析的專案，需要根據關鍵詞爬取近十年期刊的主要資訊，記錄一下爬取過程中遇到的問題分析 cnki算是對爬蟲作了一定抵禦，我們要爬取學術論

requests爬取中國天氣網深圳七日天氣

dumps pat txt all resp att .sh asc code 1 # conding=utf-8 2 import json 3 import re 4 import requests 5 6 def get_data(url): 7

R語音 rvest爬取中國天氣網所有城市未來七天天氣資料並寫入oracle資料庫

本文使用R語音 rvest爬取中國天氣網所有城市未來七天天氣資料並寫入oracle資料庫，其中包括瞭如何使用R語言連線oracle資料庫，以及爬取時候的簡單策略，最後對爬取到的資料組裝成資料框並寫入資料庫，可以作為R語音初中級愛好者們很好的參考例子，當然這是我很久前寫

用python來爬取中國天氣網北京，上海，成都8-15天的天氣

2 爬取北京，上海，成都的天氣 from bs4 import BeautifulSoup import random import requests import socket impo

java使用jsoup抓取中國知網資料思路與測試記錄

前段時間測試抓取知網資料,弄了很久都失敗了,然後就不想弄了.... 今天重新整理,記錄下來,成功與否都能做個參考. 測試 cookies 第一次訪問網站的時候返回的一個cookies,裡面有4

Java爬取中國天氣網實況天氣資料

因實驗室需求，需要找一個實況天氣API。百度雲、阿里雲、騰訊雲上邊我都去找了，很多平臺要麼沒有，要麼要收費(免費的可呼叫次數太少了)。而我在高德開放平臺上找到了一個，但是不符合要求，被老師pass掉了。百度搜一下，基本上都是用Python自動化測試Selenium寫的，那也太

使用Python去爬取中國天氣網的近7天天氣情況

import requests from bs4 import BeautifulSoup address = 'http://www.weather.com.cn/weather/101{}.shtml' for i in range(1,24): z =

R語言爬取中國天氣網單個城市實時天氣預報資料

在傳統零售行業，雨天天氣大概會影響晴天30%-40%的銷售業績，所以從網上獲取天氣資料來作分析，並根據天氣資料作出預測，提前做好預防措施和提醒業務人員，把損失減少到最低就顯得十分重要，用R語言的rvest包就可以方便抓取天氣資料：本文章的例子僅用於學習之用，

使用selenium + chrome爬取中國大學Mooc網的計算機學科的所有課程鏈接

link_list () cat 圖片谷歌瀏覽器 dom tps 類名異步加載目的：使用selenium + chrome爬取中國大學Mooc網計算機學科的所有的課程鏈接列表思路：找到每個分頁的節點屬性為class=”m-course-list” 的div元素，再找

【Python爬蟲】從html裏爬取中國大學排名

ext 排名所有一個 requests 空格創建 .text request from bs4 import BeautifulSoupimport requestsimport bs4 #bs4.element.Tag時用的上#獲取網頁頁面HTMLdef

python 爬蟲例項爬取中國大學排名

import requests from bs4 import BeautifulSoup import bs4 def gegHTMLText(url): try: r = requests.get(url) r.raise_for_status()

對爬取中國裁判文書網的分析

相信做爬蟲的小夥伴們遇到‘中國裁判文書網’，就感覺無從下手。沒關係，救星來了，幫你快速理清爬蟲思路。一.工具：谷歌瀏覽器二.要爬取的內容：所有案件的決定書的詳細內容。例：但右鍵檢視‘網頁原始碼’，卻什麼內容都沒有。三.裁判文書網分析： 1.該網站是動

爬取中國福彩網

import requests import json import pandas as pd import csv cookies = { 'UniqueID': 'xfxbgZKQTNlC0laj1534566549004', 'Sites': '_21',

python爬蟲遇到驗證碼的處理方法（以爬取中國執行資訊公開網為例）

朋友們大家好，python爬蟲是在學習python時比較容易上手的學習方式，爬蟲的思路簡要以下幾點： 1.獲取需要爬取頁面的網址，並且對網頁內容進行分析。（主要就原始碼討論，如果我們需要的內容沒有在原始碼出現，則需要進行抓包分析） 2.找到我們需要爬取的內容時我們

Python 爬蟲-模擬登入知乎-爬取拉勾網職位資訊

用Python寫爬蟲是很方便的,最近看了xlzd.me的文章，他的文章寫的很到位，提供了很好的思路。因為他的文章部分程式碼省略了。下面是基於他的文章的三個程式碼片段: 基於Python3,Python2的話需要修改下input輸入函式和print的用法。爬取豆瓣電影top250 爬取拉勾網職位資訊模擬

爬取中國大學排名

看到結果真是傷心~~~~~。 import requests from bs4 import BeautifulSoup import bs4 def get_html(url): #獲取網頁內容 try: page=requests

python3 [爬蟲入門實戰]爬蟲之scrapy爬取中國醫學人才網

自己第一次試著用scrapy進行爬取網頁，總共爬下9240條資料，也就兩分鐘不到，400多頁吧。用的比較簡單，但是爬取成功後感覺成就感滿滿的。來張爬取結果圖爬取欄位： “hospitalName”: “hospitalDesc”

Java爬蟲實踐：Jsoup+HttpUnit爬取今日頭條、網易、搜狐、鳳凰新聞

0x0 背景最近學習爬蟲，分析了幾種主流的爬蟲框架，決定使用最原始的兩大框架進行練手： Jsoup&HttpUnit 其中jsoup可以獲取靜態頁面，並解析頁面標籤，最主要的是，可以採用類似於jquery的語法獲取想要的標籤元素，例如： /

使用Python爬取中國大學排名，並格式化對其輸出內容

首先，我們需要注意幾點 1.可以使用isinstance語句配合bs4庫中的bs4.element.Tag判斷獲取到的物件是不是標籤物件. 2.輸出內容並且要求他用空白補齊時，系統預設用的是英文空白

HttpUnit爬取中國知網特定大學網頁

相關推薦