python 批量下載知網(CNKI)論文

阿新 • • 發佈：2019-02-12

1、目的：
朋友找我去知網幫他下載點相關論文，發現老是要去點選文章。點選下載，顯得很麻煩，百度一下，別人的方法太複雜，所以自己寫了一個python指令碼自動下載知網論文。
2、前期準備
1）安裝python 2.7
2）安裝 selenium

pip install selenium

3）下載一個chromedriver.exe,放到指令碼同一個資料夾內
4）安裝chrome瀏覽器
3、直接擼程式碼
這裡寫圖片描述
（a）指定關鍵字下載知網論文

downloadCNKI.py

#!/usr/bin/env Python
# coding=utf-8
import  os
from 
 time import sleep
from selenium import webdriver

def browser_init(isWait):
    options = webdriver.ChromeOptions()
    prefs = {'profile.default_content_settings.popups': 0, 'download.default_directory': 'E:\\PycharmProjects\\downloadCNKI\\output'}
    options.add_experimental_option('prefs', prefs)

    browser = webdriver.Chrome(executable_path='chromedriver.exe' 
, chrome_options=options)
    browser.set_window_size(500,500)
    if isWait:
        browser.implicitly_wait(50)
    return browser

def searchKey(keyword):
    browser.get("http://kns.cnki.net/kns/brief/default_result.aspx")
    browser.find_element_by_id('txt_1_value1').send_keys(keyword)
    browser.find_element_by_id('btnSearch' 
).click()

def switchToFrame(browser):
    #print 'start switch'
    browser.switch_to.frame('iframeResult')
    #print 'end switch'

def getDownloadLinks(browser,paper_downloadLinks):
    for link in browser.find_elements_by_css_selector('a[href^=\/kns\/detail]'):
        #link.click()
        url=link.get_attribute('href')
        url_part = url.split('&')[3:6]
        url_str= '&'.join(url_part)
        down_url='http://kns.cnki.net/KCMS/detail/detail.aspx?'+url_str
        #print down_url
        paper_downloadLinks.append(down_url)

def switchToPage(browser,n):
    for link in browser.find_elements_by_css_selector('a[href^=\?curpage]'):
        url=link.get_attribute('href')
        print url
        pageInd='curpage=%d&'%n
        print pageInd
        if pageInd in url:
            print "page: "+url
            link.click()
            break
def switchNextPage(browser):
    browser.find_element_by_link_text(u'下一頁').click()

def do_download(driver,urls,fail_downLoadUrl):
    for url in urls:
        print url
        driver.get(url)
        paper_title=driver.title
        print "paper title"+paper_title
        if u'中國專利全文資料庫' in paper_title:
            continue
        print "try  download :"+paper_title
        try:
            driver.find_element_by_xpath("//a[contains(text(),'PDF下載')]").click()
            print "download success!!!"
        except Exception as e:
            try:
                driver.find_element_by_xpath("//a[contains(text(),'整本下載')]").click()
                print "download success!!!"
            except Exception as e:
                print "download fail!!!"
                fail_downLoadUrl.append(url)

def usage():
    print "example : python downloadCNKI.py -k keyword  -p 1"

if __name__=="__main__":

    keyword=u'三角形'      #論文搜尋的關鍵字
    pageNum = 1     # 下載多少頁的論文

    browser=browser_init(True)
    searchKey(keyword)
    switchToFrame(browser)
    paper_downloadLinks = []    #論文下載連結

    curPage=1
    while curPage<=pageNum:
        getDownloadLinks(browser,paper_downloadLinks)

        switchNextPage(browser);
        curPage+=1
    browser.quit()
    print "採集了%d條資料"% len(paper_downloadLinks)
    driver=browser_init(False)
    fail_downLoadUrl=[]         #記錄下失敗的網站
    do_download(driver,paper_downloadLinks,fail_downLoadUrl)
    print  fail_downLoadUrl
    tryNum=0
    #嘗試N次重新下載沒有下載的
    while tryNum<5:
        if len(fail_downLoadUrl) !=0:
            paper_downloadLinks=fail_downLoadUrl
            fail_downLoadUrl=[]
            do_download(driver, paper_downloadLinks, fail_downLoadUrl)
            print fail_downLoadUrl
        else:
            break
        tryNum+=1
    sleep(60)
    driver.quit()

（b）指定論文題目下載知網論文
這個需要和指令碼同目錄下新建一個downfile.txt，按行存放需要下載題目

指定題目到downfile.txt的知網下載.py

#!/usr/bin/env Python
# coding=utf-8
import  os
from time import sleep
from selenium import webdriver

def browser_init(isWait):
    options = webdriver.ChromeOptions()
    prefs = {'profile.default_content_settings.popups': 0, 'download.default_directory': 'E:\\PycharmProjects\\downloadCNKI\\output'}
    options.add_experimental_option('prefs', prefs)

    browser = webdriver.Chrome(executable_path='chromedriver.exe', chrome_options=options)
    browser.set_window_size(500,500)
    if isWait:
        browser.implicitly_wait(50)
    return browser

def searchKey(keyword):
    browser.get("http://kns.cnki.net/kns/brief/default_result.aspx")
    browser.find_element_by_id('txt_1_value1').send_keys(keyword)
    browser.find_element_by_id('btnSearch').click()

def switchToFrame(browser):
    #print 'start switch'
    browser.switch_to.frame('iframeResult')
    #print 'end switch'

def getDownloadLinks(browser,paper_downloadLinks):
    for link in browser.find_elements_by_css_selector('a[href^=\/kns\/detail]'):
        #link.click()
        url=link.get_attribute('href')
        url_part = url.split('&')[3:6]
        url_str= '&'.join(url_part)
        down_url='http://kns.cnki.net/KCMS/detail/detail.aspx?'+url_str
        #print down_url
        paper_downloadLinks.append(down_url)

def getKeywordDownloadLink(browser,keyword,paper_downloadLinks):
    link=browser.find_element_by_link_text(keyword)
    url = link.get_attribute('href')
    #print url
    url_part = url.split('&')[3:6]
    url_str = '&'.join(url_part)
    down_url = 'http://kns.cnki.net/KCMS/detail/detail.aspx?' + url_str
    #print down_url
    paper_downloadLinks.append(down_url)


def switchToPage(browser,n):
    for link in browser.find_elements_by_css_selector('a[href^=\?curpage]'):
        url=link.get_attribute('href')
        print url
        pageInd='curpage=%d&'%n
        print pageInd
        if pageInd in url:
            print "page: "+url
            link.click()
            break
def switchNextPage(browser):
    browser.find_element_by_link_text(u'下一頁').click()

def do_download(driver,urls,fail_downLoadUrl):
    for url in urls:
        print url
        driver.get(url)
        paper_title=driver.title
        print "paper title"+paper_title
        if u'資料庫' in paper_title:
            continue
        print "try  download :"+paper_title
        try:
            driver.find_element_by_xpath("//a[contains(text(),'PDF下載')]").click()
            print "download success!!!"
        except Exception as e:
            try:
                driver.find_element_by_xpath("//a[contains(text(),'整本下載')]").click()
                print "download success!!!"
            except Exception as e:
                print "download fail!!!"
                fail_downLoadUrl.append(url)

def usage():
    print "example : python downloadCNKI.py -k keyword  -p 1"

if __name__=="__main__":

    paper_downloadLinks = []  # 論文下載連結
    pageNum = 1  # 下載多少頁的論文
    browser = browser_init(True)

    file = open("downfile.txt")
    lineDatas = file.readlines();
    for line in lineDatas:
        keyword=line.strip('\n').decode('gbk')
        #keyword=u'三角形'      #論文搜尋的關鍵字
        print u"採集： %s"% keyword
        searchKey(keyword)
        switchToFrame(browser)
        downloadLinks=[]
        getKeywordDownloadLink(browser,keyword,downloadLinks)

        paper_downloadLinks.append(''.join(downloadLinks))
    file.close()
    browser.quit()


    print "採集了%d條資料"% len(paper_downloadLinks)

    driver=browser_init(False)
    fail_downLoadUrl=[]         #記錄下失敗的網站
    do_download(driver,paper_downloadLinks,fail_downLoadUrl)
    print  fail_downLoadUrl
    tryNum=0
    #嘗試N次重新下載沒有下載的
    while tryNum<5:
        if len(fail_downLoadUrl) !=0:
            paper_downloadLinks=fail_downLoadUrl
            fail_downLoadUrl=[]
            do_download(driver, paper_downloadLinks, fail_downLoadUrl)
            print "重新下載 ",
            print  fail_downLoadUrl
        else:
            break
        tryNum+=1
    sleep(60)
    driver.quit()

很好用，讓我幫助同學下載知網論文，媽媽再也不要擔心我點錯了。。。

python 批量下載知網(CNKI)論文

1、目的：朋友找我去知網幫他下載點相關論文，發現老是要去點選文章。點選下載，顯得很麻煩，百度一下，別人的方法太複雜，所以自己寫了一個python指令碼自動下載知網論文。 2、前期準備 1）安裝python 2.7 2）安裝 seleni

python批量下載上次論文，還在爬取貼吧圖片？快用批量下載sci論文吧，根據標題名或者DOI批量下載 scihub 科研下載神器

昨晚在下載scil論文，一共295篇，手動下載的話豈不是要累si? 於是想到有沒有批量下載sci論文的。在web of science 上匯出下載問下的標題、DOI等txt檔案，然後篩選得到DOI和標題，儲存為新檔案。通過迴圈得到DOI與標題，下載並儲存成標題命名。程式參考如下

如何免費下載知網論文

很多時候無法下載知網論文非常麻煩，最近在網上發現了一種方法，勉強可以使用，分享一下。賬號：bylib 密碼：bylib 登陸後，點選知網輸入搜尋的關鍵詞，測試了很久，這個地方

python批量下載色影無忌和蜂鳥的圖片爬蟲小應用

exce pen 應用 content 沒有 str1 .com pat tar 有些冗余信息。由於之前測試正則表達式。所以沒有把它們給移走。只是不影響使用。# -*- coding:utf-8 -*- import re,urllib,sys,os,time de

用python自動下載官網最新發布的新卡

最新 imp 元素 etc fin 聯系照片 import ftime 學習+興趣結合聯系爬取圖片（感覺還行，就是有點慢，135張圖片花了37秒，改天用多線程試試）： #encoding=utf-8import requests,re,os,timefrom bs4 im

python 批量下載網頁裏的圖片

www file header range .html filename 表達則表達式進行 python 3.* import requestsimport sys,re#設置提取圖片url 的正則表達式imgre = re.compile(r"<img

python批量下載照片

pytho url rdl 路徑 usr arch urllib2 打開目的 #!/usr/bin/python # _*_ coding: utf-8 _*_ ‘‘‘ Created on 2018年8月22日 ‘‘‘ # 導入包 import urllib im

爬取中國知網CNKI的遇到的坑與技術總結

參考部落格及資料【python2.7】爬取知網論文 python實現CNKI知網爬蟲《Python3網路爬蟲開發實戰》崔慶才最近要寫一個數據分析的專案，需要根據關鍵詞爬取近十年期刊的主要資訊，記錄一下爬取過程中遇到的問題分析 cnki算是對爬蟲作了一定抵禦，我們要爬取學術論

python批量下載網站圖片照片

1. 分析 1.1 Chrome除錯在chrome瀏覽器裡輸入快捷鍵Cmd + Opt + I（Windows上是F12,或Ctrl + Shift + I），將除錯選項切到Network，如下一個個觀察此網頁傳送的請求，找到和圖片相關的請求這是一個get請求，初步

利用python批量下載ERA的資料

終於開始用python了，只學了兩天的python小白上線下載資料（被逼的）。其實這個有一些很好的教程，我直接貼上好了。批量下載的教程其中的一些引數官網的解釋很清楚的，可以先試著下載一個月的資料，再獲取它的request提供參考最後是我的一些程式碼，以及註釋這

python批量下載pdf

有規則的資料，知道PDF地址，批量下載PDF # -*- coding: UTF-8 -*- import requests import os import sys reload(sys) sys.setdefaultencoding('utf8') dict = [['資料夾名1','PD

python批量下載美女圖片

今天實現一個使用python requests模組爬取http://www.mzitu.com/xinggan/網站的妹子圖片，並儲存到本地，效果如下：先說下思路：獲取所有的url頁獲取當前頁的所有url和標題，根據標題建立資料夾解析指定u

大學生如何利用知網檢測論文

隨著畢業季節的臨近，越來越多的大學生將面臨知網檢測論文的難關。我相信很多大學生都從學長學姐那裡聽說過這樣一回事。一般來說，學校提供的免費查重機會只有一次，超過次數就要自己花錢解決啦。如果論文被抽查並且沒有通過，就將失去今年畢業的資格。那麼，大學生如何利用知網檢測論文呢？因此，雖然市場上

Python 批量下載驗證碼圖片及切割驗證碼圖片，識別驗證碼，並以識別的文字重命令驗證碼

1、Python 批量下載驗證碼圖片 2、批量切割驗證碼圖片 3、識別驗證碼，並以識別的文字重命令驗證碼 #!C:/Python27 #coding=utf-8 import pytesseract from pytesser import * from PIL imp

聽歌音樂還要我付費？看我用Python批量下載

百度VIP音樂爬取網頁分析分析音樂的真實地址 url拼接獲取所有資料批量獲取singid 程式碼編寫獲取所有的songid 根據songid獲取音樂的真實地址儲存音樂檔案無版權音樂稻香的爬取網頁分析目標站點：網頁

自從會了Python在群裏鬥圖就沒輸過，Python批量下載表情包！

req ESS 有時技術含量 cmd 哪裏學習python 以及 python學習導語最近圖慌，於是隨便寫了個表情包批量下載的腳本，沒什麽技術含量，純娛樂性質。讓我們愉快地開始吧~ 開發工具 Python版本：3.6.4 相關模塊： requests模塊； fa

python 爬取知網url

由於知網存在非同步載入，爬取需要獲得queryid，cookies等程式碼如下： #coding:utf-8 ''' Created on 2016-8-15 @author: 劉帥 ''' import urllib2 from bs4 impor

python批量下載圖片的三種方法

一是用微軟提供的擴充套件庫win32com來操作IE： win32com可以獲得類似js裡面的document物件，但貌似是隻讀的（文件都沒找到）。　　二是用selenium的webdriver： selenium則提供了Chrome，IE，FireFox等的支援，每種瀏覽

中國知網(CNKI)驗證碼識別

中國知網(CNKI)是最重要的中文學術資源資料庫，收錄絕大多數中文學術刊物。我們可以檢索論文，也可以匯出檢索結果前6000條論文的題錄資料。在CNKI檢索結果翻頁10次以上，使用者需要手動輸入驗證碼才能繼續。為了實現自動化題錄資料匯出，我們就需要通過程式識別驗證碼。最終，基於Eugu.CV實現驗證碼識別，

知網下載論文CAJ格式轉為PDF格式

方案2.1：把從中國知網上下載的CAJ檔案轉換為PDF格式安裝虛擬印表機是能夠把檔案轉換為PDF格式最關鍵的一步。在網上隨意下載一款虛擬印表機，並安裝成功。我用的是福晰閱讀器自帶的虛擬印表機！！點評方案2.1：方法可行，可以將caj格式轉換成pd

python 批量下載知網(CNKI)論文

相關推薦