知網爬取

阿新 • • 發佈：2020-07-23

知網爬取勿做商用

import requests, time, parsel, re
from selenium.webdriver.chrome.options import Options
from urllib.parse import urlencode
from selenium import webdriver

session = requests.session()

proxyHost = "http-dyn.abuyun.com"
proxyPort = "9020"

# 代理隧道驗證資訊
proxyUser = "xxxx"
proxyPass = "xxxxx"

proxyMeta  
= "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
    "host": proxyHost,
    "port": proxyPort,
    "user": proxyUser,
    "pass": proxyPass,
}
proxies = {'http': proxyMeta, 'https': proxyMeta}

# 獲取首頁cookie
def cookie_request(search):
    chrome_options = Options()
    chrome_options.add_argument('--window-size=1920,1080 
')  # 設定視窗介面大小
    chrome_options.add_argument('--headless')
    driver = webdriver.Chrome(chrome_options=chrome_options)
    url = "https://kns.cnki.net/kns/brief/default_result.aspx"
    driver.get(url)
    driver.find_element_by_xpath('//*[@id="txt_1_value1"]').send_keys(search)

    # driver.switch_to.frame("iframeResult") 


    driver.find_element_by_xpath('//*[@id="btnSearch"]').click()

    frame = driver.find_element_by_xpath('//*[@id="iframeResult"]')  # 定位到iframe標籤
    driver.switch_to.frame(frame)  # 這個地方即將重新整理

    time.sleep(2)
    driver.find_element_by_xpath('//*[@id="J_ORDER"]/tbody/tr[1]/td/table/tbody/tr/td[2]/div[1]/a[1]').click()

    cookies_dic = {}
    for dict1 in driver.get_cookies():
        name = dict1['name']
        value = dict1['value']
        cookies_dic[name] = value
    # print(cookies_dic)
    driver.quit()
    NET_SessionId = cookies_dic.get('ASP.NET_SessionId')
    SID_kns = cookies_dic.get('SID_kns')
    cookie = f"ASP.NET_SessionId={NET_SessionId}; SID_kns={SID_kns};"

    headers = {
        "Referer": "https://kns.cnki.net/kns/brief/default_result.aspx",
        # "Cookie":"ASP.NET_SessionId=kvxz1ynkhwhzb0gqetuvderq; SID_kns=123106;",  # 只需要這兩個
        "Cookie": cookie,
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36"
    }
    return headers


# 拿取詳情頁
def requests_detail(url, title, authors, publication, timestamp, database):
    try:
        res = session.get(url, proxies=proxies, timeout=5)
    except:
        return
    data = parsel.Selector(res.text)
    place = data.xpath('//div[@class="orgn"]/span/a/text()')  # 發文單位
    if place:
        place = place[0].extract()
    else:
        place = None
    abstract_list = data.xpath('//*[@id="ChDivSummary"]/text()')
    abstract = ""  # 摘要
    if abstract_list:
        abstract_list = abstract_list.extract()
        for abs in abstract_list:
            abstract = abstract + abs
    keywords_list = data.xpath('//label[@id="catalog_KEYWORD"]/following-sibling::a/text()')
    keywords = ""
    if keywords_list:
        keywords_list = keywords_list.extract()
        for keyword in keywords_list:
            keyword = keyword.strip()
            keywords = keywords + keyword
    classno = data.xpath('//label[@id="catalog_ZTCLS"]/parent::p/text()')  # 分號類
    if classno:
        classno = classno[0].extract()
    else:
        classno = None

    publicationpic = data.xpath('//div[@class="cover"]/a/img/@src')  # 圖片  獲取不到
    if publicationpic:
        publicationpic = publicationpic[0].extract()
    else:
        publicationpic = None

    publicationen = data.xpath('//div[@class="sourinfo"]/p[2]/a/text()')  # 英文名
    if publicationen:
        publicationen = publicationen[0].extract()
    else:
        publicationen = None

    publicationdate = data.xpath('//div[@class="sourinfo"]/p[3]/a/text()')  # 發表時間
    if publicationdate:
        publicationdate = publicationdate[0].extract()
    else:
        publicationdate = None
    publication_title = data.xpath('//div[@class="sourinfo"]/p[1]/a/text()')  # 雜誌中文名
    if publication_title:
        publication_title = publication_title[0].extract()
    else:
        publication_title = None

    issn = data.xpath('//div[@class="sourinfo"]/p[4]/text()')  # issn
    if issn:
        issn = issn[0].extract().strip().strip('ISSN：')
    else:
        issn = None
    core = data.xpath('//div[@class="sourinfo"]/p[5]/text()')  # 核心刊物
    if core:
        core = core[0].extract()
    else:
        core = None

    dict1 = {}
    dict1['title'] = title
    dict1['authors'] = authors
    dict1['publication'] = publication
    dict1['timestamp'] = timestamp
    dict1['database'] = database
    dict1['place'] = place
    dict1['abstract'] = abstract
    dict1['classno'] = classno
    dict1['publicationpic'] = publicationpic
    dict1['publicationen'] = publicationen
    dict1['publicationdate'] = publicationdate
    dict1['publication_title'] = publication_title
    dict1['issn'] = issn
    dict1['core'] = core
    dict1['href'] = url
    print(dict1)


# 列表頁
def requests_list(count,search):
    headers = cookie_request(search)
    # datas = {
    #     # "pagename": "ASP.brief_default_result_aspx",
    #     # "isinEn": "1",
    #     # "dbPrefix": "CFLS",
    #     # "ConfigFile": "SCDBINDEX.xml",
    #     "keyValue": "腎結石"
    # }
    # url = "https://kns.cnki.net/kns/brief/brief.aspx?pagename=ASP.brief_default_result_aspx&isinEn=1&dbPrefix=SCDB&keyValue=%E8%82%BE%E7%BB%93%E7%9F%B3&S=1&sorttype="
    # url = "https://kns.cnki.net/kns/brief/brief.aspx?&pagename=ASP.brief_default_result_aspx&isinEn=1&dbPrefix=SCDB&S=1&sorttype="
    for i in range(1, count):
        url = "https://kns.cnki.net/kns/brief/brief.aspx?curpage=%s&RecordsPerPage=20&QueryID=11&ID=&turnpage=1&tpagemode=L&dbPrefix=CFLS&Fields=&DisplayMode=listmode&PageName=ASP.brief_default_result_aspx&t=1&" % i
        try:
            res = session.get(url, headers=headers,proxies=proxies, timeout=10)
        except:
            continue
        data = parsel.Selector(res.text)
        table = data.xpath('//table[@class="GridTableContent"]')
        if table:
            tr_list = table.xpath('//tr').extract()
            tr_list = tr_list[7:27]
            for tr in tr_list:
                data1 = parsel.Selector(str(tr))
                title = data1.xpath('//a[@class="fz14"]/text()')[0].extract()  # 標題
                href = data1.xpath('//a[@class="fz14"]/@href')[0].extract()  # 詳情頁
                res1 = re.search(r"FileName=(.*?)&", href)
                filename = res1.group().replace('FileName=', '').replace('&', '')
                href = "https://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CJFQ&dbname=CJFDAUTO&filename=%s" % filename
                author_list = data1.xpath('//td/a[@class="KnowledgeNetLink"]')
                authors = None  # 作者
                if author_list:
                    authors = ""
                    author_list = author_list.extract()
                    for author_html in author_list:
                        data2 = parsel.Selector(str(author_html))
                        author = data2.xpath('//a/text()')[0].extract().strip()
                        authors = authors + f"{author};"
                else:
                    author_list = data1.xpath('//td[@class="author_flag"]/text()')
                    if author_list:
                        authors = author_list[0].extract().strip()
                        if not authors:
                            author_list = data1.xpath('//td[@class="author_flag"]/a/text()')
                            if author_list:
                                authors = ""
                                author_list = author_list.extract()
                                for author in author_list:
                                    authors = authors + f"{author};"
                publication = data1.xpath('//tr/td[4]/a/text()')[0].extract()  # 來源
                timestamp = data1.xpath('//tr/td[5]/text()')[0].extract().strip()  # 發表日期
                database = data1.xpath('//tr/td[6]/text()')[0].extract().strip()  # 資料庫
                # print(title)
                requests_detail(href, title, authors, publication, timestamp, database)
        else:
            print("cookie校驗失敗！", i)
            # session = requests.session()
            # cookie_request()
            continue
    return True


# 翻頁
def page(search):
    headers = cookie_request(search)
    url = "https://kns.cnki.net/kns/brief/brief.aspx?curpage=1&RecordsPerPage=20&QueryID=11&ID=&turnpage=1&tpagemode=L&dbPrefix=CFLS&Fields=&DisplayMode=listmode&PageName=ASP.brief_default_result_aspx&isinEn=1&"
    res = session.get(url, headers=headers)
    data = parsel.Selector(res.text)
    try:
        page = data.xpath('//div[@class="pagerTitleCell"]/text()')[0].extract().strip()
        page = page.replace('找到', '').replace('條結果', '').replace(',', '').strip()
        page = int(page)  # 總數
        print("總計：%s 條資料" % page)
        page = int(page / 20) + 2

        return page
    except:
        return False


def main(search):
    count = page(search)
    if count:
        requests_list(count,search)
    else:
        print("獲取cookie失敗，請重新執行！")


search = input("請輸入搜尋關鍵字: ").strip()

if __name__ == '__main__':
   main(search)

知網爬取

知網爬取勿做商用 import requests, time, parsel, re from selenium.webdriver.chrome.options import Options

寫一個簡單node爬蟲,將苑一峰 es6 教程網爬取轉為pdf 檔案

準備工作，很簡單，只需要安裝好node 環境就可以了，另外安裝一個谷歌開發的一個爬蟲框架，puppeteer,這個模組很強大，可以模擬瀏覽器做很多事情，大家可以去官網去學習一下，不多說，直接上程式碼

#read.pyimport scrapyfrom readbook.items import ReadbookItemfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Ruleclass ReadSpider(CrawlSpider):name = \'read\'allo

爬蟲_scrapy_噹噹網爬取資料

1.建立專案 scrapy startproject scrapy_dangdang 2.建立一個爬蟲檔案爬取地址：http://category.dangdang.com/cp01.01.02.00.00.00.html

Python爬蟲實戰，Scrapy實戰，爬取並簡單分析知網中國專利資料

前言今天我們就用scrapy爬一波知網的中國專利資料並做簡單的資料視覺化分析唄。讓我們愉快地開始吧~

實操 | 從0到1教你用Python來爬取整站天氣網

Scrapy Scrapy是Python開發的一個快速、高層次的螢幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的資料。

用 Python 爬取網易嚴選妹子內衣資訊，探究妹紙們的偏好

今天繼續來分析爬蟲資料分析文章，一起來看看網易嚴選商品評論的獲取和分析。

Python爬蟲 scrapy框架爬取某招聘網存入mongodb解析

建立專案 scrapy startproject zhaoping 建立爬蟲 cd zhaoping scrapy genspider hr zhaopingwang.com 目錄結構

Python爬蟲爬取煎蛋網圖片程式碼例項

這篇文章主要介紹了Python爬蟲爬取煎蛋網圖片程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

python爬蟲爬取筆趣網小說網站過程圖解

首先：文章用到的解析庫介紹 BeautifulSoup： Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。

Python爬取知乎圖片程式碼實現解析

首先，需要獲取任意知乎的問題，只需要你輸入問題的ID，就可以獲取相關的頁面資訊，比如最重要的合計有多少人回答問題。

Python爬蟲實現使用beautifulSoup4爬取名言網功能案例

本文例項講述了Python爬蟲實現使用beautifulSoup4爬取名言網功能。分享給大家供大家參考，具體如下：

Python利用Xpath選擇器爬取京東網商品資訊

HTML檔案其實就是由一組尖括號構成的標籤組織起來的，每一對尖括號形式一個標籤，標籤之間存在上下關係，形成標籤樹；XPath 使用路徑表示式在 XML 文件中選取節點。節點是通過沿著路徑或者 step 來選取的。

Python CSS選擇器爬取京東網商品資訊過程解析

CSS選擇器目前，除了官方文件之外，市面上及網路詳細介紹BeautifulSoup使用的技術書籍和部落格軟文並不多，而在這僅有的資料中介紹CSS選擇器的少之又少。在網路爬蟲的頁面解析中，CCS選擇器實際上是一把效率甚高的利

Python爬蟲例項——scrapy框架爬取拉勾網招聘資訊

本文例項為爬取拉勾網上的python相關的職位資訊,這些資訊在職位詳情頁上,如職位名,薪資,公司名等等.

selenium自動爬取網易易盾的驗證碼

我們在爬蟲過程中難免會遇到一些攔路虎，比如各種各樣的驗證碼，時不時蹦出來，這時候我們需要去識別它來繼續我們的工作，接下來我將爬取網一些滑動驗證碼，然後通過百度的EasyDL平臺進行資料標註，建立模型，訓練模

Python 爬取網易雲歌手的50首熱門作品

使用requests爬取網易雲音樂 Python程式碼： import json import os import time from bs4 import BeautifulSoup

04爬取拉勾網Python崗位分析報告

# 匯入需要的包import requestsimport time,randomfrom openpyxl import Workbookimport pymysql.cursors#@ 連線資料庫；# 這個是我本地上邊執行的程式，用來獲取代理伺服器。def get_proxy():try:PROXY_POOL_URL =

requests+re快速爬取颱風路徑網

要爬取的網站是浙江水利局的颱風路徑網站，在該網站不僅可以檢視當前正在發生的颱風實況，還可以檢視已發生過的颱風的歷史路徑，如下圖所示。

python爬取網易雲音樂熱歌榜例項程式碼

首先找到要下載的歌曲排行榜的連結，這裡用的是： https://music.163.com/discover/toplist?id=3778678

知網爬取

相關推薦