使用python爬蟲抓取學術論文

阿新 • • 發佈：2019-01-02

介紹

這是一個很小的爬蟲，可以用來爬取學術引擎的pdf論文，由於是網頁內容是js生成的，所以必須動態抓取。通過selenium和chromedriver實現。可以修改起始點的URL從穀粉搜搜改到谷歌學術引擎，如果你的電腦可以翻牆。可以修改關鍵字和搜尋頁數搜尋需要的論文

資源下載

selenium和chromedriver，2015-3月最新版本下載地址 http://pan.baidu.com/s/1qWLqqqK
注意執行程式前啟動selenium 命令為 java -jar selenium.jar

python程式碼

#!/usr/bin/python
#encoding=utf-8 

__author__ = 'Administrator'
from selenium import selenium

if __name__ == "__main__":
    import os
    from selenium import webdriver
    from selenium.webdriver.support.ui import WebDriverWait

    chromedriver = "C:\Program Files\Google\Chrome\Application\chromedriver.exe"
    os.environ["webdriver.chrome.driver" 
] = chromedriver
    driver = webdriver.Chrome(chromedriver)
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    driver.get('http://www.gfsoso.com/scholar')
    inputElement = driver.find_element_by_name("q")
    searchWord="sentiment lexicon"
    inputElement.send_keys(searchWord)
    inputElement.submit()
    currentURL=driver.current_url
    urlList=[]
    localDir = 'down_pdf\\' 

    fileOut = localDir + searchWord + ".txt"
    import urllib, re,codecs,sys
    fileOp = codecs.open(fileOut, 'a', sys.getdefaultencoding())
    for i in range(0,10):#需要抓取的頁數
        pdf_url = driver.find_elements_by_css_selector("a")
        for k in pdf_url:
            try:
                z= k.get_attribute("href")
                if '.pdf' in z and z not in urlList:
                    urlList.append(z)
                    print z
            except:
                import time
                time.sleep(1)
                continue
        contents=driver.find_elements_by_css_selector('h3')
        for ct in contents:
            print ct.text
            #fileOp.write('%s\n' %(ct.text))#把頁面上所有的文章名稱存到txt，有時會報錯
        driver.get(currentURL+"&start="+str(i*10)+"&as_sdt=0,5&as_ylo=2008")
        import time
        time.sleep(3)
    print len(urlList)

    for everyURL in urlList:                                  #遍歷列表的每一項，即每一個PDF的url
            wordItems = everyURL.split('/')                   #將url以/為界進行劃分，為了提取該PDF檔名
            for item in wordItems:                            #遍歷每個字串
                    if re.match('.*\.pdf$', item):            #查詢PDF的檔名
                            PDFName = item                    #查詢到PDF檔名
            localPDF = localDir +searchWord+"_"+ PDFName                   
            try:
                    urllib.urlretrieve(everyURL, localPDF)    #按照url進行下載，並以其檔名儲存到本地目錄
            except Exception,e:
                    continue

使用python爬蟲抓取學術論文

介紹這是一個很小的爬蟲，可以用來爬取學術引擎的pdf論文，由於是網頁內容是js生成的，所以必須動態抓取。通過selenium和chromedriver實現。可以修改起始點的URL從穀粉搜搜改到谷歌學術引擎，如果你的電腦可以翻牆。可以修改關鍵字和搜尋頁數

Python爬蟲抓取煎蛋(jandan.net)無聊圖

下載 logs start input req com read ref color 1 #!/usr/bin/python 2 #encoding:utf-8 3 ‘‘‘ 4 @python 3.6.1 5 @author: [email prote

Python爬蟲抓取東方財富網股票數據並實現MySQL數據庫存儲

alt 插入 pytho width 重新 tab 空值 utf word Python爬蟲可以說是好玩又好用了。現想利用Python爬取網頁股票數據保存到本地csv數據文件中，同時想把股票數據保存到MySQL數據庫中。需求有了，剩下的就是實現了。在開始之前，保證已經

python爬蟲抓取zabbix監控圖，並發郵件

python 抓取最近十九大非常煩，作為政府網站維護人員，簡直是夜不能寐。各種局子看著你，內保局，公安部，360，天融信，華勝天成，中央工委，政治委員會...360人員很傻X，作為安全公司，竟然不能抓到XX網站流量，在我們機房放的探針更是搞笑，讓我們手工上報流量數據。白天還行，晚上怎麽辦？給他寫個腳

Python爬蟲--抓取單一頁面上的圖片文件學習

python 爬蟲 #！/usr/bin/python import sys #正則表達式庫 import re import urllib def getHtml(url): page = urllib.urlopen(url) html = page.read() ret

Python爬蟲 —— 抓取美女圖片

In root lxml 取圖 ext time style main HR 代碼如下： 1 #coding:utf-8 2 # import datetime 3 import requests 4 import os 5 import sys

Python爬蟲 —— 抓取美女圖片（Scrapy篇）

parse color 爬蟲 select 尺度 dex -i www 模塊雜談：之前用requests模塊爬取了美女圖片，今天用scrapy框架實現了一遍。（圖片尺度確實大了點，但老衲早已無戀紅塵，權當觀賞哈哈哈） Item: # -*- codi

python爬蟲-- 抓取網頁、圖片、文章

零基礎入門Python，給自己找了一個任務，做網站文章的爬蟲小專案，因為實戰是學程式碼的最快方式。所以從今天起開始寫Python實戰入門系列教程，也建議大家學Python時一定要多寫多練。目標 1，學習Python爬蟲 2，爬取新聞網站新聞列表 3，爬取圖片 4，把爬取到的資料存在本地

Python爬蟲抓取純靜態網站及其資源

遇到的需求前段時間需要快速做個靜態展示頁面，要求是響應式和較美觀。由於時間較短，自己動手寫的話也有點麻煩，所以就打算上網找現成的。中途找到了幾個頁面發現不錯，然後就開始思考怎麼把頁面給下載下來。由於之前還沒有了解過爬蟲，自然也就沒有想到可以用爬蟲來抓取網頁內容。所以我採取的辦法

用python爬蟲抓取視訊網站所有電影

執行環境 IDE丨pycharm 版本丨Python3.6 系統丨Windows ·實現目的與思路· 目的：實現對騰訊視訊目標url的解析與下載，由於第三方vip解析，只提供線上觀看，隱藏想實現對目標視訊的下載思路：首先拿到想要看的騰訊電影url,通過第三方vip視訊解析網站進

Python爬蟲-抓取divnil動漫妹子圖

目標網站 https://divnil.com 首先看看這網站是怎樣載入資料的; 開啟網站後發現底部有下一頁的按鈕，ok，爬這個網站就很簡單了; 學習Python中有不明白推薦加入交流群

第一個Python爬蟲-抓取煎蛋網上圖片

背景作為一個計算機基礎薄弱的電氣工程師，廖大的教程看到常用的內建模組時，看的頭大，特別是看到HTMLParser時，已宛如天書了。這時作為一個初學者的劣勢就暴露出來了，我不知道哪部分知識是理解這些模組的前置條件，即使知道是哪部分知識，但不知道該理解到什麼程度才能解決當前的問題。個人建議

Python爬蟲抓取大資料崗位招聘資訊（51job為例）

簡單介紹一下爬蟲原理。並給出 51job網站完整的爬蟲方案。爬蟲基礎知識資料來源網路爬蟲的資料一般都來自伺服器的響應結果，通常有html和json資料等，這兩種資料也是網路爬蟲的主要資料來源。其中html資料是網頁的原始碼，通過瀏覽器-檢視原始碼可

Python爬蟲抓取動態資料

一個月前實習導師佈置任務說通過網路爬蟲獲取深圳市氣象局釋出的降雨資料，網頁如下：心想，爬蟲不太難的，當年跟zjb爬煎蛋網無（mei）聊（zi）圖的時候，多麼清高。由於接受任務後的一個月考試加作業一大堆，導師也不催，自己也不急。但是，導師等我一個月都得讓我來寫意味著這

Python-爬蟲-抓取頭條街拍圖片-1.1

requested 所有圖片 parse 信息保存 creat type 一個 fse cursor 下面實例是抓取頭條圖片信息，只是抓取了查詢列表返回的json中image，大圖標，由於該結果不會包含該鏈接詳情頁的所有圖片列表；因此這裏抓取不全；後續有時間在完善； 1、抓

python 爬蟲, 抓取百度美女吧圖片

# ----2018-7-15 ------世界盃總決賽 import requests from lxml import etree import re class TiBa_Image(object): # 建立同意方法 def __init__(

python爬蟲抓取新華網新聞並自動生成word文件

認識一個在學校廣播電臺的學妹, 聽她說她們每天都要在網上找新聞, 國際, 國內, 和校內各五篇, 然後將其做成word文件列印, 個人感覺這種活非常浪費時間, 應該寫個程式幫我們自動完成. 後來沒事的時候就寫了這個python程式實現這個功能. 程式用pyth

python爬蟲-->抓取動態內容

上幾篇博文講的都是關於抓取靜態網頁的相關內容，但是現在市面上絕大多數主流網站都在其重要功能中依賴JavaScript，使用JavaScript時，不再是載入後立即下載所有頁面內容，這樣就會造成許多網頁在瀏覽器中展示的內容不會出現在html原始碼中。這時候再用前幾

Python爬蟲抓取女演員圖片

介紹利用Python爬蟲抓取日本女演員照片。遇到的最大問題就是該網站用了cloudflare以及其他的策略禁止爬蟲爬取資訊，導致urllib自帶的urlretrieve函式無法使用，而其他部分都較為

python爬蟲抓取圖片

關於python爬蟲一直以來是很著名的，林林總總也有很多方法，大致起來也就是一個原理。下面我來介紹一下我用的BeautifulSoup獲取的，正則獲取也很簡單，在這裡只說一下BeautifulSoup方法，使用伯樂線上網站作為參考的例子程式碼如下 #encoding

使用python爬蟲抓取學術論文

介紹

資源下載

python程式碼

相關推薦