python爬取CVPR論文標題、作者、pdf連結並儲存到MySQL資料庫

阿新 • • 發佈：2022-05-13

訪問外網，程式跑的時間會長一點，耐心等待！

全部原始碼：

# -*- coding = utf-8 -*-
# @Time : 2022/5/13 9:33
# @Author :王敬博
# @File : spider.py
# @Software: PyCharm
from bs4 import BeautifulSoup  #網頁解析
import re    #正則表表達式文字匹配
import parsel as parsel
import urllib.request,urllib.error  #指定url，獲取網頁資料
import pymysql.cursors  #連線mysql資料庫 

num = 1;
def main():
    baseurl = "https://openaccess.thecvf.com/CVPR2019?day=2019-06-18"
    (datalist,num) = getData(baseurl)
    print("爬取完畢！")
    #調研分析資料函式
    conn(datalist,num)          #呼叫儲存函式
    print("儲存到資料庫！")
def askURL(url):
    head = {   #偽裝請求頭，模擬瀏覽器訪問
       "User-Agent":" Mozilla / 5.0(Linux;Android6.0;Nexus5 Build / MRA58N) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 99.0.4844.51Mobile Safari / 537.36 
"
    }
    request = urllib.request.Request(url,headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode('utf-8')
        #print(html)
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
         
if hasattr(e,"reason"):
            print(e.reason)
    return html  #返回爬到所有的html資料




def getData(baseurl):
    html = askURL(baseurl)
    selector = parsel.Selector(html)
    datalist = []
    titlelist = []
    authorlist = []
    abstractlist = []  #摘要列表
    datelist = []      #時間列表
    pdflist = []       #pdf連結列表
    href_list = selector.xpath('//dl/dt/a/@href').getall()
    href_list1 = []
    for href in href_list:
        href1 = 'https://openaccess.thecvf.com/'+href
        href_list1.append(href1)
    num = len(href_list1)
    for href in href_list1:
        href_data = askURL(href)
        selector_02 = parsel.Selector(href_data)
        paper_title =selector_02.xpath('// *[ @ id = "papertitle"]/text()').get()
        title = paper_title.strip()
        titlelist.append(title)
        paper_author = selector_02.xpath('//*[@id="authors"]/b/i/text()').get()
        authorlist.append(paper_author)
        papaer_abstract = selector_02.xpath('//*[@id="abstract"]/text()').get()
        abstract = papaer_abstract.strip()
        abstractlist.append(abstract)

        paper_date = selector_02.xpath('//*[@id="authors"]').get()
        finddata = re.compile(r'(CVPR)(.*),')
        paper_date = str(re.findall(finddata,paper_date))
        date = paper_date.replace("[('CVPR', '),"," ")
        date = date.replace("')]","")
        date = date.strip()
        datelist.append(date)

        pdflink = selector_02.xpath('//*[@id="content"]/dl/dd/a[1]').get()
        findpdflink = re.compile(r'<a href="../../(.*?)">pdf</a>')
        pdflink = str(re.findall(findpdflink, pdflink))
        pdflink = pdflink.replace("['", "")
        pdflink = pdflink.replace("']", "")
        pdflink = "https://openaccess.thecvf.com/" + pdflink
        pdflist.append(pdflink)

    for i in range(0,len(href_list1)):
        print(f"--------------正在爬取第{i}條--------------")
        data = []
        data.append(titlelist[i])
        data.append(authorlist[i])
        data.append(abstractlist[i])
        data.append(pdflist[i])
        data.append(datelist[i])
        datalist.append(data)

    return datalist,num


def conn(datalist,num):           #改成自己的資料庫資訊即可
    conn = pymysql.connect(host='localhost',user='root',password='1767737316.',database='paperdata',cursorclass=pymysql.cursors.DictCursor)
    cursor = conn.cursor()

    for i in range(0,num):
        print(f"--------------正在儲存第{i+1}條--------------")
        list = datalist[i]
        data1 = tuple(list)
        #print(data1)
        sql = 'insert into paper(title,author,abstract,pdflink,date1) values(%s,%s,%s,%s,%s)' #五個字串對應MySQL的列名
        # (2)準備資料  ，此外設定的字元長度一定要大一點。
        # (3)操作
        try:
            cursor.execute(sql, data1)
            conn.commit()
        except Exception as e:
            print('插入資料失敗', e)
            conn.rollback()  # 回滾
        # 關閉遊標
        # cursor.close()
        # 關閉連線
        # conn.close()

if __name__ == "__main__":
    main()

截圖

python爬取CVPR論文標題、作者、pdf連結並儲存到MySQL資料庫

訪問外網，程式跑的時間會長一點，耐心等待！全部原始碼： # -*- coding = utf-8 -*-

Python爬蟲爬取ECVA論文標題、作者、連結

1 import re 2 import requests 3 from bs4 import BeautifulSoup 4 import lxml 5 import traceback 6 import time

Python爬取微信公眾號文章、標題、文章地址

前言本文的文字及圖片過濾網路，可以學習，交流使用，不具有任何商業用途，如有問題請及時聯絡我們以作處理。

python爬蟲爬取CVPR2021論文標題和簡介

可以直接複製貼上然後改一下資料庫名字和密碼我使用的MySQL# -*- codeing = utf-8 -*-

Python 爬取B站UP主的所有視訊連結及詳細資訊

標題：Python 爬取B站UP主的所有視訊連結及詳細資訊原文連結：https://blog.xieqiaokang.com/posts/36033.html

Python爬取豆瓣電影、演員評分，平做出視覺化圖（律師函警告）

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

用Python爬取日向、櫻阪成員blog中的JPG檔案的url並將其下載到本地

前言目前可以使用這段程式碼爬取日向阪46（hinatazaka46.com）、櫻阪46(keyakizaka46.com)的成員blog圖

Python爬取B站視訊、番劇、電影進行下載

技術標籤：python人工智慧pythonlinux程式語言phpstorm 功能輸入B站視訊播放地址，開始下載支援斷點續傳,顯示當前下載進度和速度未登入狀態下，只能下載480p，登入後預設解析度為1080p，使用者可設定 Cookie支援

自己動手用Python爬取資料：涉及Selenium、Scrapy、高併發處理

如果你仔細觀察，就不難發現，懂爬蟲、學習爬蟲的人越來越多，一方面，網際網路可以獲取的資料越來越多，另一方面，像 Python這樣的程式語言提供越來越多的優秀工具，讓爬蟲變得簡單、容易上手。

用Python爬取7大視訊平臺的彈幕、評論，看這一篇就夠了

今天講解如何用python爬取芒果TV、騰訊視訊、B站、愛奇藝、知乎、微博這幾個常見常用的影視、輿論平臺的彈幕和評論，這類爬蟲得到的結果一般用於娛樂、輿情分析，如:新出一部火爆的電影，爬取彈幕評論分析他為什麼這

用 Python 爬取網易嚴選妹子內衣資訊，探究妹紙們的偏好

今天繼續來分析爬蟲資料分析文章，一起來看看網易嚴選商品評論的獲取和分析。

Python爬取資料並寫入MySQL資料庫的例項

首先我們來爬取 http://html-color-codes.info/color-names/ 的一些資料。按 F12 或 ctrl+u 審查元素，結果如下:

用python爬取歷史天氣資料的方法示例

某天氣網站（www.數字.com）存有2011年至今的天氣資料，有天看到一本爬蟲教材提到了爬取這些資料的方法，學習之，並加以改進。

Python爬取騰訊視訊評論的思路詳解

一、前提條件安裝了Fiddler了（用於抓包分析）谷歌或火狐瀏覽器如果是谷歌瀏覽器，還需要給谷歌瀏覽器安裝一個SwitchyOmega外掛，用於代理伺服器

Python爬取愛奇藝電影資訊程式碼例項

這篇文章主要介紹了Python爬取愛奇藝電影資訊程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python爬取豆瓣視訊資訊程式碼例項

這篇文章主要介紹了Python爬取豆瓣視訊資訊程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python爬取破解無線網路wifi密碼過程解析

前言今天從WiFi連線的原理，再結合程式碼為大家詳細的介紹如何利用python來破解WiFi。

Python爬取知乎圖片程式碼實現解析

首先，需要獲取任意知乎的問題，只需要你輸入問題的ID，就可以獲取相關的頁面資訊，比如最重要的合計有多少人回答問題。

python爬取Ajax動態載入網頁過程解析

常見的反爬機制及處理方式 1、Headers反爬蟲：Cookie、Referer、User-Agent 解決方案: 通過F12獲取headers,傳給requests.get()方法

python 爬取古詩文存入mysql資料庫的方法

使用正則提取資料，請求庫requests,看程式碼，在存入資料庫時，報錯ERROR 1054 (42S22): Unknown column ‘title\' in ‘field list\'。原來是我寫sql 有問題，sql = “insert into poem(title,author,content,creat

python爬取CVPR論文標題、作者、pdf連結並儲存到MySQL資料庫

訪問外網，程式跑的時間會長一點，耐心等待！

全部原始碼：

截圖

相關推薦